학습정보

상관계수의 이해: 피어슨, 스피어만, 켄달의 차이점

MPH 2024. 12. 25. 00:01
728x90
반응형

데이터의 관계를 측정하는 상관계수란?

데이터 분석에서 변수 간 관계를 파악하는 것은 매우 중요합니다. 상관계수(correlation coefficient)는 두 변수 간의 선형적 또는 비선형적 관계를 나타내는 척도입니다. 상관계수의 값은 -1에서 1 사이로, 값이 1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를 의미합니다.
상관계수를 계산하는 방법에는 여러 가지가 있으며, 그중 가장 널리 쓰이는 방법이 피어슨(Pearson), 스피어만(Spearman), 켄달(Kendall) 상관계수입니다.


피어슨 상관계수: 선형 관계를 측정

정의

피어슨 상관계수는 두 변수 간의 선형적 관계를 측정합니다. 변수값의 평균과 표준편차를 활용하여 계산합니다

  • 공식

 

  • : 각 데이터 값
  • xˉ,: 각 변수의 평균값

 

특징

  • 값의 크기가 클수록 선형적 상관관계가 강함을 의미합니다.
  • 값이 0이면 두 변수 간 선형적 관계가 없음을 나타냅니다.
  • 이상치(outlier)에 매우 민감합니다.

활용 사례

  • 키와 몸무게 간 관계 분석.
  • 제품 가격과 판매량 간의 선형적 관계 확인.

스피어만 상관계수: 순위 기반 상관관계

정의

스피어만 상관계수는 데이터 값 대신 순위를 기반으로 한 비모수적(non-parametric) 방법입니다.

  • 공식

 

  • : 각 데이터 쌍의 순위 차이
  • : 데이터 

 

특징

  • 값의 순위에만 의존하므로 이상치에 덜 민감합니다.
  • 비선형적 관계도 측정할 수 있습니다.
  • 데이터를 정규분포로 가정하지 않아도 됩니다.

활용 사례

  • 학생의 시험 순위와 과제 점수 간 관계 분석.
  • 설문조사 순위 간 상관관계 평가.

켄달의 타우 상관계수: 순서 일치도 측정

정의

켄달 상관계수는 두 변수 간의 순서 일치도를 측정하는 방법입니다.

  • 공식

 

  • C: 순서가 일치하는 쌍의 수
  • D: 순서가 불일치하는 쌍의 수
  • n: 데이터 개수

 

특징

  • 두 변수의 순서 관계를 비교해 얼마나 일관성이 있는지를 나타냅니다.
  • 작은 데이터셋에 적합하며, 비선형적 관계도 측정 가능합니다.
  • 스피어만보다 해석이 직관적이지만 계산이 더 복잡합니다.

활용 사례

  • 팀 간 순위와 점수 간 상관관계 분석.
  • 논문 간 인용 관계의 순위 비교.

피어슨, 스피어만, 켄달 상관계수의 비교

특성 피어슨 상관계수 스피어만 상관계수 켄달 상관계수
관계 유형 선형적 관계 비선형적 순위 관계 순서 일치도
데이터 유형 연속형 데이터 순위형 데이터 순서형 데이터
이상치에 대한 민감도 민감 덜 민감 덜 민감
해석 용이성 높은 수학적 정확성 순위를 기반으로 간단 해석이 직관적
계산 복잡성 간단 보통 복잡

실전 예시로 알아보기

예시 1: 키와 몸무게

  • 키와 몸무게 간의 관계는 선형적일 가능성이 크므로 피어슨 상관계수를 사용하는 것이 적합합니다.

예시 2: 시험 순위와 과제 점수

  • 순위 데이터 간의 관계를 측정하기 위해 스피어만 상관계수가 유리합니다.

예시 3: 논문 인용 관계

  • 인용 순서가 얼마나 일치하는지를 확인하려면 켄달 상관계수를 활용할 수 있습니다.

적합한 상관계수 선택하기

  • 데이터가 연속형이고 선형 관계를 가정할 수 있다면 피어슨 상관계수
  • 데이터가 비선형적이거나 순위 데이터라면 스피어만 상관계수
  • 순서의 일관성을 평가하고 싶다면 켄달 상관계수

데이터 분석에서 상관계수를 올바르게 선택하는 것은 신뢰할 수 있는 결과를 얻는 핵심입니다.

728x90
반응형