728x90
반응형
데이터의 관계를 측정하는 상관계수란?
데이터 분석에서 변수 간 관계를 파악하는 것은 매우 중요합니다. 상관계수(correlation coefficient)는 두 변수 간의 선형적 또는 비선형적 관계를 나타내는 척도입니다. 상관계수의 값은 -1에서 1 사이로, 값이 1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를 의미합니다.
상관계수를 계산하는 방법에는 여러 가지가 있으며, 그중 가장 널리 쓰이는 방법이 피어슨(Pearson), 스피어만(Spearman), 켄달(Kendall) 상관계수입니다.
피어슨 상관계수: 선형 관계를 측정
정의
피어슨 상관계수는 두 변수 간의 선형적 관계를 측정합니다. 변수값의 평균과 표준편차를 활용하여 계산합니다
- 공식
- : 각 데이터 값
- xˉ,: 각 변수의 평균값
특징
- 값의 크기가 클수록 선형적 상관관계가 강함을 의미합니다.
- 값이 0이면 두 변수 간 선형적 관계가 없음을 나타냅니다.
- 이상치(outlier)에 매우 민감합니다.
활용 사례
- 키와 몸무게 간 관계 분석.
- 제품 가격과 판매량 간의 선형적 관계 확인.
스피어만 상관계수: 순위 기반 상관관계
정의
스피어만 상관계수는 데이터 값 대신 순위를 기반으로 한 비모수적(non-parametric) 방법입니다.
- 공식
- : 각 데이터 쌍의 순위 차이
- : 데이터
특징
- 값의 순위에만 의존하므로 이상치에 덜 민감합니다.
- 비선형적 관계도 측정할 수 있습니다.
- 데이터를 정규분포로 가정하지 않아도 됩니다.
활용 사례
- 학생의 시험 순위와 과제 점수 간 관계 분석.
- 설문조사 순위 간 상관관계 평가.
켄달의 타우 상관계수: 순서 일치도 측정
정의
켄달 상관계수는 두 변수 간의 순서 일치도를 측정하는 방법입니다.
- 공식
- C: 순서가 일치하는 쌍의 수
- D: 순서가 불일치하는 쌍의 수
- n: 데이터 개수
특징
- 두 변수의 순서 관계를 비교해 얼마나 일관성이 있는지를 나타냅니다.
- 작은 데이터셋에 적합하며, 비선형적 관계도 측정 가능합니다.
- 스피어만보다 해석이 직관적이지만 계산이 더 복잡합니다.
활용 사례
- 팀 간 순위와 점수 간 상관관계 분석.
- 논문 간 인용 관계의 순위 비교.
피어슨, 스피어만, 켄달 상관계수의 비교
특성 | 피어슨 상관계수 | 스피어만 상관계수 | 켄달 상관계수 |
관계 유형 | 선형적 관계 | 비선형적 순위 관계 | 순서 일치도 |
데이터 유형 | 연속형 데이터 | 순위형 데이터 | 순서형 데이터 |
이상치에 대한 민감도 | 민감 | 덜 민감 | 덜 민감 |
해석 용이성 | 높은 수학적 정확성 | 순위를 기반으로 간단 | 해석이 직관적 |
계산 복잡성 | 간단 | 보통 | 복잡 |
실전 예시로 알아보기
예시 1: 키와 몸무게
- 키와 몸무게 간의 관계는 선형적일 가능성이 크므로 피어슨 상관계수를 사용하는 것이 적합합니다.
예시 2: 시험 순위와 과제 점수
- 순위 데이터 간의 관계를 측정하기 위해 스피어만 상관계수가 유리합니다.
예시 3: 논문 인용 관계
- 인용 순서가 얼마나 일치하는지를 확인하려면 켄달 상관계수를 활용할 수 있습니다.
적합한 상관계수 선택하기
- 데이터가 연속형이고 선형 관계를 가정할 수 있다면 피어슨 상관계수
- 데이터가 비선형적이거나 순위 데이터라면 스피어만 상관계수
- 순서의 일관성을 평가하고 싶다면 켄달 상관계수
데이터 분석에서 상관계수를 올바르게 선택하는 것은 신뢰할 수 있는 결과를 얻는 핵심입니다.
728x90
반응형
'학습정보' 카테고리의 다른 글
p-값의 비밀: 통계적 유의성과 해석법 (0) | 2024.12.27 |
---|---|
표본추출의 기술: 무작위와 층화 표본추출의 차이점 (0) | 2024.12.26 |
중앙값 vs 평균: 올바른 데이터 중심 척도 선택법 (0) | 2024.12.24 |
분산과 표준편차의 차이: 언제, 어떻게 사용해야 할까? (0) | 2024.12.23 |
정규분포의 모든 것: 특징, 활용법, 그리고 한계 (0) | 2024.12.22 |