학습정보
중앙값 vs 평균: 올바른 데이터 중심 척도 선택법
MPH
2024. 12. 24. 00:00
728x90
반응형
데이터 중심 척도의 이해
데이터를 분석할 때 가장 먼저 확인하는 값은 중심 경향(central tendency)입니다. 이를 나타내는 대표적인 지표가 평균(mean)과 중앙값(median)입니다.
하지만 데이터의 특성과 목적에 따라 이 두 척도 중 어느 것을 선택해야 할지 고민될 때가 많습니다. 평균과 중앙값의 차이를 이해하고 적절히 사용하는 법을 알아보겠습니다.
평균: 데이터의 전체적인 평균을 나타내는 척도
평균은 모든 데이터를 합한 후 데이터의 개수로 나눈 값입니다.
- 공식:
- 특징:
- 데이터가 균등하게 분포된 경우, 데이터의 중심을 잘 나타냅니다.
- 모든 데이터 값을 고려하므로 전체적인 경향을 파악하는 데 유용합니다.
- 활용 예시:
- 학생들의 시험 평균 점수 계산.
- 경제학에서 GDP와 같은 지표를 구할 때.
중앙값: 순서를 기준으로 한 중심값
중앙값은 데이터를 크기 순서대로 정렬했을 때, 중간에 위치한 값입니다.
- 계산법:
- 데이터가 홀수 개일 경우: 가운데 값.
- 데이터가 짝수 개일 경우: 가운데 두 값의 평균.
- 특징:
- 이상치(outlier)에 영향을 받지 않습니다.
- 데이터의 순서만을 고려하므로 비대칭 분포에서 중심 경향을 더 잘 나타냅니다.
- 활용 예시:
- 소득 분포처럼 이상치가 많은 경우.
- 부동산 중위가격 계산.
평균과 중앙값의 차이
특성 | 평균 | 중앙값 |
이상치(outlier)에 대한 민감도 | 민감함 | 영향을 받지 않음 |
대칭 분포에 적합성 | 적합 | 대칭 여부에 관계없이 사용 가능 |
데이터 해석 용이성 | 전체 경향 파악에 유리 | 중심값을 간단히 나타내기에 적합 |
주요 활용 분야 | 대칭적 데이터(예: 시험 점수) | 왜도가 큰 데이터(예: 소득 분포) |
언제 평균을 사용해야 할까?
평균은 다음과 같은 경우에 적합합니다.
- 데이터가 대칭적일 때
- 예: 학생들의 시험 점수 분포.
- 이상치가 없거나 미미한 영향을 줄 때
- 예: 공장에서 제품 생산의 평균 수율.
- 전체적인 분포를 파악하고 싶을 때
- 예: 주간 평균 기온 계산.
언제 중앙값을 사용해야 할까?
중앙값은 다음 상황에서 적합합니다.
- 데이터에 이상치가 포함된 경우
- 예: 부동산 매매가에서 일부 초고가 주택이 포함된 데이터.
- 데이터가 비대칭적일 때
- 예: 소득이나 자산 분포처럼 긴 꼬리를 가진 데이터.
- 순서 중심의 척도가 필요할 때
- 예: 고객 만족도를 순위로 평가하는 경우.
실전 예시로 알아보기
예시 1: 시험 점수 분포
- 데이터: [70, 75, 80, 85, 90]
- 평균: (70+75+80+85+90)/5 = 80
- 중앙값: 80
→ 데이터가 대칭적이므로 평균과 중앙값이 동일하며, 둘 다 사용할 수 있습니다.
예시 2: 소득 분포
- 데이터: [30, 35, 40, 45, 100] (단위: 백만 원)
- 평균: (30+35+40+45+100)/5 = 50
- 중앙값: 40
→ 평균은 초고소득자(100)에 의해 왜곡되므로, 중앙값이 더 적합합니다.
중앙값과 평균의 보완적 활용
평균과 중앙값을 함께 사용하는 것도 유용합니다.
- 데이터의 분포를 평가할 때 두 척도를 비교하여 왜도(skewness)를 파악할 수 있습니다.
- 평균 > 중앙값: 데이터가 오른쪽으로 치우침.
- 평균 < 중앙값: 데이터가 왼쪽으로 치우침.
- 데이터를 시각적으로 표현할 때, 중앙값과 평균을 동시에 표시하면 데이터의 분포와 중심 경향을 쉽게 이해할 수 있습니다.
- 참고자료 : 왜도란 무엇인가? 통계학 필수 개념 완벽 정리! - https://creator1583.tistory.com/27
- 참고자료 : 데이터 분석의 핵심, 기술통계량 완벽 이해하기 - https://creator1583.tistory.com/26
결론
평균과 중앙값은 데이터의 중심을 측정하는 중요한 척도지만, 각각의 강점과 한계가 있습니다.
- 평균은 대칭적이고 이상치가 없는 데이터를 분석할 때 적합하며,
- 중앙값은 비대칭적이고 이상치가 포함된 데이터를 분석할 때 유용합니다.
데이터의 특성과 분석 목적을 명확히 이해하고, 두 척도를 적절히 선택하거나 보완적으로 활용하는 것이 중요합니다.
📌함께 보면 좋은 글
🔗 📚 체계적 문헌고찰(SR), 이것만 알면 됩니다(https://i-m-nomad.tistory.com/32)
📚 체계적 문헌고찰(SR), 이것만 알면 됩니다
🔎 1. 체계적 문헌고찰이란?체계적 문헌고찰(Systematic Review, SR)이란 쉽게 말해 "연구의 연구"입니다. 📖🧐기존에 발표된 연구들을 체계적으로 분석하고 하나의 결론을 도출하는 과정입니다.논
i-m-nomad.tistory.com
728x90
반응형