학습정보

중앙값 vs 평균: 올바른 데이터 중심 척도 선택법

MPH 2024. 12. 24. 00:00
728x90
반응형

데이터 중심 척도의 이해

데이터를 분석할 때 가장 먼저 확인하는 값은 중심 경향(central tendency)입니다. 이를 나타내는 대표적인 지표가 평균(mean)중앙값(median)입니다.
하지만 데이터의 특성과 목적에 따라 이 두 척도 중 어느 것을 선택해야 할지 고민될 때가 많습니다. 평균과 중앙값의 차이를 이해하고 적절히 사용하는 법을 알아보겠습니다.


평균: 데이터의 전체적인 평균을 나타내는 척도

평균은 모든 데이터를 합한 후 데이터의 개수로 나눈 값입니다.

  • 공식:

여기서 xi는 각 데이터 값, n은 데이터의 개수입니다.

  • 특징:
    1. 데이터가 균등하게 분포된 경우, 데이터의 중심을 잘 나타냅니다.
    2. 모든 데이터 값을 고려하므로 전체적인 경향을 파악하는 데 유용합니다.
  • 활용 예시:
    • 학생들의 시험 평균 점수 계산.
    • 경제학에서 GDP와 같은 지표를 구할 때.

중앙값: 순서를 기준으로 한 중심값

중앙값은 데이터를 크기 순서대로 정렬했을 때, 중간에 위치한 값입니다.

  • 계산법:
    • 데이터가 홀수 개일 경우: 가운데 값.
    • 데이터가 짝수 개일 경우: 가운데 두 값의 평균.
  • 특징:
    1. 이상치(outlier)에 영향을 받지 않습니다.
    2. 데이터의 순서만을 고려하므로 비대칭 분포에서 중심 경향을 더 잘 나타냅니다.
  • 활용 예시:
    • 소득 분포처럼 이상치가 많은 경우.
    • 부동산 중위가격 계산.

평균과 중앙값의 차이

특성 평균 중앙값
이상치(outlier)에 대한 민감도 민감함 영향을 받지 않음
대칭 분포에 적합성 적합 대칭 여부에 관계없이 사용 가능
데이터 해석 용이성 전체 경향 파악에 유리 중심값을 간단히 나타내기에 적합
주요 활용 분야 대칭적 데이터(예: 시험 점수) 왜도가 큰 데이터(예: 소득 분포)

언제 평균을 사용해야 할까?

평균은 다음과 같은 경우에 적합합니다.

  1. 데이터가 대칭적일 때
    • 예: 학생들의 시험 점수 분포.
  2. 이상치가 없거나 미미한 영향을 줄 때
    • 예: 공장에서 제품 생산의 평균 수율.
  3. 전체적인 분포를 파악하고 싶을 때
    • 예: 주간 평균 기온 계산.

언제 중앙값을 사용해야 할까?

중앙값은 다음 상황에서 적합합니다.

  1. 데이터에 이상치가 포함된 경우
    • 예: 부동산 매매가에서 일부 초고가 주택이 포함된 데이터.
  2. 데이터가 비대칭적일 때
    • 예: 소득이나 자산 분포처럼 긴 꼬리를 가진 데이터.
  3. 순서 중심의 척도가 필요할 때
    • 예: 고객 만족도를 순위로 평가하는 경우.

실전 예시로 알아보기

예시 1: 시험 점수 분포

  • 데이터: [70, 75, 80, 85, 90]
    • 평균: (70+75+80+85+90)/5 = 80
    • 중앙값: 80
      → 데이터가 대칭적이므로 평균과 중앙값이 동일하며, 둘 다 사용할 수 있습니다.

예시 2: 소득 분포

  • 데이터: [30, 35, 40, 45, 100] (단위: 백만 원)
    • 평균: (30+35+40+45+100)/5 = 50
    • 중앙값: 40
      → 평균은 초고소득자(100)에 의해 왜곡되므로, 중앙값이 더 적합합니다.

중앙값과 평균의 보완적 활용

평균과 중앙값을 함께 사용하는 것도 유용합니다.

  1. 데이터의 분포를 평가할 때 두 척도를 비교하여 왜도(skewness)를 파악할 수 있습니다.
    • 평균 > 중앙값: 데이터가 오른쪽으로 치우침.
    • 평균 < 중앙값: 데이터가 왼쪽으로 치우침.
  2. 데이터를 시각적으로 표현할 때, 중앙값과 평균을 동시에 표시하면 데이터의 분포와 중심 경향을 쉽게 이해할 수 있습니다.

결론

평균과 중앙값은 데이터의 중심을 측정하는 중요한 척도지만, 각각의 강점과 한계가 있습니다.

  • 평균은 대칭적이고 이상치가 없는 데이터를 분석할 때 적합하며,
  • 중앙값은 비대칭적이고 이상치가 포함된 데이터를 분석할 때 유용합니다.

데이터의 특성과 분석 목적을 명확히 이해하고, 두 척도를 적절히 선택하거나 보완적으로 활용하는 것이 중요합니다.

 

 

📌함께 보면 좋은 글

🔗 📚 체계적 문헌고찰(SR), 이것만 알면 됩니다(https://i-m-nomad.tistory.com/32)

 

📚 체계적 문헌고찰(SR), 이것만 알면 됩니다

🔎 1. 체계적 문헌고찰이란?체계적 문헌고찰(Systematic Review, SR)이란 쉽게 말해 "연구의 연구"입니다. 📖🧐기존에 발표된 연구들을 체계적으로 분석하고 하나의 결론을 도출하는 과정입니다.논

i-m-nomad.tistory.com

728x90
반응형