Allen's 데이터 맛집
분산(Variance)의 중요성 본문
분산(Variance)은 데이터가 얼마나 퍼져있는지를 나타내는 통계적 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지의 정도를 측정합니다. 분산을 계산하기 위해서는 다음의 단계를 따릅니다.
1. 각 데이터 포인트에서 평균을 뺍니다.
2. 이 결과를 제곱합니다.
3. 제곱된 결과를 모두 더한 후, 데이터의 개수로 나눕니다.
수학적으로는 다음과 같이 표현됩니다.
여기서 ×i는 각 데이터 포인트, x-바 는 평균, n은 데이터의 개수입니다.
예시: 시험 점수의 분산 계산
학급의 시험 점수가 다음과 같다고 가정해봅시다.
80, 90, 75, 60, 85
먼저, 평균을 계산합니다.
이제 각 데이터 포인트에서 평균을 뺀 후 제곱한 값을 구합니다.
이 값을 모두 더하고 데이터의 개수로 나누어 분산을 계산합니다.
따라서, 이 시험 점수의 분산은 106입니다.
분산은 데이터의 흩어진 정도를 측정하는데 사용되며, 값이 클수록 데이터가 평균에서 멀리 흩어져 있다는 것을 의미합니다.
여러 집단간 평균값의 차이에 대해
- 집단 내 분산이 작아질수록 ‘평균의 차이가 분명’해짐
- 집단 내 분산이 클수록 ‘집단간 평균값의 차이가 무의미’해짐