Allen's 데이터 맛집

분산(Variance)의 중요성 본문

Data Analysis/통계&분석

분산(Variance)의 중요성

Allen93 2023. 12. 18. 02:20

분산(Variance)은 데이터가 얼마나 퍼져있는지를 나타내는 통계적 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지의 정도를 측정합니다. 분산을 계산하기 위해서는 다음의 단계를 따릅니다.

 


1. 각 데이터 포인트에서 평균을 뺍니다.
2. 이 결과를 제곱합니다.
3. 제곱된 결과를 모두 더한 후, 데이터의 개수로 나눕니다.

 


수학적으로는 다음과 같이 표현됩니다.



여기서 ×i는 각 데이터 포인트, x-바 는 평균, n은 데이터의 개수입니다.



예시: 시험 점수의 분산 계산


학급의 시험 점수가 다음과 같다고 가정해봅시다.

80, 90, 75, 60, 85


먼저, 평균을 계산합니다.



이제 각 데이터 포인트에서 평균을 뺀 후 제곱한 값을 구합니다.


이 값을 모두 더하고 데이터의 개수로 나누어 분산을 계산합니다.


따라서, 이 시험 점수의 분산은 106입니다.

 

 

분산은 데이터의 흩어진 정도를 측정하는데 사용되며, 값이 클수록 데이터가 평균에서 멀리 흩어져 있다는 것을 의미합니다.

 

 

분산

 

여러 집단간 평균값의 차이에 대해 

 

- 집단 내 분산이 작아질수록 ‘평균의 차이가 분명’해짐

- 집단 내 분산이 클수록 ‘집단간 평균값의 차이가 무의미’해짐