목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집
왜도란? - 분포의 비대칭도를 나타내는 통계량으로 왜도 값이 0일 때 평균과 중앙값이 같음 - 양의 왜도(Positive Skewness) : 평균이 중앙값 보다 오른쪽으로 위치, 오른쪽으로 꼬리가 긴 모양 - 음의 왜도(Negative Skewness) : 평균이 중앙값 보다 왼쪽으로 위치, 왼쪽으로 꼬리가 긴 모양 - 왜도 절대값 3 미만이면 정규분포에 가까운 정도의 데이터로 판단 상황에 따른 히스토그램의 유형
첨도란? - 분포의 중앙 부분의 뽀족함에 대한 정보를 제공하는 통계량, 동일한 분산 상태에서 비교해야 함 - 첨도를 구하는 식에서 -3을 하고 있는 경우, 정규 분포의 첨도는 0 (-3을 안 하는 식은 3이 정규분포) - 첨도가 양수이면 고첨(Leptokrutic), 분포가 정규분포보다 중앙부분에 더 많이 집중 - 첨도가 음수이면 저첨(platykurtic), 분포가 정규분포보다 중앙부분에 더 적게 집중 - 첨도가 매우 높은 양수인 경우 이상치(outlier)가 많음 - 첨도 절대값 7 미만이면 정규분포에 가까운 정도의 데이터로 판단
분산(Variance)은 데이터가 얼마나 퍼져있는지를 나타내는 통계적 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지의 정도를 측정합니다. 분산을 계산하기 위해서는 다음의 단계를 따릅니다. 1. 각 데이터 포인트에서 평균을 뺍니다. 2. 이 결과를 제곱합니다. 3. 제곱된 결과를 모두 더한 후, 데이터의 개수로 나눕니다. 수학적으로는 다음과 같이 표현됩니다. 여기서 ×i는 각 데이터 포인트, x-바 는 평균, n은 데이터의 개수입니다. 예시: 시험 점수의 분산 계산 학급의 시험 점수가 다음과 같다고 가정해봅시다. 80, 90, 75, 60, 85 먼저, 평균을 계산합니다. 이제 각 데이터 포인트에서 평균을 뺀 후 제곱한 값을 구합니다. 이 값을 모두 더하고 데이터의 개수로 나누어 분산을 계산합..
변동 계수(CV, coefficient of variation)이란, 표준편차를 산술평균을 기준으로 표준화시킨 것입니다. - 데이터가 모두 양수이면서 단위가 다른 그룹 또는 단위는 같지만 평균 차이가 클 때의 산포 비교에 사용 예) A학생이 평균 3시간 공부하고 표준편차는 이고 B학생은 평균 6시간 공부하고 표준편차가 0.9 이었 다면 어떤 학생이 꾸준하게 공부했을까? 이므로 변동계수가 작은 A가 더 꾸준히 공부함 이때, B학생의 표준편차가 0.8 이라면 A, B 학생의 변동계수가 같아 짐.