목록Data Analysis (82)
Allen's 데이터 맛집

데이터와 통계에 관련된 중요한 개념들인 "모집단", "모수", "표본", "통계량"에 대해 간단히 설명해보겠습니다. 출처 : https://pangyo-datascientist.tistory.com/31 1.모집단 (Population): 정의: 모집단은 조사하고자 하는 전체 개체 또는 사건의 집합입니다. 예시: 만약 모든 학생들의 키에 관심이 있다면, 전 세계의 모든 학생들이 모집단이 될 것입니다. 2.모수 (Parameter): 정의: 모집단의 특성을 나타내는 수치적인 값입니다. 예시: 모든 학생들의 평균 키, 표준편차 등이 모수가 될 수 있습니다. 3.표본 (Sample): 정의: 모집단에서 선택한 일부 개체 또는 사건의 집합입니다. 예시: 전 세계의 학생들 중에서 몇몇 학생들을 무작위로 선택한 그..

왜도란? - 분포의 비대칭도를 나타내는 통계량으로 왜도 값이 0일 때 평균과 중앙값이 같음 - 양의 왜도(Positive Skewness) : 평균이 중앙값 보다 오른쪽으로 위치, 오른쪽으로 꼬리가 긴 모양 - 음의 왜도(Negative Skewness) : 평균이 중앙값 보다 왼쪽으로 위치, 왼쪽으로 꼬리가 긴 모양 - 왜도 절대값 3 미만이면 정규분포에 가까운 정도의 데이터로 판단 상황에 따른 히스토그램의 유형

첨도란? - 분포의 중앙 부분의 뽀족함에 대한 정보를 제공하는 통계량, 동일한 분산 상태에서 비교해야 함 - 첨도를 구하는 식에서 -3을 하고 있는 경우, 정규 분포의 첨도는 0 (-3을 안 하는 식은 3이 정규분포) - 첨도가 양수이면 고첨(Leptokrutic), 분포가 정규분포보다 중앙부분에 더 많이 집중 - 첨도가 음수이면 저첨(platykurtic), 분포가 정규분포보다 중앙부분에 더 적게 집중 - 첨도가 매우 높은 양수인 경우 이상치(outlier)가 많음 - 첨도 절대값 7 미만이면 정규분포에 가까운 정도의 데이터로 판단

분산(Variance)은 데이터가 얼마나 퍼져있는지를 나타내는 통계적 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지의 정도를 측정합니다. 분산을 계산하기 위해서는 다음의 단계를 따릅니다. 1. 각 데이터 포인트에서 평균을 뺍니다. 2. 이 결과를 제곱합니다. 3. 제곱된 결과를 모두 더한 후, 데이터의 개수로 나눕니다. 수학적으로는 다음과 같이 표현됩니다. 여기서 ×i는 각 데이터 포인트, x-바 는 평균, n은 데이터의 개수입니다. 예시: 시험 점수의 분산 계산 학급의 시험 점수가 다음과 같다고 가정해봅시다. 80, 90, 75, 60, 85 먼저, 평균을 계산합니다. 이제 각 데이터 포인트에서 평균을 뺀 후 제곱한 값을 구합니다. 이 값을 모두 더하고 데이터의 개수로 나누어 분산을 계산합..