목록Data Analysis (82)
Allen's 데이터 맛집
변동 계수(CV, coefficient of variation)이란, 표준편차를 산술평균을 기준으로 표준화시킨 것입니다. - 데이터가 모두 양수이면서 단위가 다른 그룹 또는 단위는 같지만 평균 차이가 클 때의 산포 비교에 사용 예) A학생이 평균 3시간 공부하고 표준편차는 이고 B학생은 평균 6시간 공부하고 표준편차가 0.9 이었 다면 어떤 학생이 꾸준하게 공부했을까? 이므로 변동계수가 작은 A가 더 꾸준히 공부함 이때, B학생의 표준편차가 0.8 이라면 A, B 학생의 변동계수가 같아 짐.
데이터 집합이 얼마나 퍼져 있는지를 알아보는 데 사용하는 값들 산포도 : - 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값 - 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음, 변동성이 커짐 - 산포도가 작으면 변량들이 평균 주위에 밀집, 변동성이 작아짐 - 범위, 사분위 범위, 분산, 표준 편차, 절대 편차, 변동 계수 편차 : - 어떤 자료의 변량에서 평균을 뺀 값을 편차라고 한다 (편차 = 변량 – 평균) - 편차의 총합은 항상 0, 편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있고, 편차의 절댓값이 작을수록 평균에 가까이 있다 분산(s2) : - 편차의 제곱의 합을 n-1로 나눈 것 - 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치 - 평균이 같아도 분산은 다..
이산형 확률 분포는 확률 변수가 이산적인 값을 가지며, 각 값에 대한 확률이 정의된 분포를 의미합니다. 이러한 분포는 유한하거나 셀 수 있는 값들의 집합에 대해 확률을 할당하며, 각 값의 확률의 합은 1이 됩니다. 주사위 던지기나 동전 던지기와 같은 간단한 예시부터, 여러 번의 독립적인 시행에서 어떤 사건이 일어날 때까지의 횟수 등을 모델링할 때까지 다양한 형태로 활용됩니다. 이산형 확률 분포는 확률 이론, 통계, 머신 러닝 등에서 데이터의 특성을 이해하고 예측하는 데에 중요한 도구로 활용됩니다. 1. 베르누이 분포 (Bernoulli Distribution): 정의: 베르누이 분포는 두 가지 결과 중 하나가 일어날 때 사용되는 분포입니다. 예를 들어 동전 던지기에서 앞면(성공)이 나올 확률을 p로 표시..
표본 추출 관련 오차에는 다양한 종류가 있습니다. 주요한 세 가지 종류인 표본오차(표본 추출 오차), 비표본 오차, 그리고 표본 편의에 대해 설명하겠습니다. 1. 표본오차(표본 추출 오차, Sampling Error): 정의: 표본오차는 표본을 사용하여 모집단의 특성을 추정할 때 발생하는 오차로, 표본의 특성이 모집단의 특성과 어떻게 다를지를 나타냅니다. 원인: 무작위로 표본을 추출하기 때문에, 각 표본은 모집단을 정확하게 대표하지 못할 수 있습니다. 해결: 큰 표본을 사용하거나 효과적인 추출 방법을 사용하여 표본오차를 최소화할 수 있습니다. 2. 비표본 오차 (Non-Sampling Error): 정의: 비표본 오차는 주로 조사 과정에서 발생하는 오차로, 표본 추출 이외의 요인들로 인해 발생합니다. 원..