목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집
오늘은 머신러닝에서 목표변수가 범주형일 때, 모델의 불순도를 측정하는 중요한 지표들을 알아보려고 합니다. 지니지수, 엔트로피 지수, 카이제곱 통계량, 그리고 그 유의확률에 대해 함께 살펴봅시다. 1. 지니지수: 지니지수는 불순도를 측정하는 지표 중 하나로, 0에서 1 사이의 값을 가집니다. 0에 가까울수록 데이터가 순수하게 한 클래스로 이루어져 있음을 의미하고, 1에 가까울수록 데이터가 여러 클래스로 섞여 있음을 나타냅니다. 머신러닝에서는 의사결정 트리의 노드 분할에서 주로 사용됩니다. 2. 엔트로피 지수: 엔트로피 지수는 정보 이론에서 유래한 개념으로, 데이터의 혼잡도를 나타냅니다. 엔트로피가 높을수록 데이터가 혼잡하게 섞여 있고, 낮을수록 정돈되어 있는 것을 의미합니다. 역시 0에서 1 사이의 값을 ..
오늘은 회귀분석에서 어떻게 적절한 설명 변수를 선택할 수 있는지 알아보려고 합니다. 모든 가능한 조합, 후진제거법, 전진선택법, 단계별 선택법, 이 네 가지 방법을 통해 데이터의 선택 방법을 알아보겠습니다. 1. 모든 가능한 조합: 이 방법은 데이터의 모든 변수 조합을 고려하여 회귀모델을 만드는 방식입니다. 하지만 변수가 많을수록 가능한 조합은 기하급수적으로 증가하므로 계산 비용이 높아집니다. 또한, 과적합의 문제가 발생할 수 있습니다. 2. 후진제거법: 후진제거법은 모든 변수를 포함한 전체 모델에서 시작하여 가장 덜 유의미한 변수를 하나씩 제거하는 방법입니다. 제거 후에도 모델의 성능이 충분하지 않다면, 더 이상 유의미한 변수가 없을 때까지 반복합니다. 3. 전진선택법: 전진선택법은 아무 변수도 포함하..
오늘은 회귀모형의 해석과 평가에 대해 알아보려고 합니다. F통계량, 유의확률(p-value), 회귀계수, 결정계수 등의 요소들을 함께 살펴봐요. F통계량: 전체 모델의 유의성을 보여주는 지표 F통계량은 회귀모형 전체가 통계적으로 유의미한지를 나타내는 지표입니다. 이 값이 크면 회귀모형이 종속변수의 변동을 설명하는 데 유의미하다는 것을 의미합니다. 반대로 작으면 모델이 유의미하지 않을 가능성이 높아집니다. 유의확률(p-value): 각 독립변수의 유의성 확인 회귀모형에서 각 독립변수의 유의성은 유의확률을 통해 판단할 수 있습니다. 일반적으로 0.05보다 작으면 해당 독립변수는 통계적으로 유의미하다고 판단합니다. 작으면 작을수록 해당 변수가 모델에 중요한 역할을 한다고 해석할 수 있습니다. 회귀계수의 값과 ..
가설 검정은 통계적으로 얻은 표본 데이터를 사용하여 어떤 가설에 대한 결론을 내리는 통계적 추론 방법 중 하나입니다. 일반적으로 두 가지 가설을 비교하여, 주어진 데이터가 어느 가설과 더 일치하는지를 판단합니다. 이러한 가설은 귀무가설(H0)과 대립가설(H1)로 나눌 수 있습니다. 기본적인 가설 설정 1.귀무가설 (Null Hypothesis, H0): 어떤 효과나 차이가 없다는 가설입니다. 주로 기본적인 가설로 설정되며, 검정의 대상이 되는 가설입니다. 2.대립가설 (Alternative Hypothesis, H1): 귀무가설이 거짓임을 증명하려는 목적의 가설입니다. 주로 연구자가 입증하고자 하는 가설로 설정됩니다. 가설 검정의 주요 단계: 1.가설 설정: 귀무가설(H0)과 대립가설(H1)을 명확하게 ..