목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집
피어슨 상관계수(Pearson Correlation Coefficient): - 피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 데 사용됩니다. - 값은 -1에서 1 사이에 있으며, 1에 가까울수록 강한 양의 선형 관계, -1에 가까울수록 강한 음의 선형 관계를 나타냅니다. - 0에 가까울수록 두 변수 간의 선형 관계가 약하거나 없음을 나타냅니다. 스피어만 상관계수(Spearman's Rank Correlation Coefficient): - 스피어만 상관계수는 두 변수 간의 순위 관계를 측정하는 데 사용됩니다. - 두 변수 간의 명목적 관계나 비선형 관계를 측정하는 데 유용합니다. - 피어슨 상관계수와 달리 데이터의 정규성 가정이 필요하지 않습니다. 공분산(Covariance): - 공분산은 두 ..
상관관계 분석은 통계학에서 두 변수 간의 관계를 이해하는 데 사용되는 방법입니다. 이는 두 변수 사이의 방향과 강도를 파악하여 그들 사이의 관계를 이해하는 데 도움이 됩니다. 이미지출처:https://ablearn.kr/newsletter/?idx=13552419&bmode=view 상관관계의 종류: - 양의 상관관계: 두 변수가 함께 증가하거나 감소하는 경향이 있는 경우. 예를 들어, 학업 성적과 공부 시간은 양의 상관관계가 있을 수 있습니다. - 음의 상관관계: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우. 예를 들어, 체중과 운동량은 음의 상관관계가 있을 수 있습니다. - 무상관: 두 변수 간에 아무런 관계가 없는 경우. 상관계수의 해석: - 상관계수는 일반적으로 -1부터 1 사이의..
분류 데이터의 불균형 문제는 실제로 많이 발생하는 문제 중 하나입니다. 이를 해결하기 위해 몇 가지 기술적 접근 방법이 있습니다. 이미지출처:https://casa-de-feel.tistory.com/15 - 가중치 균형화은 모델이 특정 클래스를 더 잘 학습하도록 하는 방법입니다. 손실 함수를 조정하여 소수 클래스의 오류에 더 큰 가중치를 부여합니다. - 언더 샘플링은 다수 클래스에서 일부 데이터를 무작위로 제거하여 클래스 간 균형을 맞추는 방법입니다. 하지만 이 방법은 정보 손실과 과소적합을 초래할 수 있습니다. - 오버 샘플링은 소수 클래스의 데이터를 복제하여 데이터를 늘리는 방법입니다. 이는 정보 손실이 적지만, 과대적합 문제가 발생할 수 있습니다. 또한, 새로운 테스트 데이터가 추가되면 모델의 예..
차원 축소는 데이터의 변수(차원)를 줄이는 과정을 의미합니다. 이를 통해 데이터의 복잡도를 감소시키고, 모델의 성능을 향상시키며, 해석력을 향상시킬 수 있습니다. 반면에 차원의 저주는 데이터의 차원이 증가함에 따라 데이터를 설명하기 위해 필요한 샘플 데이터의 수가 기하급수적으로 증가한다는 현상을 의미합니다. 이로 인해 모델의 정확도가 떨어지고, 불필요한 저장 공간과 처리 시간이 증가하게 됩니다. 이미지출처:https://codingalzi.github.io/handson-ml3/dimensionality_reduction.html 따라서 차원 축소는 모델을 간소화하고 해석하기 쉽게 만들어주지만, 변수가 잃어버릴 수 있는 정보가 있으므로 주의해야 합니다. 차원의 저주를 피하기 위해서는 적절한 변수 선택, ..