목록Data Analysis (81)
Allen's 데이터 맛집
데이터 분석에서 시각화는 데이터의 패턴과 관계를 이해하는 데 중요한 역할을 합니다. 다양한 유형의 그래픽은 데이터를 이해하고 시각화하는 데 도움이 됩니다. 여기에 일반적으로 사용되는 몇 가지 시각화 유형을 말씀드리겠습니다. 선 그래프(Line Graph): 데이터의 변화를 시간에 따라 보여주는 데 사용됩니다. 주로 시계열 데이터를 분석할 때 유용합니다. 산점도(Scatter Plot): 두 변수 간의 관계를 보여주는데 사용됩니다. 변수 간의 상관관계를 확인하고 패턴을 파악하는 데 유용합니다. 히스토그램(Histogram): 데이터의 분포를 보여주는데 사용됩니다. 데이터의 빈도를 막대 형태로 나타내어 데이터의 분포를 시각적으로 이해할 수 있게 도와줍니다. 바 차트(Bar Chart): 범주형 데이터의 각 ..
피어슨 상관계수(Pearson Correlation Coefficient): - 피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 데 사용됩니다. - 값은 -1에서 1 사이에 있으며, 1에 가까울수록 강한 양의 선형 관계, -1에 가까울수록 강한 음의 선형 관계를 나타냅니다. - 0에 가까울수록 두 변수 간의 선형 관계가 약하거나 없음을 나타냅니다. 스피어만 상관계수(Spearman's Rank Correlation Coefficient): - 스피어만 상관계수는 두 변수 간의 순위 관계를 측정하는 데 사용됩니다. - 두 변수 간의 명목적 관계나 비선형 관계를 측정하는 데 유용합니다. - 피어슨 상관계수와 달리 데이터의 정규성 가정이 필요하지 않습니다. 공분산(Covariance): - 공분산은 두 ..
상관관계 분석은 통계학에서 두 변수 간의 관계를 이해하는 데 사용되는 방법입니다. 이는 두 변수 사이의 방향과 강도를 파악하여 그들 사이의 관계를 이해하는 데 도움이 됩니다. 이미지출처:https://ablearn.kr/newsletter/?idx=13552419&bmode=view 상관관계의 종류: - 양의 상관관계: 두 변수가 함께 증가하거나 감소하는 경향이 있는 경우. 예를 들어, 학업 성적과 공부 시간은 양의 상관관계가 있을 수 있습니다. - 음의 상관관계: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우. 예를 들어, 체중과 운동량은 음의 상관관계가 있을 수 있습니다. - 무상관: 두 변수 간에 아무런 관계가 없는 경우. 상관계수의 해석: - 상관계수는 일반적으로 -1부터 1 사이의..
분류 데이터의 불균형 문제는 실제로 많이 발생하는 문제 중 하나입니다. 이를 해결하기 위해 몇 가지 기술적 접근 방법이 있습니다. 이미지출처:https://casa-de-feel.tistory.com/15 - 가중치 균형화은 모델이 특정 클래스를 더 잘 학습하도록 하는 방법입니다. 손실 함수를 조정하여 소수 클래스의 오류에 더 큰 가중치를 부여합니다. - 언더 샘플링은 다수 클래스에서 일부 데이터를 무작위로 제거하여 클래스 간 균형을 맞추는 방법입니다. 하지만 이 방법은 정보 손실과 과소적합을 초래할 수 있습니다. - 오버 샘플링은 소수 클래스의 데이터를 복제하여 데이터를 늘리는 방법입니다. 이는 정보 손실이 적지만, 과대적합 문제가 발생할 수 있습니다. 또한, 새로운 테스트 데이터가 추가되면 모델의 예..