목록맛집 List (340)
Allen's 데이터 맛집
상관관계 분석은 통계학에서 두 변수 간의 관계를 이해하는 데 사용되는 방법입니다. 이는 두 변수 사이의 방향과 강도를 파악하여 그들 사이의 관계를 이해하는 데 도움이 됩니다. 이미지출처:https://ablearn.kr/newsletter/?idx=13552419&bmode=view 상관관계의 종류: - 양의 상관관계: 두 변수가 함께 증가하거나 감소하는 경향이 있는 경우. 예를 들어, 학업 성적과 공부 시간은 양의 상관관계가 있을 수 있습니다. - 음의 상관관계: 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있는 경우. 예를 들어, 체중과 운동량은 음의 상관관계가 있을 수 있습니다. - 무상관: 두 변수 간에 아무런 관계가 없는 경우. 상관계수의 해석: - 상관계수는 일반적으로 -1부터 1 사이의..
분류 데이터의 불균형 문제는 실제로 많이 발생하는 문제 중 하나입니다. 이를 해결하기 위해 몇 가지 기술적 접근 방법이 있습니다. 이미지출처:https://casa-de-feel.tistory.com/15 - 가중치 균형화은 모델이 특정 클래스를 더 잘 학습하도록 하는 방법입니다. 손실 함수를 조정하여 소수 클래스의 오류에 더 큰 가중치를 부여합니다. - 언더 샘플링은 다수 클래스에서 일부 데이터를 무작위로 제거하여 클래스 간 균형을 맞추는 방법입니다. 하지만 이 방법은 정보 손실과 과소적합을 초래할 수 있습니다. - 오버 샘플링은 소수 클래스의 데이터를 복제하여 데이터를 늘리는 방법입니다. 이는 정보 손실이 적지만, 과대적합 문제가 발생할 수 있습니다. 또한, 새로운 테스트 데이터가 추가되면 모델의 예..
차원 축소는 데이터의 변수(차원)를 줄이는 과정을 의미합니다. 이를 통해 데이터의 복잡도를 감소시키고, 모델의 성능을 향상시키며, 해석력을 향상시킬 수 있습니다. 반면에 차원의 저주는 데이터의 차원이 증가함에 따라 데이터를 설명하기 위해 필요한 샘플 데이터의 수가 기하급수적으로 증가한다는 현상을 의미합니다. 이로 인해 모델의 정확도가 떨어지고, 불필요한 저장 공간과 처리 시간이 증가하게 됩니다. 이미지출처:https://codingalzi.github.io/handson-ml3/dimensionality_reduction.html 따라서 차원 축소는 모델을 간소화하고 해석하기 쉽게 만들어주지만, 변수가 잃어버릴 수 있는 정보가 있으므로 주의해야 합니다. 차원의 저주를 피하기 위해서는 적절한 변수 선택, ..
이상값(Outliers)은 일반적인 데이터 패턴에서 벗어난 값으로, 데이터 분석 과정에서 중요한 역할을 합니다. 이상값은 일반적으로 다음과 같은 특징을 가집니다. 이미지출처:https://brunch.co.kr/@mbook/12 개념과 특징: 이상값은 데이터 분포에서 일반적인 규칙을 벗어난 값으로, 예를 들어 극단적으로 크거나 작은 값일 수 있습니다. 이상값은 데이터 분석 결과를 왜곡시키고 모델의 정확성을 저하시킬 수 있으며, 이로 인해 중요한 패턴을 감추거나 왜곡할 수 있습니다. 이상값 발생 원인: 이상값은 주로 측정 오류, 이상치 데이터 입력, 자연적인 변동, 이상치 자체의 특이성 등 다양한 요인으로 인해 발생할 수 있습니다. 예를 들어, 센서 오작동, 사람의 실수, 현상의 예외적인 동작 등이 있습니..