목록PCA (3)
Allen's 데이터 맛집
다변량 분석은 여러 개의 독립 변수(또는 설명 변수)와 종속 변수(또는 반응 변수) 간의 관계를 분석하는 통계적 기법입니다. 데이터 간의 다양한 상호 관계를 이해하고 해석하는 데 사용됩니다. 다변량 분석의 개념 다변량 분석은 하나 이상의 종속 변수가 여러 개의 독립 변수에 의해 영향을 받는 경우를 다룹니다. 주로 다변량 분산 분석(ANOVA), 주성분 분석(PCA), 군집 분석, 판별 분석 등의 기법이 사용됩니다. 다변량 분석의 주요 기법 1. 다변량 분산 분석(ANOVA): 그룹 간의 평균 차이를 비교하는 기법으로, 종속 변수가 연속형이고 독립 변수가 범주형인 경우 사용됩니다. 2. 주성분 분석(PCA): 변수 간의 상관 관계를 고려하여 데이터를 새로운 축으로 변환하는 기법으로, 차원 축소와 데이터 시..

차원 축소는 데이터의 변수(차원)를 줄이는 과정을 의미합니다. 이를 통해 데이터의 복잡도를 감소시키고, 모델의 성능을 향상시키며, 해석력을 향상시킬 수 있습니다. 반면에 차원의 저주는 데이터의 차원이 증가함에 따라 데이터를 설명하기 위해 필요한 샘플 데이터의 수가 기하급수적으로 증가한다는 현상을 의미합니다. 이로 인해 모델의 정확도가 떨어지고, 불필요한 저장 공간과 처리 시간이 증가하게 됩니다. 이미지출처:https://codingalzi.github.io/handson-ml3/dimensionality_reduction.html 따라서 차원 축소는 모델을 간소화하고 해석하기 쉽게 만들어주지만, 변수가 잃어버릴 수 있는 정보가 있으므로 주의해야 합니다. 차원의 저주를 피하기 위해서는 적절한 변수 선택, ..
데이터 전처리는 데이터를 분석하기 쉽고 정확하게 만들기 위해 필요한 과정입니다. 이는 데이터를 클렌징하고 변환하여 분석에 적합한 형태로 만드는 작업을 포함합니다. 결측값과 이상값 처리 결측값은 데이터 내에서 누락된 값으로, 이를 처리하지 않으면 분석 결과에 왜곡을 유발할 수 있습니다. 보통 평균값이나 중간값으로 대체하거나 해당 데이터를 삭제합니다. 이상값은 대부분 정상 범위를 벗어난 값으로, 이는 분석 결과에 부정적인 영향을 미칠 수 있습니다. 주로 이상값을 제거하거나 대체하는 방법을 사용합니다. 분석 변수 처리 변수 선택은 분석에 유용한 변수들을 선택하는 과정으로, 불필요한 변수를 제거하여 모델의 복잡성을 줄이고 성능을 향상시킵니다. 차원 축소는 데이터 세트의 차원을 줄이는 작업으로, 중요한 정보를 유..