목록Data Analysis/통계&분석 (64)
Allen's 데이터 맛집

이상값(Outliers)은 일반적인 데이터 패턴에서 벗어난 값으로, 데이터 분석 과정에서 중요한 역할을 합니다. 이상값은 일반적으로 다음과 같은 특징을 가집니다. 이미지출처:https://brunch.co.kr/@mbook/12 개념과 특징: 이상값은 데이터 분포에서 일반적인 규칙을 벗어난 값으로, 예를 들어 극단적으로 크거나 작은 값일 수 있습니다. 이상값은 데이터 분석 결과를 왜곡시키고 모델의 정확성을 저하시킬 수 있으며, 이로 인해 중요한 패턴을 감추거나 왜곡할 수 있습니다. 이상값 발생 원인: 이상값은 주로 측정 오류, 이상치 데이터 입력, 자연적인 변동, 이상치 자체의 특이성 등 다양한 요인으로 인해 발생할 수 있습니다. 예를 들어, 센서 오작동, 사람의 실수, 현상의 예외적인 동작 등이 있습니..
결측값 처리는 데이터 분석에서 중요한 단계 중 하나로, 데이터 내에 빈 값이 있을 때 이를 적절히 처리하여 정확한 결과를 얻을 수 있습니다. 이를 위해 몇 가지 대체 방법이 사용됩니다. 이 포스팅에서는 단순 대치법과 다중 대치법을 설명하겠습니다. 1. 단순 대치법: - 완전 분석법은 불완전한 자료를 모두 무시하여 효율성이 저하될 수 있습니다. - 평균 대치법은 결측값을 데이터의 평균, 중앙값 또는 최빈값으로 대체합니다. 이는 다른 변수와의 관계에 따라 유용할 수 있습니다. - 단순 확률 대치법은 평균 대치법의 과소추정 문제를 보완하기 위해 고안되었습니다. Hot-Deck와 Cold-Deck 등의 방법이 있으며, 각각은 비슷한 성향의 응답자 자료나 외부 출처에서 대체할 자료를 가져옵니다. 2. 다중 대치법..
데이터 전처리는 데이터를 분석하기 쉽고 정확하게 만들기 위해 필요한 과정입니다. 이는 데이터를 클렌징하고 변환하여 분석에 적합한 형태로 만드는 작업을 포함합니다. 결측값과 이상값 처리 결측값은 데이터 내에서 누락된 값으로, 이를 처리하지 않으면 분석 결과에 왜곡을 유발할 수 있습니다. 보통 평균값이나 중간값으로 대체하거나 해당 데이터를 삭제합니다. 이상값은 대부분 정상 범위를 벗어난 값으로, 이는 분석 결과에 부정적인 영향을 미칠 수 있습니다. 주로 이상값을 제거하거나 대체하는 방법을 사용합니다. 분석 변수 처리 변수 선택은 분석에 유용한 변수들을 선택하는 과정으로, 불필요한 변수를 제거하여 모델의 복잡성을 줄이고 성능을 향상시킵니다. 차원 축소는 데이터 세트의 차원을 줄이는 작업으로, 중요한 정보를 유..
데이터 변환 기술은 데이터를 보다 효과적으로 분석하고 모델링하기 위해 데이터의 형태를 변경하는 중요한 프로세스입니다. 데이터 비식별화 (Data De-identification): 예를 들어, 개인 정보 비식별화를 위해 가명처리, 총계처리, 데이터 값 삭제, 범주화, 데이터 마스킹 등의 방법을 사용합니다. 평활화 (Smoothing): 데이터의 잡음을 제거하고 추세에서 벗어나는 값을 변환하는 것으로, 예를 들어 구간화, 스플라인 보간법, 이동평균, 지수평활 등이 있습니다. 집계 (Aggregation): 통계 분석을 위해 데이터를 요약 형식으로 변환하는 과정으로, 지정된 기간에 걸쳐 평균, 최소, 최대, 합계, 개수 등을 계산합니다. 일반화 (Generalization): 특정 데이터를 범용 데이터에 적..