Allen's 데이터 맛집

상관계수란? 본문

Data Analysis/통계&분석

상관계수란?

Allen93 2023. 9. 18. 21:38

상관계수와 데이터 분석

데이터 분석은 정보와 인사이트를 추출하는 과정입니다. 그중에서도 상관계수는 데이터 분석에서 중요한 개념 중 하나입니다.

이 글에서는 상관계수에 대한 개념과 Python 코드를 통한 계산 방법을 소개하겠습니다.


상관계수란?


상관계수는 두 변수 간의 관련성을 나타내는 지표입니다. 한 변수의 변화가 다른 변수와 어떤 관련이 있는지를 알려줍니다.

상관계수의 값은 -1부터 1까지 범위를 가집니다.

1에 가까우면 강한 양의 상관관계를 나타냅니다. 한 변수가 증가하면 다른 변수도 증가합니다.
-1에 가까우면 강한 음의 상관관계를 나타냅니다. 한 변수가 증가하면 다른 변수는 감소합니다.
0에 가까우면 상관관계가 약하거나 없다는 것을 나타냅니다.

 

상관계수 예시

이미지출처 : https://ybeaning.tistory.com/19


상관계수 계산

import pandas as pd

data = {'X': [1, 2, 3, 4, 5],
        'Y': [2, 3, 5, 4, 6]}
df = pd.DataFrame(data)

correlation = df['X'].corr(df['Y'])
print("상관관계:", correlation)

위 코드를 실행하면 X와 Y의 상관계수가 출력됩니다.


상관관계의 활용


상관관계는 데이터 분석에서 다양하게 활용됩니다. 예를 들어, 마케팅 데이터에서 광고 비용과 판매량 간의 상관관계를 분석하여 광고 효과를 평가할 수 있습니다. 또한 의학 연구에서 환자의 연령과 건강 지표 간의 상관관계를 조사하여 질병 위험을 예측하는 데 사용됩니다.

상관계수는 데이터의 관련성을 이해하고 의사 결정을 지원하는 강력한 도구 중 하나입니다. 데이터 분석을 통해 상관관계를 발견하고 해석하는 능력은 데이터 분석가로서 중요한 역할을 합니다. 이제 상관관계에 대한 개념과 계산 방법을 이해하였으니, 다양한 데이터셋에서 상관관계를 분석해 보며 실력을 향상하는 것이 좋습니다.