Allen's 데이터 맛집

다변량 데이터의 관계 시각화 본문

Data Analysis/시각화

다변량 데이터의 관계 시각화

Allen93 2024. 4. 23. 22:02
데이터 분석에서 다변량 데이터의 패턴과 관계를 파악하는 것은 깊은 인사이트를 얻기 위해 중요합니다. 산점도는 변수 간의 관계를 시각적으로 탐색하는 데 매우 유용한 도구로, 특히 색상과 농도를 추가함으로써 다변량 데이터의 복잡한 관계를 보다 효과적으로 나타낼 수 있습니다. 

 

다변량-산점도

이미지출처 : https://dataonair.or.kr/db-tech-reference/d-lounge/expert-column/?mod=document&uid=52072

산점도에서 다변량 데이터 시각화의 중요성


산점도는 두 변수 간의 관계를 포인트로 표시하여 그 관계의 성격을 쉽게 이해할 수 있게 해줍니다. 다변량 데이터에 색상과 농도를 추가하면, 추가 변수의 영향을 한 눈에 파악할 수 있어 데이터 분석의 깊이와 정확성을 높일 수 있습니다.

 


산점도에 색상과 농도 사용하기


색상 활용

- 변수의 범주 표현: 색상을 사용하여 데이터 포인트가 속한 범주(예: 성별, 지역 등)를 나타낼 수 있습니다. 각 범주에 다른 색을 할당하여, 데이터의 분류를 시각적으로 구분합니다.


- 값의 크기 표현: 연속적인 변수의 값에 따라 색상의 농도를 변화시켜, 값의 크기를 직관적으로 보여줄 수 있습니다.

 


농도 활용

- 데이터 밀도 표현: 특정 지역에 데이터 포인트가 밀집되어 있을 경우, 농도를 높여서 해당 지역의 데이터 밀도가 높음을 나타낼 수 있습니다.


- 중요도 강조: 데이터 포인트의 중요도나 가중치에 따라 농도를 조정하여, 중요한 정보에 대한 시각적 강조를 할 수 있습니다.

 

import matplotlib.pyplot as plt
import numpy as np

# 샘플 데이터 생성
np.random.seed(0)
x = np.random.rand(50)
y = np.random.rand(50)
colors = np.random.rand(50)  # 색상에 사용될 추가 데이터
sizes = 500 * np.random.rand(50)  # 점 크기에 사용될 추가 데이터

# 산점도 그리기
plt.scatter(x, y, c=colors, s=sizes, alpha=0.5, cmap='viridis')
plt.colorbar()  # 색상 바 표시
plt.xlabel('X Variable')
plt.ylabel('Y Variable')
plt.title('Multivariate Scatter Plot with Color and Size')
plt.show()

이 예제에서는 x와 y라는 두 변수의 관계를 표현하는 산점도에, colors와 sizes라는 두 개의 추가 변수를 색상과 크기로 표현했습니다. 이를 통해 포인트의 위치뿐만 아니라, 색상과 크기를 통한 추가 정보도 파악할 수 있습니다.

 


색상과 농도를 활용한 산점도는 다변량 데이터를 시각화하고 분석하는 데 매우 효과적입니다. 이 방법을 통해 데이터에 내재된 다양한 패턴과 관계를 보다 명확하게 이해할 수 있으며, 보다 깊이 있는 데이터 분석이 가능합니다.

728x90