Allen's 데이터 맛집

[4] 동종/유사 업종 테마주 데이터 수집&전처리, 분석 및 시각화 본문

Project/파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기

[4] 동종/유사 업종 테마주 데이터 수집&전처리, 분석 및 시각화

Allen93 2023. 8. 4. 22:20

이번 포스팅에서는 제가 개인적으로 관심 있어하는 제약업종의 유사 업종과 테마로 분석해봅시다.

 

판다스의 read_html에 제약업종 url을 넣어 데이터를 수집하고 여러 전처리(결측치 처리, 파생변수 생성, 불필요한 칼럼제거)를 합니다. 전처리를 마친 데이터를 통해서 시가총액에 제일 높거나 거래량이 제일 높거나 등등 여러 가지 분석을 하고 시각화를 하는 것이 목표입니다.

 

 

 


 

데이터 수집

read_html에 2차 전지업종 url을 넣고 수집합니다.

데이터들이 table [2]에 있고 결측치를 모두 제거합니다.

 

 

종목명 대비 거래량을 bar chart로 그립니다.

상위 30개의 종목들을 시각화해봤을 때 이아이디라는 회사의 거래량이 압도적으로 많은 것을 확인할 수 있습니다. 하지만 거래대금으로 보았을 땐 거래량이 압도적으로 많았던 이아이디가 3위로 밀려나는 모습을 확인할 수 있습니다.

 

 

 

데이터 전처리

분석을 위해 여러 파생변수를 만들고 칼럼을 합치거나 나눕니다. 

자세한 전처리 과정은 제일 하단 GITHUB 링크를 통해 확인해 주세요.

 

 

 

 

 

분석 및 시각화

PER(배) 상하위 10개 종목을 시각화합니다.

 

 

 

PBR 상하위 10개 종목을 찾습니다

 

 

PER과 PBR의 상관 분석을 해봅니다. 상관계수가 0.26으로 다소 낮은 수치를 보여서, 선형성이 있는지 확인해 보기 위해 scatterplot을 사용하여 시각화해 봅니다.

regplot을 사용하여 추세선을 그려보았을 때 선형성이 있어 보이지만 데이터가 다소 부족해 보입니다.

 

 

 

코스프에서 업종 테마의 시가총액이 가장 많은 종목입니다. 삼성바이오로직스와 셀트리온이 압도적임을 볼 수 있습니다.

코스프에서 업종 테마의 거래량이 가장 많은 종목입니다.

코스피 테마주중 최근 52주 최고가에서 현재가 기준으로 가장 손산이 많이 난 종목과 차액 비율이 높은 종목을 시각화해 보았습니다.

 

 

 

저희가 가지고 있는 주식 데이터의 속성들의 상관관계를 시각화해보았습니다. 

짙은 붉은색일수록 상관관계가 높은 관계라고 보시면 되고 아래 히트맵 차트를 통해 몇몇 속성(칼럼)끼리 상관관계가 뚜렷한 것을 확인할 수 있습니다.

이번엔 종목별로 상관계수를 구해보았는데요 

생각보다 제약회사의 경우 같은 주식인 것처럼 상관관계가 매우 높은 주식들이 있음을 확인할 수 있었습니다. 물론 상관계수 수치는 인과관계와는 무관하지만 아무래도 제약업종들은 특정 이슈(코로나 등)나 여러 가지 상황으로 인해서 상관관계가 높은 것을 확인할 수 있었습니다.

 

 

GITHUB : https://github.com/siilver94/Stock-data-collection-analysis-and-visualization

 

GitHub - siilver94/Stock-data-collection-analysis-and-visualization

Contribute to siilver94/Stock-data-collection-analysis-and-visualization development by creating an account on GitHub.

github.com

 

728x90