# 1 미니 프로젝트, 데이터의 시각화 1일차
플레이데이터 19일차 2/1(수)
팀원 : 우상욱, 김기훈, 서영호, 이병호, 이호진
상욱님의 주도로 카테고리 선별 작업이 이뤄졌다.
좋은 데이터셋을 찾는 것이 이번 프로젝트를 수월히 할 수 있는 열쇠라고 생각해 주제 선정보다 큰 데이터 셋을 찾는 작업을 먼저 했다.
기훈님이 AI 경진대회를 주도하는 웹 사이트 DACON에서 코스피 데이터 셋을 찾아냈는데 경진대회 참가자 중 이병헌씨가 진행한 '코스피 지수에 따른 탐색적 데이터 분석' 글에 영감을 받아서 차용하기로 했다.
이병헌씨의 '코스피 지수에 따른 탐색적 데이터 분석'
https://dacon.io/competitions/official/235980/codeshare/6770?page=1&dtype=random
코스피 지수에 대한 탐색적 데이터 분석
월간 데이콘 KOSPI 기반 분석 시각화 경진대회
dacon.io
이 글에서는 총 14분류의 시각화를 했다
1. 세계 주요 지수의 등락율 비교
2. KOSPI, 금, 원유, 대한민국 기준 금리 간 경향성 분석
3. KOSPI 대형주, 중형주, 소형주 주가 추이
4. KOSPI와 KOSPI에 대한 RSI 14간 상관관계
5. 이동평균선
6. 코스피 종목의 PER, PBR과 코스피 지수와의 연관성 분석
7. 코스피 섹터별 (업종별) 주가 분석
8. 코스피 산업별 시가총액에 따른 비중(생략)
9. 코스피 산업간 상관계수
10. 섹터별 시가총액에 따른 비중(생략)
11. 섹터간 상관계수(생략)
12. 코스피200 섹터별 MDD
13. 산업별 5년 MDD
14. 산업별 10년 MDD(생략)
일단 인당 3개씩 시각화를 진행하기로 했는데, 이 글의 시각화 분류가 아주 잘 돼 있어서 우리는 각자 위 분류 중 2개씩을 골라 시각화하고 1개는 각자가 목록에 없는 새로운 분류의 시각화를 하기로 했다.
이 목록 중 내가 맡게된 것이다.
세계 주요 지수의 등락율 비교
코스피 산업간 상관계수
1. 세계 주요 지수의 등락율 답지는 이러하다.
이병헌씨가 한 코드에서는 라이브러리를 사용하여 yahoo라는 주식 사이트에서 데이터를 바로 끌어왔는데 나는 이 라이브러리를 배우지 않았음으로 그대로 베끼는 것보다는 배운 내용을 활용하여 인터넷에서 데이터셋을 찾아내고 최적화하여 차트를 뽑아내려 했다.
결과적으로
- KOSPI Composite Index(Korea)
- S&P 500(US)
- Dow Jones Industrial Average(US)
- NASDAQ Composite(US)
- FTSE 100(UK)
- DAX PERFORMANCE-INDEX(Germany)
- Nikkei 225(Japan)
- EURO STOXX 50
- BSE sensex(India)
위 9가지 데이터들을 인터넷에서 다운받아 최적화 시키는 작업에 하루를 소요했다.
데이터를 찾아내는 시간이 가장 오래 걸렸지만 찾아낸 데이터들의 컬럼 이름 표기와 날짜 행 표기 방식이 각각 달라 형식을 맞추는데 생각보다 많은 시간을 소모했다.
아래는 최적화 한 데이터 셋들이다.
https://github.com/Atopiano/pythonbasic/blob/main/project/01mini_pro_%231.ipynb
GitHub - Atopiano/pythonbasic: 파이썬 기초
파이썬 기초. Contribute to Atopiano/pythonbasic development by creating an account on GitHub.
github.com
다른 조원들은 나와 다르게 이병헌 씨의 코드를 차용하여 데이터셋을 찾지 않고 진행해서 빠르게 그래프를 도출해 낼 수 있었다.
그러던 중 상욱님이 우리가 시각화한 자료들이 방향성 없이 흩어져 있는 것 같다는 의견을 내서 우리는 팀 프로젝트 방향성에 대해 다시 상의하게됬다.
각자가 시각화를 3가지나 진행하는 만큼 개개인의 공부에는 좋지만, 팀 프로젝트라는 것은 팀이 하나의 목적지를 향해 가야 의미가 있는 것이다.
그래서 우리는 우리가 시각화 한 자료들을 하나로 엮을 수 있는 주제에 대해 고민했다.
그 결과
코스피 주가지수 분석을 통한 시각화 자료로 투자 전략 세우기
라는 주제가 나오게 됬다.
먼저 세계 주요 지수의 등락율에서 주요 지수의 종류를 5가지로 줄였다.
위의 자료를 통해 중국은 등락율이 급격히 변하는 경향이 있으므로 투자를 지양하는 것을 권장한다는 결론을 도출할 수 있다.
아래 그래프는 영호님이 조사한 월별 코스피 기준 제조업 서비스업 추이이다.
하지만 이 그래프에서는 서비스업과 제조업만을 비교해 데이터가 부족하므로 업종을 늘려서 어떤 업종이 상승세이고 투자하기 좋을지 분석해보기로 했다.
상욱님이 조사한 코스피/금/원유/국내 금리 추이 비교 그래프이다.
위 그래프를 통해 금은 완만한 우상향 그래프를 보이고 코스피 지수가 하락하면 금 가격은 더욱 상승하고 투자를 할 때 금을 투자하는 것이 안정적인 투자 방법이 될 수 있다는 것을 알 수 있다.
추가로 상욱님은 주식종목토론방에서 나오는 키워드들을 크롤링하여 wordcloud로 시각화 했다.
이 데이터는 주제를 따라가진 않지만 재미삼아 피피티 마지막 장에 추가할 예정이다. 두산에너빌리티를 키워드로 검색하여 저 두산에너빌리티라는 단어가 자주 노출됬다.
여기까지 오늘은 주제를 정리하고 자료를 한 방향으로 모은 것으로 마무리됐다.
내일 할 일은 이렇다.
- 세계 주요 지수의 등락률 비교(기훈)
- 코스피 / 금 / 석유 추이 비교 / 코스피 & 암호화폐 추이 비교(상욱)
- 소중대 주식/ 60일 120일 360일 한번에 시각화(병호)
- 산업군별 MDD 시각화(영호)
- 산업군별 상관계수(호진)
- RSI, RSI가 높으면 높을 수록 하락폭 보다 상승폭이 큼, 낮으면 하락폭이 더 큼 / 보통 RSI가 70 넘어서면 매도 신호, 30보다 낮아지면 매수 신호(기훈)
- PER, PBR
위 7가지 자료를 재정리하여 오전 중으로 시각화를 끝내고 오후에 피피티 작업을 마무리 할 예정이다.
이번 프로젝트가 순조롭게 진행되는 것에는 기훈님이 금융 전공이라 관련 지식에 해박하여 어떤 데이터가 의미가 있는지 어렵지 않게 알 수 있었기 때문이 컸다.
마지막에 상욱님이 팀의 방향성에 의문을 제기해 우리가 하는 일이 단순 시각화 작업이 아닌 의미 있는 결과를 도출하는 팀 프로젝트의 모습을 갖출 수 있어서 다행이다.
각자의 시각화에서 팀 시각화로 변하면서 나 또한 라이브러리를 사용해서 이병헌 씨의 코드를 차용하게 되었고
사실상 오늘 내가 한 일은 없었지만 내일은 맡은 데이터를 시각화해 팀에 기여를 하려 한다.
배울 점이 많은 팀원들과 함께라 기쁘다.