Allen's 데이터 맛집
[3] SQL로 시각화를 위한 EDA 본문
이번 포스에선 이전 포스팅과 같이, SQL을 사용하여 Tableau에서 시각화를 위해 EDA를 통해 데이터를 분석해 보았습니다.
1.
전 세계의 총 감염자수와 총 사망자수 데이터를 가지고 사망률을 파악해 봅니다. 전 세계 코로나 사망률은 상대적으로 낮은 0.90%이지만 이는 아직 큰 영향을 미치고 있음을 시사합니다.
Select SUM(new_cases) as total_cases, SUM(cast(new_deaths as int)) as total_deaths,
SUM(cast(new_deaths as int))/SUM(New_Cases)*100 as DeathPercentage
From PortfolioProject..CovidDeaths
where continent is not null
order by 1,2
2.
위의 전 세계의 사망률과 대한민국의 사망률을 비교해 보기 위해 대한민국의 총 감염자수, 총 사망자수 그리고 사망률을 구해보았습니다. 아래 4번의 분석 결과에서 한국은 전 세계에서 코로나 감염률 5위로 66.48%의 높은 감염률을 보여줬지만, 이것이 과연 세계에서 5번째로 코로나가 심각할까에 대한 추가 분석의 필요성을 느꼈습니다. 그리하여 추가 한국 사망률을 계산해 보았고 이는 전 세계 대비 1/9로 매우 낮은 사망률로써 심각성은 다소 낮음을 시사합니다.
Select SUM(new_cases) as total_cases, SUM(cast(new_deaths as int)) as total_deaths,
SUM(cast(new_deaths as int))/SUM(New_Cases)*100 as DeathPercentage
From PortfolioProject..CovidDeaths
where continent is not null and location like '%south korea%'
order by 1,2
3.
대륙별 총사망자 수를 구해봅니다. 유럽에서의 높은 사망자 수는 해당 지역의 심각성을 보여줍니다.
(유럽 연합은 유럽의 일부입니다.)
Select location, SUM(cast(new_deaths as int)) as TotalDeathCount
From PortfolioProject..CovidDeaths
Where continent is null
and location not in
('World', 'European Union', 'International','High income','Upper middle income',
'Lower middle income','low income')
Group by location
order by TotalDeathCount desc
4.
국가별 감염 인구 비율을 분석합니다. Cyprus는 73.75% 전 세계 1위의 감염률을 보여주고, 대한민국은 66.72% 전 세계 5위의 감염률을 보여줍니다.
Select Location, Population, MAX(total_cases) as HighestInfectionCount,
Max((total_cases/population))*100 as PercentPopulationInfected
From PortfolioProject..CovidDeaths
Group by Location, Population
order by PercentPopulationInfected desc
GITHUB : https://github.com/siilver94/Analyzing-COVID19-Data