파이썬으로 데이터 주무르기
-
chapter-7 시계열 데이터를 다뤄보자파이썬으로 데이터 주무르기 2021. 10. 25. 17:30
7장 시계열 데이터를 다뤄보자¶ 데이터를 다룬다는 말 속에는 다양한 분야와 응용을 담고 있습니다. 그런데 데이터가 시간의 흐름에 따라 변화하는 추이가 있는 데이터, 대표적으로 웹 트래픽이나 주식 같은 데이터를 예측할 해야 할 때가 있습니다. 시계열(Time Series)분석이라는 것은 통계적으로 어렵고 복잡한 작업입니다. 원 데이터의 안정성(stationary)을 판정하고, 안정한 형태로 변환하고, 예측 모델을 선정하고 검증하는 과정이 통계학의 깊은 지식을 요구합니다. 그러나 통계 전문가에게 맡기기 전에 간단히 데이터 예측하는 가벼운 느낌이라면 이 책에서는 유용한 도구를 하나 소개할까 합니다. 페이스북에서 만든 fbprophet이라는 모듈입니다. Fbprophet을 사용하기 위해서는 몇 가지 절차를 거쳐..
-
chapter-5 우리나라 인구 소멸 위기 지역 분석파이썬으로 데이터 주무르기 2021. 10. 25. 17:29
5장 우리나라 인구 소멸 위기 지역 분석¶ 이번에는 우리나라의 인구 소멸 위기 지역에 대해 조사하겠습니다. 인구 소멸 위기 지역을 시각화해서 위기감을 일으키는 것이 목접입니다. 그러기 위해서는 이전에 했던 서울시 지도가 아니라 대한민국 지도가 그려져야 합니다. 이번 절에서는 대한민국 지도를 그리고 그 위에 인구 소멸 위기 지역에 대해 매핑해서 시각화하는 것을 최종 목표로 합니다. 5- 목표 명확히 하기¶ 이상호 한국고용정보원 연구원의 이라는 보고서에서 사용한 방법으로, 인구 소멸 지역의 정의를 65세 이상 노인 인구와 20 ~ 39세 여성 인구를 비교해서 젊은 여성인구가 노인 인구의 절반에 미달할 경우 인구 소멸 위험 지역으로 분류하는 방법입니다. 이 방식에 따라 먼저 각 지역별 20 ~ 30대 여성 인..
-
chapter-3 시카고 샌드위치 맛집 분석 & 네이버 영화 평점 변화,날짜 변화 평점 확인하기파이썬으로 데이터 주무르기 2021. 10. 23. 14:27
3장 시카고 샌드위치 맛집 분석¶ 2장까지 우리가 다룬 데이터는 엑셀이든 텍스트든 파일의 형태였습니다. 그리고 우리는 파이썬과 몇몇 모듈의 기초에 집중하면서 뭔가 성과를 얻기 위해 노력했습니다. 이제 3장부터는 데이터를 인터넷에서 직접 얻는 과정을 이야기하려 합니다. 이를 거창하게 웹 스크래핑(Web Scraping)이라고 하지 않더라도 단지 원하는 정보 한줄을 얻는 과정이라도 기초를 알고 가야 합니다. 1,2장과 달리 이번장은 인터넷에서 웹페이지의 내용을 가져오는 Beautiful Soup라는 모듈의 기초부터 익히고, 이번장의 목표인 시카고 샌드위치 맛집 리스트를 정리하려고 합니다. 물론 그 과정에서도 익히고 배워야 할 것이 있습니다. In [1]: from bs4 import BeautifulSoup..
-
chapter-2 서울시 범죄 현황 분석파이썬으로 데이터 주무르기 2021. 10. 21. 20:57
2장 서울시 범죄 현황 분석¶ 우리는 1장에서 꽤 기나긴 여정을 거치며 많은 일을 했습니다. 데이터를 다루는 사람들은 항상 객관적으로 데이터를 이용해서 검증 가능한 범위 안에서 판단하게 됩니다. 그래서 데이터를 가지고 가설 혹은 인식을 검증하는 일도 할 수 있게 됩니다. 사실 이런 일들이 쾌감도 잇고 즐겁습니다. 2-2 pandas를 이용하여 데이터 정리하기¶ In [1]: import numpy as np import pandas as pd 먼저 numpy와 pandas는 항상 import하는 모듈이라고 생각하면 됩니다. 이제 다운받은 데이터를 pandas로 읽어보겠습니다. crime_anal_police라는 변수에 저장합니다. 그 내용을 보면 서울시 경찰서별로 살인,강도,강간,절도,폭력이라는 5대 범..
-
chapter-01 서울시 구별 CCTV 현황 분석파이썬으로 데이터 주무르기 2021. 10. 21. 20:52
1장 서울시 구별 CCTV 현황 분석¶ 이제 첫 작업입니다. 설레는 마음을 잠시 누르면서 먼저 목표에 대해 이야기하겠습니다. 이번 1장에서는 서울시 구별 CCTV 현황을 분석합니다. 단순히 어디에 CCTV가 많이 설치됐는지부터 시작해서 구별 인구 대비 비율을 확인하는 것까지 진행합니다. 특히 인구 현황을 보면서 구별 인구 현황에 대해서도 확인해볼까 합니다. 그리고 구별 CCTV 현환을 시각화하는 부분도 이야기하려고 합니다. 그리고 이런 과정을 거치면서 이 책이 여러분에게 바라는 것은 1장을 학습하면서 파이썬의 기초를 학습하고, pandas와 Matplotlib의 기초에 대해서도 익히기를 기대하고 있습니다. 1-2 파이썬에서 텍스트 파일과 엑셀 파일 읽기 - pandas¶ 1-1절에서 우리는 CSV파일과 ..