전체 글
-
chapter_1 데이터 과학하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 16. 02:37
1. 데이터 과학¶이 장에서 다룰 내용 데이터 과학의 정의와 진화의 역사 데이터 과학자가 되는 길 데이터 과학팀을 만드는 방법 데이터 과학 프로젝트의 라이프 사이클 데이터 과학 프로젝트의 관리 방법 최근 데이터 과학이란 용어는 거의 모든 데이터 중심 조직에서 평범한 대화 주제가 되었다. '빅데이터'라는 용어와 함께 혜성같이 등장한'데이터 과학'의 인기는 너무 갑작스럽다 못해 솔직히 혼란스러울 정도다. 대체 데이터 과학이란 덩확히 무엇이며, 왜 갑자기 이리도 중요해진 것일까? 이 장에서는 실무자 관점에서 데이터 과학을 소개한다. 데이터 과학과 함께 등장하는 여러 용어를 설명하고, 빅데이터 시대에 데이터 과학자가 수행하는 역할도 살펴본다. 1.1 데이터 과학이란 무엇인가?¶구글이나 빙에서'데이터 과학'이라고..
-
[DACON] 따릉이 대여량 예측DACON 2021. 11. 14. 18:19
따릉이 대여량 예측¶ DACON : 따릉이 대여량 예측 주제 :서울의 일별 온도, 습도, 강수량 등 일기 예보 데이터를 통해 따릉이 대여량을 예측 date_time : 일별 날짜 wind_direction: 풍향 (degree) sky_condition : 하늘 상태 (하단 설명 참조) 2019년 6월 4일까지 : 맑음(1), 구름조금(2), 구름많음(3), 흐림(4) 2020년 : 맑음(1), 구름많음(3), 흐림(4) precipitation_form : 강수 형태 (하단 설명 참조) wind_speed : 풍속 (m/s) humidity : 습도 (%) low_temp : 최저 기온 ( `C) high_temp : 최고 기온 ( `C) Precipitation_Probability : 강수 확률 (..
-
[Kaggle]Bike Sharng Demandkaggle 2021. 11. 9. 02:52
Kaggle Bike Sharng Demand¶ 캐글:Bike Sharing Demand datetime: 시간별 날짜 : 년,월,일,시,분,초 season: 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday: 공휴일 또는 주말 workingday: 주말,공휴일제외 일하는날 weather 1: 매우 맑음(Clear, Few clouds, Partly cloudy, Partly cloudy) 2: 맑음(Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist) 3: 나쁨(Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds) 4: 매우..
-
[DACON] 영화 관객수 예측 모델DACON 2021. 11. 1. 19:38
영화 관객수 예측 모델 개발¶ 감독, 이름, 상영등급, 스태프 수 등의 정보를 이용하여 영화 관객 수를 예측하는 모델을 만들어 보는 것이다. 데이콘에 교육 영상도 있으니 하나씩 천천히 이해하며 해보도록 하겠습니다. 1. 라이브러리 및 Data set 불러오기¶ In [1]: import pandas as pd import lightgbm as lgb import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline In [2]: # 데이터 불러오기 train = pd.read_csv('data/movies_train.csv') test = pd.read_csv('data/movies_test.csv') submission = pd.read_..
-
Python sqlite3 사용하기DB_study 2021. 10. 27. 01:57
이번 블로깅은 SQLite라는 라이브러리를 소개할 것이다. SQLite SQLite는 별도의 서버 프로세스가 필요 없고 SQL 질의 언어의 비표준 변형을 사용하여 데이터베이스에 액세스할 수 있는 경량 디스크 기반 데이터베이스를 제공하는 C 라이브러리입니다. 일부 응용 프로그램은 내부 데이터 저장을 위해 SQLite를 사용할 수 있습니다. SQLite를 사용하여 응용 프로그램을 프로토타입 한 다음 PostgreSQL 이나 Oracle과 같은 더 큰 데이터베이스로 코드를 이식할 수도 있습니다.(출처 : sqlite3) 지원하는 자료형 SQLite는 기본적으로 다음 형을 지원합니다: NULL, INTEGER, REAL, TEXT, BLOB. 따라서 다음과 같은 파이썬 형을 아무 문제 없이 SQLite로 보낼 ..
-
chapter-7 시계열 데이터를 다뤄보자파이썬으로 데이터 주무르기 2021. 10. 25. 17:30
7장 시계열 데이터를 다뤄보자¶ 데이터를 다룬다는 말 속에는 다양한 분야와 응용을 담고 있습니다. 그런데 데이터가 시간의 흐름에 따라 변화하는 추이가 있는 데이터, 대표적으로 웹 트래픽이나 주식 같은 데이터를 예측할 해야 할 때가 있습니다. 시계열(Time Series)분석이라는 것은 통계적으로 어렵고 복잡한 작업입니다. 원 데이터의 안정성(stationary)을 판정하고, 안정한 형태로 변환하고, 예측 모델을 선정하고 검증하는 과정이 통계학의 깊은 지식을 요구합니다. 그러나 통계 전문가에게 맡기기 전에 간단히 데이터 예측하는 가벼운 느낌이라면 이 책에서는 유용한 도구를 하나 소개할까 합니다. 페이스북에서 만든 fbprophet이라는 모듈입니다. Fbprophet을 사용하기 위해서는 몇 가지 절차를 거쳐..
-
chapter-5 우리나라 인구 소멸 위기 지역 분석파이썬으로 데이터 주무르기 2021. 10. 25. 17:29
5장 우리나라 인구 소멸 위기 지역 분석¶ 이번에는 우리나라의 인구 소멸 위기 지역에 대해 조사하겠습니다. 인구 소멸 위기 지역을 시각화해서 위기감을 일으키는 것이 목접입니다. 그러기 위해서는 이전에 했던 서울시 지도가 아니라 대한민국 지도가 그려져야 합니다. 이번 절에서는 대한민국 지도를 그리고 그 위에 인구 소멸 위기 지역에 대해 매핑해서 시각화하는 것을 최종 목표로 합니다. 5- 목표 명확히 하기¶ 이상호 한국고용정보원 연구원의 이라는 보고서에서 사용한 방법으로, 인구 소멸 지역의 정의를 65세 이상 노인 인구와 20 ~ 39세 여성 인구를 비교해서 젊은 여성인구가 노인 인구의 절반에 미달할 경우 인구 소멸 위험 지역으로 분류하는 방법입니다. 이 방식에 따라 먼저 각 지역별 20 ~ 30대 여성 인..
-
chapter-3 시카고 샌드위치 맛집 분석 & 네이버 영화 평점 변화,날짜 변화 평점 확인하기파이썬으로 데이터 주무르기 2021. 10. 23. 14:27
3장 시카고 샌드위치 맛집 분석¶ 2장까지 우리가 다룬 데이터는 엑셀이든 텍스트든 파일의 형태였습니다. 그리고 우리는 파이썬과 몇몇 모듈의 기초에 집중하면서 뭔가 성과를 얻기 위해 노력했습니다. 이제 3장부터는 데이터를 인터넷에서 직접 얻는 과정을 이야기하려 합니다. 이를 거창하게 웹 스크래핑(Web Scraping)이라고 하지 않더라도 단지 원하는 정보 한줄을 얻는 과정이라도 기초를 알고 가야 합니다. 1,2장과 달리 이번장은 인터넷에서 웹페이지의 내용을 가져오는 Beautiful Soup라는 모듈의 기초부터 익히고, 이번장의 목표인 시카고 샌드위치 맛집 리스트를 정리하려고 합니다. 물론 그 과정에서도 익히고 배워야 할 것이 있습니다. In [1]: from bs4 import BeautifulSoup..