이것이 데이터 분석이다 with 파이썬
-
chapter-3.3 미래에 볼 영화의 평점 예측하기이것이 데이터 분석이다 with 파이썬 2021. 10. 13. 23:51
3.3 미래에 볼 영화의 평점 예측하기¶ 데이터 분석을 통해 아직 사람들이 보지 않았지만 좋아할 만한 영화들을 추천할 수 있을까요? 넷플릭스같은 서비스들은 이러한 것들을 평점 예측 기본으로 제공하고 있습니다. 이번 절에서는 이러한 평점 예측 기법을 알아보겠습니다. Step 1 탐색: MovieLens 데이터 살펴보기¶ MovieLens 데이터는 총 3개의 데이터셋으로 분리되어 있으며 데이터셋을 구성하는 피처는 아래와 같습니다. 데이터셋 : 피처 rating 데이터 : user_id(유저 번호), movie_id(영화 번호), rating(점수), time(데이터 등록시간) movie 데이터 : movie_id(영화 번호), title(영화 제목), genre(장르) user 데이터 : uesr_id(유저..
-
chapter-5.2 구매 데이터를 분석하여 상품 추천하기이것이 데이터 분석이다 with 파이썬 2021. 10. 11. 17:47
5.2 구매 데이터를 분석하여 상품 추천하기¶ 이번 절에서는 구매 데이터 분석에 기반한 온라인 스토어 상품 추천 시뮬레이션 예제를 알아보겠습니다. 예제에서는 피처 엔지니어링, 그리고 행렬 완성 기반 점수 예측 방법을 이용하여 상품 추천 시물레이션을 수행합니다. 분석에 사용할'UK Retail'데이터는 영국의 한 선물 판매 온라인 스토어에서 발생한 거래 데이터로, 주 고객은 선물 도매상입니다. Step 1 탐색적 분석: UK Retail 데이터 분석하기¶ 예제에서 사용할 UK Retail 데이터셋은 다음과 같은 피처로 구성되어 있습니다. invoiceNO : 거래 고유 번호 StockCode : 상품 고유 번호 Description : 상품명 Quantiy : 거래 수량 InvoiceDate : 거래 일시..
-
chapter_4.1 타이타닉 생존자 가려내기이것이 데이터 분석이다 with 파이썬 2021. 10. 6. 17:22
4.1 타이타닉 생존자 가려내기¶ 타이타닉의 생존자 그룹과 비생존자 그룹을 분류하는 예제를 4단계 step으로 살펴봅시다. Step 1 탐색: 타이타닉 데이터 살펴보기¶ 타이타닉 데이터셋의 구성은 다음과 같습니다. pclass : Passenger Class, 승객등급 survivde : 생존 여부(생존은 1, 아닌경우는 0) name : 승객 이름 sex : 승객 성별 age : 승객 나이 sibsp : 동승한 형제 또는 배우자 수 parch : 동승한 부모 또는 자녀 수 ticket : 티켓 번호 fare : 승객 지불 요금 cabin : 선실 이름 embarked : 승선항(C=쉘 부르크, Q=퀸즈타운, S=사우스 햄튼) body : 사망자 확인 번호 home.dest : 고향/목적지 분석에 사용할..
-
chapter-3.2 비트코인 시세 예측하기이것이 데이터 분석이다 with 파이썬 2021. 9. 30. 18:00
3.2 비트코인 시세 예측하기¶ 다음으로 살펴볼 예제는 비트코인 시세 예측입니다. 비트코인 시세처럼 연속적인 시간에 따라 다르게 측정되는 데이터를 시계열 데이터라 하며, 이를 분석하는 것을 '시계열 데이터 분석'이라고 합니다. 시계열 데이터 분석은 심작 박동 데이터처럼 규치적 시계열 데이터를 분석하는 것과 비트코인 시세예측처럼 불규칙적 시계열 데이터를 분석하는 것으로 구분할 수 있습니다. Step 1 탐색: 시간 정보가 포함된 데이터 살펴보기우선¶ 우선 비트코인 데이터를 탐색합니다. 다음 코드로 데이터셋을 살펴보면, 비트코인 데이터는 총 365개의 행으로 이우러진 것을 알 수 있습니다. 또한 데이터는 결측값이 없이 날짜와 가격에 대한 2개의 피처로 구성되어 있습니다. 이러한 데이터셋을 시계열 데이터셋이라..
-
chapter-3.1 프로야구 선수의 다음 해 연봉 예측하기이것이 데이터 분석이다 with 파이썬 2021. 9. 30. 17:58
3.1 프로 야구 선수의 다음 해 연봉 예측하기¶ 예제에 들어가기에 앞서 예측 분석의 가장 대표적인 방법인 회귀 분석을 살펴보겠습니다. 회귀 분석이란 독립변수(X)와 종속변수(Y) 간의 관계를 찾아내는 것입니다. 아래 그래프와 같은 일차 방정식 (Y=wX+b)을 예로 들 수 있습니다 위 그래프에서 회귀 분석이란 실제 데이터(빨간 점들)와 거리가 최소가 되는 방적식(선)을 찾아내는 것입니다. 즉, 방적식의 계수 w와 b를 정하는 것이라고 할 수 있습니다. 그렇다면 회귀 분석을 데이터 분서게 어떻게 적용하는 것일까요? 이를 우리에게 익숙한 표 형태의 데이터로 살펴봅시다. 아래의 표에서 '나이','몸무게' 피처는 방적식의 X1,X2, 그리고 '키'는 방적식의 Y로 정의할 수 있습니다. 여기에 X1의 영향력을 ..
-
chapter-1 데이터에서 인사이트 발견하기이것이 데이터 분석이다 with 파이썬 2021. 9. 26. 17:19
1.1 탐색적 데이터 분석의 과정¶ 탐색적 데이터 분석은 데이터의 정보를 파악하며 문제 해결에 필요한 힌트를 분석하는 과정입니다. 이제, 탐색적 데이터 분석의 과정을 몇 가지 예제와 함께 알아보겠습니다. 데이터와의 첫 만남¶ 우리가 실제로 접하는 대부분의 데이터는 아직 분석에 활용된 적이 없는 혹은 정제되지 않은 데이터입니다. 이러한 데이터를 raw data라고 부릅니다(이후 '데이터'로 통칭합니다). 탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 이때부터 다음과 같은 과정을 수행합니다. 1. 데이터의 출처와 주제에 대해 이해합니다.¶ 우선 데이터가 어디에서 생성된 것이고, 어떻게 수집된 것인지를 이해하는 것이 먼저입니다. 데이터의 이름, 구성요서, 그리고 데이터의 출처와 주제 등에 대해 ..