전체 글
-
chapter-1 데이터에서 인사이트 발견하기이것이 데이터 분석이다 with 파이썬 2021. 9. 26. 17:19
1.1 탐색적 데이터 분석의 과정¶ 탐색적 데이터 분석은 데이터의 정보를 파악하며 문제 해결에 필요한 힌트를 분석하는 과정입니다. 이제, 탐색적 데이터 분석의 과정을 몇 가지 예제와 함께 알아보겠습니다. 데이터와의 첫 만남¶ 우리가 실제로 접하는 대부분의 데이터는 아직 분석에 활용된 적이 없는 혹은 정제되지 않은 데이터입니다. 이러한 데이터를 raw data라고 부릅니다(이후 '데이터'로 통칭합니다). 탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 이때부터 다음과 같은 과정을 수행합니다. 1. 데이터의 출처와 주제에 대해 이해합니다.¶ 우선 데이터가 어디에서 생성된 것이고, 어떻게 수집된 것인지를 이해하는 것이 먼저입니다. 데이터의 이름, 구성요서, 그리고 데이터의 출처와 주제 등에 대해 ..
-
chapter-12 시계열 데이터판다스 2021. 9. 23. 00:46
12-1 datetime 오브젝트¶ datetime 라이브러리는 날짜와 시간을 처리하는 등의 다양한 기능을 제공하는 파이썬 라이브러리입니다. datetime 라이브러리에는 날짜를 처리하는 date 오브젝트, 시간을 처리하는 time 오브젝트, 날짜와 시간을 모두 처리하는 datetime 오브젝트가 포함되어 있습니다. 앞으로 3개의 오브젝트를 명확히 구분하기 위해 영문을 그대로 살려 date, time, datetime 오브젝트라고 부르겠습니다. datetime 오브젝트 사용하기¶ 1.¶ datetime 오브젝트를 사용하기 위해 datetime 라이브러리를 불러옵니다. In [142]: from datetime import datetime 2.¶ now, today 메서드를 사용하면 다음과 같이 현재 시간..
-
chapter-11 그룹 연산판다스 2021. 9. 23. 00:43
11-1 데이터 집계¶ 데이터 집계하기 - groupby 메서드¶ 02장에서 갭마인더 데이터 집합으로 각 연도의 평균 수명을 구했던 것을 기억하나요? 수집한 데이터를 바탕으로 평균이나 합 등을 구하여 의미 있는 값을 도출해 내는 것을 '집계'라고 합니다. 데이터를 집계하면 전체 데이터를 요약, 정리하여 볼 수 있기 때문에 데이터분석이 훨씬 편해지죠. 그러면 grooupby 메서드로 평균값을 구하는 과정을 통해 데이터 집계가 무엇인지 알아보겠습니다. groupby 메서드로 평균값 구하기¶ 1.¶ 먼저 갭마인더 데이터 집합을 불러옵니다. In [2]: import pandas as pd df=pd.read_csv('data/gapminder.tsv',sep='\t') 2.¶ 다음은 year 열을 기준으로 데..
-
chapter-10 apply 메서드 활용판다스 2021. 9. 23. 00:41
10-1 간단한 함수 만들기¶ 이 책은 파이썬의 기초 지식을 어느 정도 아는 독자를 대상으로 집필되었습니다. 따라서 함수는 간단히 설명하고 넘어갑니다. 함수의 기본 구조는 다음과 같습니다. def my_function(): # 여기부터 코드를 입력합니다. 그러면 제곱 함수와 n 제곱 함수를 직접 만들어보겠습니다. 제곱 함수와 n 제곱 함수는 10-2에서 apply 메서드와 함께 사용합니다. 여기에서 꼭 함수를 만들어보고 다음으로 넘어가세요. 제곱함수와 n 제곱함수 만들기¶ 1.¶ 제곱 함수는 다음과 같습니다. In [3]: def my_sq(x): return x **2 2.¶ n 제곱 함수 my_exp는 다음과 같습니다. In [4]: def my_exp(x,n): return x**n 3.¶ 과정 1..
-
chapter-9 문자열 처리하기판다스 2021. 9. 23. 00:39
09-1 문자열 다루기¶ 파이썬과 문자열¶ 문자열은 작은따옴표나 큰따옴표로 감싸서 만듭니다. 다음은 작은따옴표로 grail, ascratc라는 문자열 데이터를 만들어 변수 word,sent에 저장한 것입니다. In [1]: word='grail' sent='a scratch' 인덱스로 문자열 추출하기¶ 데이터프레임에서 인덱스를 이용하여 원하는 데이터를 추출했던 것을 기억하나요? 문자열도 인덱스를 사용하여 추출할 수 있습니다. 문자는 길이가 1인 문자열로 생각하면 됩니다. 다음은 문자열과 인덱스를 함께 나타낸 표입니다. 간단하게 살펴보고 바로 실습으로 넘어갈까요? 문자열 grail과 인덱스¶ 인덱스 : 0 : 1 : 2 : 3 : 4 문자열 : g : r : a : i : l 음수인덱스: -5 : -4 :..
-
chapter-8 판다스 자료형판다스 2021. 9. 23. 00:37
08-1 자료형 다루기¶ 자료형 변환하기¶ 자료형 변환은 데이터 분석 과정에서 반드시 알아야 하는 요소 중 하나입니다. 예를 들어 카테고리는 문자열로 변환해야 데이터 분석을 더 수월하게 할 수 있기 때문에 자주 변환하는 자료형입니다. 또 다른 예는 전화번호입니다. 전화번호는 보통 숫자로 저장합니다. 하지만 전화번호로 평균을 구하거나 더하는 등의 계산은 거의 하지 않습니다. 오히려 문자열 처럼 다루는 경우가 더 많죠 . 다음 실습을 통해 여러 가지 자료형을 문자열로 변환하는 방법에 대해 알아보겠습니다. 자료형을 자유자재로 변환하기-- astype 메서드¶ 1.¶ 이번에 사용할 데이터 집합은 seaborn 라이브러리의 tips 데이터 집합입니다. In [1]: import pandas as pd import..
-
chapter-7 깔끔한 데이터판다스 2021. 9. 23. 00:34
07-1 열과 피벗¶ 넓은 데이터¶ 데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 합니다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜, 발병 국가 등의 데이터를 저장하고 있죠. 하지만 이번에 다루는 데이터프레임의 열은 열 자체가 어떤 값을 의미합니다. 그러다 보니 데이터프레임의 열이 옆으로 길게 늘어선 형태가 됩니다. 바로 이것을 '넓은 데이터'라고 합니다. 이장에서는 넓은 데이터를 사용해 다양한 실습을 진행할 것입니다. 그러면 실습을 진행하기 전에 이장에서 자주 사용할 melt 메서드에 대해 간략하게 알아보겠습니다. melt 메서드¶ 판다스는 데이터프레임을 깔끔한 데이터로 정리하는 데 유용한 melt 메서드를 제공합니다. melt 메서드는 지정한 열의 데이터를 모두 행으로 정리해 줍니다. ..
-
chapter-6 누락값 처리하기판다스 2021. 9. 23. 00:33
누락값이란?¶ 누락값과 누락값 확인하기¶ 누락값은 NaN,NAN,nan과 같은 방법으로 표기할 수 있습니다. 이책에서는 누락값을 NaN이라고 표기하여 사용합니다. 그러면 바로 실습을 진행해 보면서 누락밧이 무엇인지 알아보겠습니다. 누락값 확인하기¶ 1.¶ 먼저 누락값을 사용하기 위해서 numpy에서 누락값을 불러옵니다. In [2]: from numpy import NaN,NAN,nan 2.¶ 누락값은 0,''와 같은 값과는 다른 개념이라는 것에 주의해야 합니다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미합니다. 그래서 '같다' 라는 개념도 없죠. 다음은 누락값과 True, False,0,''을 비교한 결과입니다. In [3]: print(NaN == True) False In [4]: prin..