판다스
-
chapter-5 데이터 연결하기판다스 2021. 9. 17. 03:34
05-1 분석하기 좋은 데이터¶ 분석하기 좋은 데이터란?¶ 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말합니다. 데이터 분석 단계에서 데이터 정리는 아주 중요합니다. 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이죠. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깜끔한 데이터라고 부릅니다. 깔끔한 데이터의 조건¶ 데이터 분석 목적에 맞는 데이터를 모아 새로운 표를 만들어야 합니다. 축정한 값은 행을 구성해야 합니다. 변수는 열로 구성해야 합니다. 아직은 깔끔한 데이터가 왜 중요한지 알 수 없겠지만 실습을 하나씩 진행하다 보면 깔끔한 데이터의 중요성에 대해 자연스럽게 이해할 수 있을 것입니다. 깔끔..
-
chapter-4 그래프 그리기판다스 2021. 9. 17. 03:33
04-1 데이터 시각화가 필요한 이유¶ 앤스콤 4분할 그래프 살펴보기¶ 데이터 시각화를 보여주는 전형적인 사례로 앤스콤 4분할 그래프가 있습니다. 이 그래프는 영국의 프랭크 앤스콤이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프입니다. 그러면 앤스콤이 지적한 '함정'이란 무엇일까요? 앤스콤이 지적한 함정과 데이터 시각화의 필요성¶ 앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x,y열을 가지고 있습니다. 그런데 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있습니다. 그래서 이런 결과만 보고 '데이터 그룹 I, II, III, IV의 데이터는 모두 같을 것이다..
-
chapter-2 판다스 시작하기판다스 2021. 9. 14. 19:16
02-1데이터 집합 불러오기¶ 데이터 분석의 시작은 데이터 불러오기부터¶ 데이터 분석을 위해 가장 먼저 해야 할 일은 무엇일까요? 바로 데이터를 불러오는 것입니다. 이때 불러오는 데이터를 '데이터 집합'이라고 합니다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보는 방법에 대해 알아보겠습니다. 우리가 처음 불러올 데이터 집합은 갭마인더입니다. '02_practice'를 주피터 노트북으로 열어 실습을 시작해 볼까요? 갭마인더 데이터 집합 불러오기¶ 1. 판다스의 여러 기능을 사용하려면 판다스 라이브러리를 불러와야 합니다. 다음과 같이 입력하여 판다스 라이브러리를 불러오세요.¶ In [13]: import pandas 2. 갭마인더 데이터 집합을 불러오려면 read_csv메서드를 사용해야 합니..