분류 전체보기
-
[krx]데이터 자동 수집을 위한 가이드정보 자동 수집 가이드 2021. 11. 26. 02:14
[krx]데이터 자동 수집을 위한 가이드¶이번에는 주식 데이터를 자동 수집을 해보자. 이번은 간단하게 crontab를 사용해 매일 17시에 실행을 하여 주식 데이터를 수집 할 것이다. 지금은 한가지 주식을 해보지만 다음에는 여러가지의 주식 정보를 수집하는 방법을 블로깅 해보겠다. 목차는 다음과 같다. 주피터 파일 생성 후 데이터 수집 코드 생성 주피터 파일 파이썬 파일로 변경 crontab을 이용해 월~금 5시 주식 데이터 수집 1. 코드 작성¶ 1-1 라이브러리 불러오기¶ In [1]: import pandas as pd import datetime import sqlite3 from pykrx import stock 1-2 datetime 불러오기¶ In [2]: today = datetime.dat..
-
[datetime]데이터 자동 수집을 위한 가이드정보 자동 수집 가이드 2021. 11. 25. 01:50
데이터 자동 수집을 위한 가이드¶ 데이터 수집을 자동으로 해보자. 이번에는 crontab와 sqlite3를 사용하여 DB에 자동으로 적재 해보려한다. 추가로 csv도 누적으로 적재하는 연습을 가져보려 한다. 이번 연습을 통해 잘 마무리를 하고 앞으로 주식 데이터나, 날씨 또는 여러가지의 데이터들을 수집 하는 과정을 가지려 한다. 전반적으로 목차는 다음과 같다. 주피터 파일 생성 후 데이터 수집 코드 생성 CSV저장 및 db 저장 주피터 파일 파이썬으로 변경 crontab 을 사용하여 분당 데이터 적재 우선 주피터 파일에 데이터 수집 코드를 작성 하자 1.코드 작성¶ 1-1.라이브러리 불러오기¶ In [18]: import pandas as pd import datetime import sqlite3 1-..
-
jupyter notebook에 pyspark 연동 하기카테고리 없음 2021. 11. 22. 23:35
jupyter notenook 설치는 링크를 남겨두도록하고 바로 pyspark 연동하기를 시작하겠다. - [AWS 환경에서 Jupyter notebook 설치 및 실행] AWS 환경에서 Jupyter notebook 설치 및 실행 AWS 인스턴스 구축후 Jupyter notebook 설치 및 실행 AWS 인스턴스 구축방법은 아래 링크를 통해 알아보면 되겠다. 리눅스나 우분투 설치 방법은 같고 실행 방법도 같다.(실행코드만 살짝 다르다.) 구축 uikang.tistory.com 1. 계정 생성 및 환경 변수 설정 1-1 계정 생성 및 해시태그 생성 $ python >>> from notebook.auth import passwd >>> passwd() 비밀번호를 쳤는데 글이 안나온다고 당황하지말고 입력하면..
-
[AWS] Spark 설치AWS 2021. 11. 22. 17:59
이번에는 스파크를 설치를 할텐데 그전에 java와 scala를 설치를 해야한다. 1. java 설치 및 환경 변수 1-1 java 설치 아래 코드로 설치를 진행했다. scala와 잘 연동된다 하여 버전 8을 설치했다. $ sudo apt install openjdk-8-jdk 1-2 설치 확인 $ java -version 1-3 환경 변수 설정 다음 코드로 porfile 열어주자. $ sudo nano /etc/profile 자 그럼 열게되면 밑으로 쭉내려서 아래코드 입력을 해주면 된다. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH export CLASS_PATH=$JAVA_HOME/lib:$CLAS..
-
[AWS]Rstudio-server 설치AWS 2021. 11. 22. 06:31
AWS에 EC2 구축 완료후 Rstudio server를 설치 하자. Rstudio는 R을 편리하게 사용가능한 환경을 만드는 프로그램 이다. Rstudio를 설치하게 되면 다른 곳에서 R환경을 편리하게 사용 할 수 있다. 1. R Base 설치 Rstudio 설치전 R,R Base를 먼저 설치해야 한다. 1-1 아래 코드로 사전 준비 Ket값을 먼저 등록하자. $ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E298A3A825C0D65DFD57CBB651716619E084DAB9 $ sudo add-apt-repository ‘deb https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/..
-
chapter_3 하둡과 데이터 과학하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 20. 17:27
3. 하둡과 데이터 과학¶이 장에서 다룰 내용 하둡이란 무엇인가 하둡의 진화 과정 데이터 과학을 위한 하둡 도구 데이터 과학을 위한 피그와 하이브 데이터 과학을 위한 스파크 데이터 과학자들은 왜 하둡을 애용하는지 다른 분야와 마찬가지로 데이터 과학에도 적절한 도구가 필요하다. 오늘날 하둡은 데이터 과학자들이 자유롭게 활용할 수 있는 강력한 도구로 자리매김했다. 이 장에서는 하둡의 정의, 하둡의 역사와 진화, 하둡 생태계에 추가된 새로운 도구, 하둡이 데이터 과학자에게 중요한 이류를 설명한다. 3.1 하둡이란 무엇인가?¶아파치 하둡은 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 컴퓨팅 플랫폼이다. 하둡의 원래 개발 목적은 검색 색인에 있었지만, 사람들은 곧 하둡의 핵심 개념을 다른 일반적인..
-
[DACON] 따릉이 대여량 예측DACON 2021. 11. 18. 16:28
따릉이 대여량 예측¶ DACON : 따릉이 대여량 예측 무인 공공자전거 대여 서비스인 따릉이는 누구나 손쉽게 이용할 수 있는 자전거 대여 서비스이다. 어플만 있으면 저렴한 가격에 손쉽게 사용이 가능하기 때문에 모두에게나 사랑받고 있다. 따릉이에 대한 수요가 높아 질수록 이에 대한 관리가 필요해 보인다. 자전거의 배치공간은 한계가 있으며 서울에도 지역에 따라 수요가 다르므로 데이터 분석을 통해 따릉이의 대여량을 파악하는 것이 이번 대회의 핵심이다. 데이콘은 서울에 일별, 온도, 습도, 강수량 등 일기예보 데이터와 따릉이의 대여량 데이터를 제공하고, 이 데이터를 통해 따릉이의 대여량을 예측해 보려 한다. 데이콘에서 제공하는 데이터는 다음과 같다. Data¶기상 데이터는 하루에 총 8번 3시간 간격으로 발표되..
-
chapter_2 데이터 과학의 활용 사례하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 16. 02:38
2. 데이터 과학의 활용 사례¶이장에서 다룰 내용 빅데이터가 데이터 중심 조직에 가져온 변화 데이터 과학의 비즈니스 활용 사레 1장 데이터 과학에서는 데이터 과학과 그 역사에 등장하는 기본적인 용어를 살펴봤다. 하둡을 빠르게 도입하고 데이터 레이크(기업의 모든 데이터셋을 담는 중앙 데이터 저장소)를 구축한 여러 기업은 대규모 데이터셋을 활용하는 새롭고 혁신적인 방법을 발굴해 이전에는 불가능했던 비즈니스 이점을 누리고 있다. 이 장에서는 이러한 변화의 주요한 원동력에 대해 논의한 후, 데이터 과학의 여러 비즈니스 활용 사례를 자세히 살펴본다. 2.1 빅데이터: 변화의 원동력¶현대의 IT 인프라의 변화는 실로 엄청나다. 기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있다. 빅데이터가 등장하기..