하둡과 스파크를 활용한 실용 데이터 과학
-
chapter_3 하둡과 데이터 과학하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 20. 17:27
3. 하둡과 데이터 과학¶이 장에서 다룰 내용 하둡이란 무엇인가 하둡의 진화 과정 데이터 과학을 위한 하둡 도구 데이터 과학을 위한 피그와 하이브 데이터 과학을 위한 스파크 데이터 과학자들은 왜 하둡을 애용하는지 다른 분야와 마찬가지로 데이터 과학에도 적절한 도구가 필요하다. 오늘날 하둡은 데이터 과학자들이 자유롭게 활용할 수 있는 강력한 도구로 자리매김했다. 이 장에서는 하둡의 정의, 하둡의 역사와 진화, 하둡 생태계에 추가된 새로운 도구, 하둡이 데이터 과학자에게 중요한 이류를 설명한다. 3.1 하둡이란 무엇인가?¶아파치 하둡은 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 컴퓨팅 플랫폼이다. 하둡의 원래 개발 목적은 검색 색인에 있었지만, 사람들은 곧 하둡의 핵심 개념을 다른 일반적인..
-
chapter_2 데이터 과학의 활용 사례하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 16. 02:38
2. 데이터 과학의 활용 사례¶이장에서 다룰 내용 빅데이터가 데이터 중심 조직에 가져온 변화 데이터 과학의 비즈니스 활용 사레 1장 데이터 과학에서는 데이터 과학과 그 역사에 등장하는 기본적인 용어를 살펴봤다. 하둡을 빠르게 도입하고 데이터 레이크(기업의 모든 데이터셋을 담는 중앙 데이터 저장소)를 구축한 여러 기업은 대규모 데이터셋을 활용하는 새롭고 혁신적인 방법을 발굴해 이전에는 불가능했던 비즈니스 이점을 누리고 있다. 이 장에서는 이러한 변화의 주요한 원동력에 대해 논의한 후, 데이터 과학의 여러 비즈니스 활용 사례를 자세히 살펴본다. 2.1 빅데이터: 변화의 원동력¶현대의 IT 인프라의 변화는 실로 엄청나다. 기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있다. 빅데이터가 등장하기..
-
chapter_1 데이터 과학하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 16. 02:37
1. 데이터 과학¶이 장에서 다룰 내용 데이터 과학의 정의와 진화의 역사 데이터 과학자가 되는 길 데이터 과학팀을 만드는 방법 데이터 과학 프로젝트의 라이프 사이클 데이터 과학 프로젝트의 관리 방법 최근 데이터 과학이란 용어는 거의 모든 데이터 중심 조직에서 평범한 대화 주제가 되었다. '빅데이터'라는 용어와 함께 혜성같이 등장한'데이터 과학'의 인기는 너무 갑작스럽다 못해 솔직히 혼란스러울 정도다. 대체 데이터 과학이란 덩확히 무엇이며, 왜 갑자기 이리도 중요해진 것일까? 이 장에서는 실무자 관점에서 데이터 과학을 소개한다. 데이터 과학과 함께 등장하는 여러 용어를 설명하고, 빅데이터 시대에 데이터 과학자가 수행하는 역할도 살펴본다. 1.1 데이터 과학이란 무엇인가?¶구글이나 빙에서'데이터 과학'이라고..