-
chapter_2 데이터 과학의 활용 사례하둡과 스파크를 활용한 실용 데이터 과학 2021. 11. 16. 02:38
chapter_2 2. 데이터 과학의 활용 사례¶
이장에서 다룰 내용
- 빅데이터가 데이터 중심 조직에 가져온 변화
- 데이터 과학의 비즈니스 활용 사레
1장 데이터 과학에서는 데이터 과학과 그 역사에 등장하는 기본적인 용어를 살펴봤다. 하둡을 빠르게 도입하고 데이터 레이크(기업의 모든 데이터셋을 담는 중앙 데이터 저장소)를 구축한 여러 기업은 대규모 데이터셋을 활용하는 새롭고 혁신적인 방법을 발굴해 이전에는 불가능했던 비즈니스 이점을 누리고 있다.
이 장에서는 이러한 변화의 주요한 원동력에 대해 논의한 후, 데이터 과학의 여러 비즈니스 활용 사례를 자세히 살펴본다.2.1 빅데이터: 변화의 원동력¶
현대의 IT 인프라의 변화는 실로 엄청나다. 기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있다. 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에(대부분 이프라 비용 문제로) 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방식이었다.
하지만 빅데이터 시대가 도래하면서 IT 분야의 선도 기업들은 빅데이터 전략이 가져다 주는 경쟁우위를 인식하게 되었다.
빅데이터가 가져온 변화의 근간을 이루는 세 가지 중요한 특성(데이터의 규모, 다양성, 속도)을 살펴보고, 이 특성들이 현대 IT 혁명에 어떤 영향을 줬는지 알아보자.2.1.1 규모: 더 많은 데이터의 활용¶
빅데이터가 가져온 변화의 첫 번째이자 어쩌면 가장 단순한 원동력은 훨씬 많은 데이터를 사용할 수 있다는 점이다. 사실 기업은 데이터베이스 기술이 사용화되었던 1960년대부터 데이터를 모으고 저장하고 적극적으로 활용해 왔다. 예를 들어 의료 보험 회사는 환자의 의료 정보와 보험 청구 정보를 저장한다. 또한, 소매 기업은 소비자의 구매 내역을, 은행은 고객의 예금, 인출, 투자 등의 데이터를 저장한다.
보통 이런 데이터는 거래 후 정보로 구성됐었다. 기업의 비즈니스에서는 사용자의 클릭 로그 같은 거래 전 데이터가 더 많이 발생한다. 하지만 당시 기업의 IT 의사 결정은 주로 (당시에는 만만치 않았던)데이터 저장 비용에 영향을 크게 받아서 대부분 거래 전 데이터를 저장하지 않았다.
그런데 지난 10년간 극적인 변화가 일어났다. 하둡은 대규모 스토리지 클러스터에 필요한 기업의 인프라 비용을 획기적으로 줄여 주었으며, 대량의 거래 전 데이터에서 분명한 비즈니스 가치를 도출할 수 있는 머신 러닝 알고리즘이 많이 진보했다. 이러한 변화는 데이터의 보관 여부와 기간에 대한 기업의 인식을 바꾸엇다. 그 결과 오늘날 상당수의 기업은 모든 데이터를 원시 형태로 저장한다.
또한, IoT 기기 및 센서 데이터가 급증하면서 엄청난 양의 데이터가 생성되고, 그 규모도 매년 기하급수적으로 커진다. 국제 데이터 조합은 현대의 디지털 우주가 2020년까지 매년 두 배 씩 확대돼 2020년에는 무려 4만 엑사바이트(약 40조 기가바이트)의 데이터가 생성될 것으로 예측했다.
기존의 데이터 저장소와 데이터 웨어하우스 솔루션은 인프라를 합리적인 비용으로 증성할 수 없으므로 이처럼 엄청난 규모의 데이터를 저장하는 것은 모든 기업의 숙제다. 하지만 데이터가 가져오는 엄청난 가치를 일찍 깨달은 기업은 이 새로운 데이터를 저렴하고 합리적인 비용으로 저장하고 효율적으로 활용할 수 있는 최신 데이터 레이크 기술을 도입했다.2.1.2 다양성: 더 많은 데이터 유형¶
빅데이터 시대에 이르러 데이터의 규모가 증가했을 뿐만 아니라, 다양하고 새로운 데이터 유형이 등장했다. 그 덕부에 이전까지는 불가능했던 분석과 예측의 기회가 열렸다. 빅데이터 시대의 새로운 데이터 유형을 몇 가지 살펴보자.
- 센서 데이터는 이제 우리 생활 곳곳에서 생성되며, 점점 더 많은 기기가 이전에는 측정할 수 없었던 새로운 유형의 데이터를 수집하고 저장하는 능력을 갖춘다. 예를 들어 휴대폰은 GPS 정보를 수집하고, NEST는 온도 정보를 수집하며, 자동차는 스스로 운정 상태 정보를 수집할 수 있다.
- 로그 파일은 사실 새로운 데이터 유형은 아니다. 로그 파일은 특정 서버(예를 들면 웹서버)에서 일어나는 다양한 유형의 정보를 기록하는 보편적인 방법이다. 지금까지 로그 파일은 서버에서 발생하는 문제를 진단하는 데 사용됐으므로 보통 며칠 또는 몇 주간 저장됬다가 버려지는 것이 일반적이었다. 하지만 서버 로그에는 사용자의 페이지 뷰, 클릭 행동 같은 귀중한 정보가 들어 있어서 최근에는 로그를 클릭 스트림 분석에 활용하려고 원시 형태로 수년간 보관하는 경우가 많다.
- 텍스트 데이터 또한 다양한 비즈니스 환경에서 활용할 수 있다. 텍스트 데이터는 PDF 문서나 JSON/XML 파일 또는 단순 텍스트 파일 형태로 저장될 수 있으며, 다양한 내용(예를 들면 의사의 진료 메노, 콜센터의 상담 기록, 장비 유지 보수 업체의 유지보수 사례 등)을 포함할 수 있다. 최근에는 고급 자연어 처리 기술을 대규모 텍스트 정보에도 적용할 수 있어서 데이터 중심 비즈니스에 텍스트 데이터를 활용하는 사례가 더욱 늘어난다.
- 오디오 및 비디오 데이터는 보통 기업의 감사를 위한 자료나 법률 준수사례의 근거 자료를 기록하려고 저장하는 경우가 많다. 최근 일부 기업은 이 오디오 및 비디오 데이터를 혁신적으로 사용할 새로운 기회를 찾아냈다. 예를 들어 콜센터의 고객 상담 내용이 녹음된 오디오 데이터를 북석해 제품에 대한 고객의 만족도를 도출하거나, 생산 고정의 비디오 데이터를 분석해 제품 불량을 조기에 발견할 수 있다.
2.1.3 속도: 더빠른 데이터 유입¶
빅 데이터 시대가 가져온 변화의 또 다른 원동력은 데이터 유입 속도가 빨라졌다는 점이다.
AT&T, 버라이즌, T-모바일, 스프린트 같은 이동 통신 회사의 예를 들어보자. 이 기업들은 국내망 또는 국제망을 구성하는 모든 기지국에서 이벤트 데이터를 수집한다. 이런 데이터가 유입되는 속도는 가히 압도적이어서 그들이 현재 보유한 최신 데이터 인프라 기술을 무력하게 만들기도 한다.2.2 비즈니스 활용 사례¶
지금까지 빅데이터가 가져온 변화의 세 가지 특성(규모, 다양성, 속도)과 이러한 특성이 기업의 데이터 활용 방식에 어떤 영향을 줬는지 설명했다. 이어서 빅데이터와 데이터 과학의 일반적인 활용 사례를 살펴보자.
2.2.1 제품 추천¶
추천 시스템은 온라인 소매업이나 이와 유사한 개념을 활용하는 다양한 비즈니스에 널리 활용된다. 우리는 이미 아마존이나 넷플릭스, 페이스북, 링크드인, 구글 유튜브 같은 온라인 서비스가 제공하는 다양한 제품 추천 기술에 꽤 익숙해졌다.
아마존은 웹 사이트 곳곳에서 제품을 추천한다. 예를 들어 사용자가 아마존에서 시계를 하나 보면 이와 유사한 시계를 추천해 사용자가 구매 전에 고려할 수 있는 추가 옵션을 제공한다.
넷플릭스는 사업 초기부터 일찌감치 영화 추천을 제공해 왔다. 최근에는 넷플릭스 비디오 스트리밍 트래픽의 약 75%가 추천 영화에서 발생한다고 알려졌다. 영화 추천은 넷플릭스의 핵심 기능이자 넷플릭스가 이룩한 비즈니스 성공의 거대한 원동력이다.
구글의 유튜브는 상당한 인기를 누리는 사용자 제작 동영상 플랫폼이다. 서비스 초기에는 주로 검색으로 보고 싶은 동영상을 찾을 수 있었다. 이후 구글은 사용자가 흥미를 느낄 만한'유사'동영상을 추가로 제공하는 '추천 동영상'기능을 추가했다. 사용자가 새로운 동영상을 한 개만 시청해도 이와 유사한 도용ㅇ상이 추천 목록에 반영된다.
전 세계에서 가장 인기 있는 전문가 네트워킹 플랫폼인 링크드인은 서비스 초기부터 '당신을 알수도 있는 사람'이라는 기능을 제공했다. 이 기능은 사용자가 아는 사람중에서 링크드인에서 관계를 맺을 만한 사용자를 추천한다.
PYMK 기능은 링크드인이 가진 네트워크 성장에 크게 기여했다. 이는 추천 기능이 사용자를 다른 사람과 연결하도록 계속 독려하면서, 각 개인에게 제공되는 네트워크 가치를 높였기 떄문이다. 페이스북과 트위터 역시 소셜 네트워크에서 유사한 기능을 구현햇다.
제품 추천은 인터넷 거인들이 개발한 기술이지만, 그 혜택은 이제 소매 업계 전체로 확산되었다.
개인 제품 추천은 다음과 같은 혜택을 제공할 수 있다.- 매출 증가: 추천 시스템은 소비자가 좋아하거나 필요한 제품을 쉽게 찾도록 돕는다. 성공적인 제품 추천은 결국 제품 판매량 상승과 매출 증대로 이어진다.
- 다양한 제품 판매: 추천 시스템은 사용자가 찾기 어려운 제품을 손쉽게 찾도록 도우며, 결과적으로 이러한 제품의 판매를 촉진한다.
- 사용자 만족도 및 충성도 향상: 잘 만든 추천 시스템은 서비스의 전체적인 사용자 경험을 개선한다. 사용자가 자신과 관련성이 높고 흥미로운 제품을 발견할수록 사용자의 서비스 만족도가 상승해 재방문율이 높아져서 비즈니스의 지속적인 매출에 도움이 된다.
2.2.2 고객 이탈 분석¶
기존 고객을 유지하는 데 드는 비용이 새 고객을 확보하는 것보다 훨씬 저렴하다는 사실은 이미 잘 알려져 있다. 은행, 소매업체, 게임 운영 업체, 인터넷 서비스 제공 업체, 이동 통신 업체, 항공사, 보험사에 이르는 거의 모든 기업이 고객 유지 및 이탈(또는 탈퇴)방지 프로그램을 적극적으로 실행한다.
업계마다 비즈니스 모델이 다르고, 고객 참여와 생애 가치 모델 또한 업계에 특화돼 있어 고객 이탈 모델도 업계마다 다르다. 그러나 각 고객이'떠날 가능성'은 모두 머신 러닝으로 예측한다. 기업은 이 예측을 기반으로 고객 유지 프로그램(예를 들면 추가 할인이나 기타 인세티브 프로그램)을 시행해 이탈할 위험이 있는 고객이 서비스를 유지하도록 권유한다.
예를 들어 게임 업계에는 무료 사용자 중 70% 이상이 게임을 시작한 지 30일 이내에 이탈한다는 통계가 있다. 어떤 사용자가 이탈할지 예측해 해당 사용자가 게임을 계속 즐기도록 유도하는 맞춤 캠페인을 시행한다면 게임 개발사에도 큰 이득이 될 것이다.Note= 고객 참여와 생애 가치¶
고객 참여는 비즈니스 고개(예를 들면 소비자)과 제공자(예를 들면 회사)간에 발생하는 모든 상호 작용과 그 결과(예를 들면 고객 경험)와 성격(예를 들면 고객 충성도)을 아우르는 매우 포괄적이고 전체록적인 마케팅 용어다. 예를 들면 아마존 같은 온라인 소매업 관점에서 특정 고객의 참여가 높다는 것은 해당 고객이 자주 웹사이트를 방문하고 물건을 구매한다는 것을 의미한다. 고객이 높은 참여를 지속하는 경우, 그 고객이 충성 고객이 될 확률은 높아지고 이탈 고객이 될 확률은 낮아진다.
생애 가치는 특정 고객에서 발생할 모든 미래 순이익을 예측한 수치다. 생애 가치를 계산하는 방법은 단순히(매출*마진/이탈률)로 계산하는 방식부터 고객 프로모션 비용과 이자율 등을 고려한 복잡한 예측 모델에 이르기까지 매우 다양하다. 하지만 공통으로 고객의 비즈니스 이탈 확률을 생애 가치 예측에 사용한다.2.2.3 고객 세분화¶
고객 세분화는 비즈니스와 상호 작용이 유사한 고객의 세그먼트를 식별하는 데 널리 사용하는 기법이다.
식료품 업체는 고객이 구매하는 식품 종류에 따라 고객을 세분화한다. 예를 들면 고객 세그먼트를 '육류 애호가'나'미식가'로 정의할수있다.
비슷한 사례로 항공사나 호텔 업체는 출장 여행객과 일반 여행객의 세분화에 관심이 있다. 또한, 국내와 국외 여행객으로 세분화하기도 한다.
고객 세분화가 주는 직접적인 이득은 마케팅의 효율성 향상이다. 예를 들어 항공사는 효과적인 고객 세분화를 기반으로 응답률을 극대화할 수 있는 고객 맞춤형 이메일 캠페인을 진행할 수 있다. 이와 유사하게 식료품 업체는 육류 특별 할인 행사를 열어 육류 애호가를 매장으로 유인한다.
일반적으로 고객 세분화는 k-평균 군집화 같은 군집화 기법을 사용해 구현한다.
기업은 이제 빅데이터 기술을 활용해 새 유형의 데이터(예를 들면 소셜 네트워크에서 수집한 데이터)를 고객 세분화 알고리즘에 사용하거나 대규모 데이터셋에 군집화 알고리즘을 적용할 수 있으며, 세분화 알고리즘을 더 빠르고 자주 실행하면서도 고객 세분화의 전체 정확도를 끌어 올릴 수 있다.2.2.4 영업 리드 우서순위 결정¶
영업 전문가들은 양질의 효과적인 마케팅으로 도출된 영업리드 파이프라인을 적극 활용한다. 영업 리드 파이프라인을 관리할 때 가장 중요한 점은 '노력을 집중해야 할 영업 리드'를 찾아내는 것이다.
영업 리드의 우선순위를 조정하는 방법은 비즈니스에 따라 다양하지만, 기본적으로'이 리드가 N일 이내에종료될 가능성'을 우선순위에 반영한다.
데이터 과학을 영업 리드 파이프라인에 도입한 기업은 영업 리드의 다양한 특징 변수(예를 들면 고객의 지리적 위치, 고객의 유형, 고객의 웹 사이트 참여, 고객의 과거 구매등)를 사용해 각 리드가 바람직한 기간 내에 종료될 가능성을 판별하는 예측 모델을 만들 수 있다.
이 예측 모델을 기반으로 기업의 영업 활동을 효율적으로 개선해 전체 매출을 늘릴 수 있다.Note= 영업리드¶
영업 리드란 제품 또는 서비스를 구매할 가능성이 있는 잠재 고객 중에서 영업팀이 연락을 취하고 영업 활동을 시작할 수 있는 대상이다. 보통 도소매 제품을 구매하는 고객보다는 계약서 기반의 B2C/B2B 고객을 의미한다. 영업 리드 중 고객이 될 가능성이 높은 고객을 핫 리드라 하고, 반대로 제품을 구매할 의사와 여건이 부족한 고객을 콜드 리드라고 한다.
2.2.5 감성 분석¶
온라인 포럼에 등록되는 고객의 크라우드소스 피드백과 페이스북, 트위터 같은 소셜 네트워크 서비스가 성장한 덕분에 오늘날 인터넷에는 제품에 대한 고객의 감성을 유추할 수 있는 무수히 많은 정보가 존재한다.
감성 분석은 텍스트 분석과 자연어 처리 기술을 응용해 특정 주제(예를 들면 제품 또는 서비스)에 대한 고객의 감성을 이해하는 것을 목표로 하는 데이터 과학이다.
예를 들어 특정 제품 또는 서비스를 출시한 후, 이에 대한 고객의 반응을 파악할 수 있다. 제품에 대한 고객 반응은 시간이 지나면서 변할 수 있으므로 고객 감성의 시간적 특성을 이해하려면 시간이 흐름에 따라 변하는 고객 반응을 계속 주시해야 한다.
고객 반응 조사에는 전통적으로 포커스 그룹이나 시장 조사 등의 방식을 사용했다. 하지만 감성 분석을 사용하면 훨씬 더 저렴한 비용으로 트위터, 페이스북, 트립어드바이저 등에 게시된 고객 응답을 분석하고, 제품과 서비스에 대한 전반적인 감성을 더 정확하게 이해할 수 있다.
감성 분석 기법은 트위터나 페이스북 같은 소셜 네트워크 데이터에만 국한되지 않는다. 예를 들어 콜센터 상담 기록을 분석해 콜센터 운영에 대한 고객 만족도를 이해하거나, 주식 리뷰 사이트를 분석해 투자 결정을 내리거나, 이와 유사한 일에 활용할 수 있다.2.2.6 이상 거래 탐지¶
정부 기관과 기업의 입장에서 지금 사기나 지급 남용등의 이상 거래는 좌시할 수 없는 심각한 문제다. 모든 유형의 금전 거래에는 이익을 노린 악의적인 사람이 사기나 남용을 저지를 가능성이 항상 숨어 있다.
이상 거래 탐지는 결제 및 지불 관련 비즈니스인 은행이나 페이팔, 스퀘어 같은 회사에서 매우 중요한 기능이다. 또한 보험 회사, 소매 업체, 심지어 일반 회사에서도 이상 거래 탐지로 회사의 수익을 매우 효과적으로 늘릴 수 있다.
일례로 미국 의료 업계는 연간 3천억 달러에 달하는 보험 청구 사기와 남용 피해가 발생한다고 추정한다. 또한 소매 업계에서는 신용 카드 사기로 인한 손실 비용이 매년 수백억에 달한다고 알려진다.
이상 거래 탐지 시스템의 세부적인 기능과 방식은 민감한 부분이므로 대부분 높은 보안을 요구하는 기밀인 경우가 많다. 이때 대부분은 규칙 조합, 지도 학습, 비지도 학습 등을 사용한다. 시스템이 자동으로 이상 거래를 감지하면 해당 거래를 수작업으로 검토하고 적절히 후속 조치할 수 있다.2.2.7 유지 보수 예측¶
기계 장비는 영원히 작동할 수 없으며 언젠가는 고장이 난다. 하지만 불행이 기계 장비의 고장에 적당한 중간 단계란 없으므로 단 한번의 작은 고장이 끔찍한 사고로 직결될 수 있다. 여러 업계에서 발생할 수 있는 사고의 예를 살펴보자.
- 기지국 부품에 고장이 나면 기지국 자체가 작동을 멈추고 부품 교체와 복구가 완료될 때까지 기지국 주변의 가입자들이 모바일 서비스를 이용할 수 없을 것이다.
- 사무실 건물의 에어컨 압축기가 고장나면 사무실 직원들은 수리가 진행되는 1~2일 동안 열악한 근무 환경에 고통받을 것이다.
- 헬리콥터나 비행기 엔진에 이상이 발생하면 정말 끔찍한 사고로 이어질 수 있다. 하지만 보통 이륙 전에 엔진을 철저히 점검하므로 흔히 발생하는 사고는 아니다. 그럼에도 만약 지상에서 엔진 점검 중에 고장이 발견될 때는 해당 항공기의 장시간 수리가 불가피해 비행이 지연되거나 취소될 수 있다.
- 패스트푸드 매장의 냉동고가 고장이 나면 해당 매장은 이를 즉각 교체해야 한다. 하지만 냉동고를 교체할 때까지 며칠이 걸릴 수도 있으며 그동안 냉동고 안의 모든 식품을 제대로 보관할 방법이 없다.
유지 보수 예측은 장비의 다양한 장애 패턴이 충분히 예측 가능하다는 가정을 바탕으로 한다. 하드웨어 부품이 고장 날 시점을 정확하게 예측할 수만 있다면 고장이 실제로 발생하기 전에 부품을 교체해 훨씬 높은 수준의 운영 효율성을 달성할 수 있다.
최근에는 많은 장비가 센서 데이터를 수집하고 자체적인 진단 정보를 전송할 수 있는 부품을 장착해, 빅데이터를 활용한 더 정확하고 효울적인 유지 보수 예측의 길이 열리고 있다.2.2.8 장바구니 분석¶
장바구니 분석은 친화성 분석 또는 연관 마이닝 이라고도 알려져 있으며 소매 업계의 일반적인 데이터 과학 활용 사례로 꼽힌다.
장바구니 분석은 고객의 구매 행위를 이해하려는 노력이다. 더 구체적으로 설명하면 소매 업체는 장바구니 분석으로 고객들이 어떤 제품들을 동시에 구매하는지 알 수 있다. 예를 들어 장바구니 분석으로 많은 사람이 동시에 구매하는 샴푸와 린스의 연관성을 도출할 수 있다.
사실 샴푸와 린스의 연관성은 너무 뻔하므로, 이러한 결론에 도달하기 위해 복잡한 알고리즘을 사용할 필요는 없다. 물론 장바구니 분석의 목표는 이와는 달리 상식적으로 생각해 내기 쉽지 않은 관계를 발견하는 것이다. 장바구니 분석의 유명한 (하지만 도시 전설이 되어 간다는 의심을 받는)사례로, 한 소매 업체는 맥주와 기저귀의 구매에 높은 상관관계라 있음을 발견하고 이러한 구매 성향을 보이는 고객을 뉴대디라고 정의하기도 했다.
소매 업체는 다음 관은 주요 비즈니스 의사 결정을 내리는 데 장바구니 분석을 활용한다.- 장바구니 분석으로 매장의 상품을 효과적으로 배치할 수 있다. 즉, 상관관계가 높은 상품들을 전략적으로 가까이 진열해 고객이 이들을 함께 구매하도록 유도한다. 앞의 예에서는 기저귀를 맥주 냉장고 근처에 배치할 수 있다.
- 장바구니 분석으로 고객의 발걸음을 오프라인 매장으로 유인하는 마케팅 캠페인을 진행할 수 있다. 예로 카메라 판매점은 디지털카메라의 대대적인 할인 행사를 진행하면서 (카메라와 통상 함께 구매하는) 메모리 카드의 가격을 비싸게 책정할 수 있다. 이러한 전략으로 고객을 저렴한 가격으로 유혹하면서도 전체 판매의 마진을 유지할 수 있다.
- 장바구니 분석으로 판매 제품을 더 나은 기준으로 나눠 제품 카테고리를 효과적으로 관리 한다.
2.2.9 데이터 기반 의료 진단¶
현대 의학의 발전에도 불구하고 인간의 신체에는 아직 불확실한 면이 많고 데이터도 충분하지 않다. 게다가 오진이 가져오는 결과 역시 치명적일 수 있어서 질병을 정확히 판별하고 적절한 처방을 내리는 일은 아직까지도 매우 어려운 일이다. 일례로 어떤 의사가 환자의 질병을 암으로 오진할 경우, 환자는 적절한 치료 대신 매우 불쾌한(어쩌면 몸에 해로울 수도 있는)항암 치료를 받게 될 것이다. 반면 의사가 환자의 암을 제대로 발견하지 못한다면, 환자는 적절한 항함 치료를 받지 못해 최악의 경우 사망에 이를 수 잇다.
영국의 의학 저널 더 란셋의 편집장 리차드 호튼은"의료 교육은 기본적으로 보수적이다. 새로운 세대에게 여태껏 실패한 구식 치료법을 주입하기 때문이다"라고 주장했다. 환자 진료는 대부분 하루 종일 북적거리는 진료실 안에서 10~15분 이내에 끝내야 하는 지루한 분석 작업이다.
의사와 의료 전문가를 보조하는 데이터 기반 의료 진단 프로그램은 의료 서비스를 개선할 엄청난 기회를 창출할 수 있다. 구체적인 활용 사례를 살펴보자.- 머신 러닝 알고리즘으로 질병을 진단할 수 있는 새로운 패턴을 찾아낼 수 있다. 또한, 찾아낸 패턴을 임상에서 검증해 새로운 진단법으로 적용할 수 있다.
- 전자 환자 기록에는 환자의 진단 결과가 ICD-10 표준 코드(WHO가 만든 국제 질병코드)로 등록된다.하지만 간혹 중요한 진단 결과를 기록에서 누락하는 경우가 있으며, 이러한 코드 오류를 자동화된 진단으로 찾아낼 수 있다.
- 진단 자동화(예를 들면 자동화된 초진)는 HEDIS같은 다양한 의료 질 지표의 개선에 기여할 수 잇다.
이미 많은 사람이 활용 사례의 가치를 긍정적으로 인식한다. 이를 뒷받침하는 근거로 2015년 미국 국립 보건원은 정밀 의료 계획을 발표했다. 정밀 의료 계획은 데이터 기반의 코호트 연구 프로그램으로 개인의 행동, 유전자, 환경 정보를 데이터 과학에 접목해 개인 맞춤형 질병 치료와 수명 연장의 효과적인 방안을 개발하는 것을 목표로 한다. 이 프로그램의 초기 코호느(참가자)는 백만 명에 이를 것으로 예상한다.
지금까지 언급한 데이터 기반 진단의 모든 활용 사례는 환자를 위한 의료 복지를 전반적으로 개선 할 수 있을 뿐만 아니라, 의료 사업자의 비즈니스 매출과 수익을 창출할 중요한 기회로 이어질 수 있다.Note : 코호트¶
코호트는 특정 기간에 같은 경험을 가진 실험 대상군의 집합이다. 코호트의 가장 단순한 예는 연령이며, 그 밖에 특정 기간 내 흡연자, 기혼자, 서비스 가입자, 후쿠시마 원전 피폭자 등 실험 목적에 따라 다양한 코호트가 정의될 수 있다.
2.2.10 환자의 재입원 예측¶
정교한 예측 모델을 의료계에 활용하는 또 다른 사례로, 퇴원 환자의 재입원 확률을 사전에 예측해 미국의 의료 조직과 메디케어 수혜자들에게 혜택을 줄 수 있다.
2012년 메디케어 운영을 담당하는 CMS는 지나친 재입원(퇴원 후 30일 이내 재입원하는 경우)에 대한 메디케어 지급 금액을 제한하는 새로운 규정을 시행했다. 이 제도는 병원과 보험 회사가 재입원을 억제할 직접적인 동기로 작용했다.
퇴원할 환자의 재입원 여부를 정확하게 예측할 수 있다면 병원과 보험 회사의 수익성에 직접적인 영향을 줄 수 있다. 또한, 예측 모델은 재입원 확률이 높은 환자에게 병원이 추가적인 치료를 제공하게 유도할 수 있어 환자에게도 도음이 된다.
CMS의 규정은 재입원 예측에 매우 강력한 인센티브로 작용했다. 실제로 2012년 의료 기업 Heritage Provider Network가 과거 데이터를 활요한 재입원 예측 모델을 구축하려고 우승 상금 3백만 달러가 걸린 되회를 Kaggle.com에 등록한 사례가 있었다.2.2.11 변칙 접근 탐지¶
오늘날 많은 조직이 고객의 민감한 정보를 보관한다. 예를 들어 진료소나 병원 등의 의료 서비스제공자는 환자의 개인 정보를 보관하며, 허용되지 않은 접근으로부터 환자의 정보를 보호할 법적의무가 있다. 또한, 의사나 간호사는 자신이 진료 중인 환자의 의료 정보만 최소한으로 열람할 수 있다.
불행히도 데이터 유출 사고는 여전히 발생한다. 가령 악의적인 간호사가 자신이 일하는 병원에 입원 중인 할리우드 스타의 건강 기록을 무단으로 조회해 저널리스트에게 팔아 부당 이득을 챙기려 할 수도 있다.
민감한 정보를 보관하는 조직은 데이터 유출에 대비하기 위해 매우 엄격한 정보 접근 관리 메커니즘을 적용하고, 직무 기반 접근 관리 정책을 시행할 수 있다. 하지만 직원들은 수시로 직무와 소속을 바꾸며 심지어 직원들끼리 ID와 비밀번호를 공유하는 경우도 있어, 정적인 역할 기반 관리 메커니즘으로는 충분하지 않다. IT 기술이 항상 현실의 변화를 효과적으로 추적할 수 있는 건 아니다.
따라서 많은 조직은 변칙 접근 탐지에 이상 탐지 알고리즘을 적용해 직원이 그들의 직무에 맞지 않는 비정상적인 방법으로 데이터에 접근하거나, 과거 패턴과 다른 방법으로 데이터에 접근하는지 감시한다. 예를 들어 내과 의사가 종양과 환자의 기록을 열람할 경우, 이를 잠재적인 예외 상황으로 간주하고 추가로 조사할 수 있다.2.2.12 보험 위험 분석¶
보험은 위험 기반 산업이다. 부동산 보험, 자동차 보험, 생명 보험 같은 보험 상품의 납입금은 항상 위험 평가와 위험 풀링의 원칙을 기반으로 책정된다.
최근 들어 보험 회사는 위험 예측 모델링을 활용해 피보험자의 나이, 성별, 지리적 위치, 과거 이력 같은 주요 지표를 기반으로 위험을 예측한다. 예를 들어 나이가 어린 운전자가 숙련된 운전자에 비해 더 쉽게 교통사고를 유발하는 경향이 잇다고 알려져 있다. 따라서 자동차 보험 회사는 일반적으로 25세 미만 운전자에게 더 높은 보험료를 부과한다.
정확한 위험 분석은 보험 회사의 수익성에 매우 중요한 요소이므로 보험 회사는 위험 분석의 정확도를 더 개선하고 경쟁 우위를 점하기 위해 다양한 방법을 시도한다. 예를 들어 자동차 보험 회사는 자동차에서 수집되는 센서 데이터(예를 들면 GPS 데이터등)를 활요해 위험 예측의 정확도를 개선하려고 노력한다. 보험 회사는 운전자의 행동을 추적해 해당 운전자의 사고 위험을 더 정확하게 추정할 수 있다.2.2.13 유정/가스정의 생산량 예측¶
석유가 생산되는 유정과 천연가스가 생산되는 가스정은 각각 석유/천역가스 회사의 기본 자산이다. 따라서 Schlumberger, Halliburton, Noble Energy, Cheaspeake 같은 석유/가스 회사들은 생산량을 극대화하고 매출에 직접 기여할 수 있는 연구 개발에 집중적으로 투자한다.
유정/가스정의 생산량은 다양한 변수에 영향을 받는다. 유정/가스정의 센서 데이터와 지구물리학 데이터 등을 바탕으로 생산량을 예측하는 모델을 구축할 수 있다.
석유/가스 회사는 이러한 예측 모델로 생산량에 미치는 요인이 무엇인지 이해하고 생산량을 떨어뜨리는 이슈를 사전에 제거할 수 있다. 이와 같은 로력은 결국 석유/가스의 원활한 생산과 회사의 매출 상승으로 이어진다.2.3 요약¶
- 빅데이터의 중요한 세 가지 특성(규모,다양성,속도)이 기업의 데이터 활용과 데이터로 얻을 수 잇는 기회에 미치는 영향을 알아봤다.
- 제품 추천, 고객 이탈 분석, 이상 거래 탐지, 영업 리드 우선순위 예측, 고객 세분화 등 데이터 과학이 확실한 비즈니스 이익을 가져다줄 수 있는 실세계의 비즈니스 활용 사례를 살펴봤다.
출처 : "하둡과 스파크를 활용한 실용 데이터 과학"
'하둡과 스파크를 활용한 실용 데이터 과학' 카테고리의 다른 글
chapter_3 하둡과 데이터 과학 (0) 2021.11.20 chapter_1 데이터 과학 (0) 2021.11.16