본문 바로가기

블로그/기자 명함 내세운

빅데이터는 모든 것을 알고 있다

4차 산업혁명 시대를 이끄는 대표적인 기술 중 하나가 바로 데이터다. 스마트 헬스케어는 물론 사물인터넷, 인공지능 같은 핵심 기술들도 그동안 사람들이 쌓아온 데이터의 발판 위에서 성장하고 있다.

2017년 IBM이 발표한 자료에 따르면 스마트폰·소셜미디어·이메일 등 스마트 기기와 인터넷 서비스의 범람으로 하루에 생산하는 데이터의 양이 무려 250경 바이트에 달한다. 600MB 크기 영화 39억 편 분량이다. 데이터에는 우리가 전송하는 텍스트, 사진, 동영상은 물론 사물인터넷 등의 발전으로 생기는 각종 센서 측정 데이터와 사물 간의 통신 내역 등 모든 것을 포함한다.

인터넷 사용 도중 이번 휴가 때 가고자 했던 휴가지의 호텔, 항공편 등이 자동으로 검색되거나 어젯밤 맛있게 먹었던 안주가 유명한 가게의 배너가 보이는 경험 등을 해봤을 것이다.

인터넷 기업들은 이미 내가 사용하는 수많은 인터넷 정보를 조합해 내가 있는 곳, 원하는 것 등을 모두 예측해 낼 수 있다. 혹시라도 과장님 노트북에서 재활치료 전문 병원 광고가 뜬다면 과장님 몸의 어딘가 고장이 나 있을 가능성이 크다는 이야기다. 이러한 서비스는 모두 빅데이터를 분석하는 기술 덕에 가능하다.


구글신은 모든 것을 알고 있다?

현재 빅데이터 영역에서 가장 앞선 기업은 구글이다. 구글이 가지고 있는 빅데이터의 양과 활용영역은 ‘구글신은 모든 것을 알고 있다’라는 말로 잘 대변된다. 실제로 구글이 가지고 있는 데이터양은 어마어마하다. 구글의 빅데이터를 이용하면 선거의 결과를 예측할 수도 있다. 후보 중 더 많이 검색에 노출된 후보의 당선 확률이 높다는 의미다. 각 언론사나 여론조사 기관의 여론조사 결과보다 정확하다는 것이 다수 전문가들의 평가다.

지난 미국 대선에서 그 사실이 여실하게 드러났다. 언론과 여론조사 기관 대부분은 힐러리 클린턴 후보의 우세를 점쳤다. 하지만 구글 트렌드에 따르면 미국 대선이 치러지기 전 3개월 동안 ‘도널드 트럼프’ 검색 횟수는 평균적으로 ‘힐러리 클린턴’ 검색 횟수보다 많았다.

아래 그림을 보면 붉은색 라인이 도널드 트럼프다. 물론 이러한 내용은 데이터가 많을수록 정확도가 높아진다. 대통령 선거보다 지역구의원 선거 결과 예측이 더 어려운 이유다.

미국 대선기간 중 힐러리 클린턴(파란색)과 도널드 트럼프의 검색 횟수


내년에 치러지는 총선에서도 구글은 적극적으로 활용될 가능성이 높다. 이제는 정치권에서도 여론조사나 출구조사보다 구글 데이터를 더 믿는 분위기다.

구글 트렌드를 잘 분석하면 최근 인기 있는 브랜드나 제품에 대한 분석도 가능하다. 아래 그래프는 지난 1년간 김치 냉장고를 검색한 횟수를 보여주는 그래프다. 이 그래프를 잘 분석하면 언제 김치 냉장고가 가장 많이 팔리는 줄 알 수 있으며, 기간을 늘리거나 검색어를 추가할 경우 좀 더 정확한 내용을 예측할 수 있다. 이러한 데이터는 제품 생산 및 유통에 활용해 많은 이익을 낼 수 있다.

김치 냉장고 관련 연간 검색 횟수



빅데이터를 이용한 의료산업

빅데이터를 이용한 의료산업의 대표적인 예가 바로 IBM이 만든 인공지능 왓슨이다. 왓슨은 2016년 9월 가천 길병원이 도입된 이후 전국의 큰 병원들이 앞 다퉈 도입했다. 부산대병원이 길병원의 뒤를 이었고 건양대병원, 대구가톨릭대병원, 계명대 동산병원 등이 뒤를 따랐다.

왓슨은 철저한 데이터분석 시스템이다. 암 환자의 데이터를 입력하면 과거 임상 사례를 비롯해 의료기관들의 문헌과 의학저널, 전문자료 등을 종합적으로 검토해 치료 방법을 의료진에게 제시하는 방식이다.

다만, 아직까지 왓슨이 부족한 이유는 데이터가 적기 때문이다. 백정흠 길병원 외과 교수는 한 언론과 인터뷰를 통해 "IBM의 왓슨은 미국 병원 등 서구 데이터를 기반으로 하고 있어 한국 의료 현장에 맞는 현지화가 필요하다"고 설명했다. 앞으로 진정한 의료 빅데이터가 생기면 AI의 기능과 정확도가 올라갈 수 있는 여지가 충분하다는 의미다. 의료분야에서도 빅데이터가 중요한 이유다.

빅데이터를 사용하고자 하는 산업은 점점 늘어나고 있다. 데이터 안에는 사용자들이 원하는 것, 이용하는 방법, 위치 등의 모든 정보가 담겨있다. 빅데이터 분석을 통해 고객과 시장의 흐름을 예측하고 알 수 있는 기업과 그렇지 못한 곳의 차이는 점차 벌어질 것이다. 4차 산업혁명 시대의 빈부격차는 데이터양에 따라 결정된다고 봐도 과언이 아닐 것이다.