본문 바로가기

IT & Insight/IT News

빅데이터에서 스마트 데이터 시대로

“‘건물이 무너졌다’라는 트윗 100개를 모으는 것보다 ‘건물이 무너질 것 같다’라는 트윗 1개가 가진 의미를 잘 찾아내야 합니다. 그래야 의미있는 예측, 예방을 할 수 있습니다.”

10월23일 ‘빅데이터 월드 컨벤션’에서 발표한 최재원 다음소프트 이사의 말이다. 그는 빅데이터 분석을 더 이상 양으로 접근하지 말고 불필요한 데이터를 걸러내자고 강조했다. 이 날 최재원 이사는 많은 데이터를 의미없이 분석했을 때 나오는 데이터 왜곡 현상에 대해 집중 설명했다.

빅데이터라는 개념은 2010~2011년께부터 관심받기 시작했다. 모바일과 웹 기술 등의 발달로 데이터 양이 기하급수적으로 늘어나면서부터다. 이러한 대용량 데이터를 처리할 수 있는 ‘하둡‘ 기술의 등장으로 기술적 여건도 마련됐다. 이러한 상황을 지켜본 많은 IT 컨설팅 업체들이 빅데이터의 중요성을 언급했고 이와 관련된 연구와 책, 전문가도 쏟아지기 시작했다.

하지만 이렇게 관심이 높아지며 ‘빅데이터는 만능이 아니다’라는 목소리도 덩달아 높아졌다. 빅데이터 활용의 최종 목표는 무엇인가 예측하는 거다. 예를 들어 어떤 사람의 SNS 글을 분석해 정치적 성향을 파악하고, 그 데이터를 기반으로 특정 정치인의 선거결과를 예측한다. 포털 검색어를 분석해 독감이 언제쯤 유행할지를 맞추는 시도도 한다. 하지만 이러한 예측은 어떤 데이터를 쓰는지, 어떤 알고리즘을 선택하느냐에 따라 결과가 달라진다. 이 때문에 빅데이터 예측이 정말 가능할지, 믿어도 될지 대한 의문이 여전히 존재한다.

BCW2014_Daumsoft_thum

▲최재원 다음소프트 이사

최재원 이사는 “빅데이터에 대한 관심에 버블(거품)이 있었다”라며 “하지만 이제 곧 그 거품이 꺼지고 진화하는 단계로 갈 것”이라고 설명했다. 많은 기술이 처음 등장할 때는 과도한 주목을 받으면서 시작하고, 점차 시장에 맞게 성숙한다. 최재원 이사는 빅데이터 기술도 같은 발전 과정을 겪을 거라고 보았다.

그렇다면 지금껏 빅데이터는 어떤 모습이었을까. 최재원 이사는 “과거 빅데이터 분석은 확률적인 접근에 의지했던 게 사실”이라며 “데이터를 막연하게 분석하고 무엇이 나오겠지라는 생각을 했다”라고 설명했다.

최재원 이사는 앞으로 빅데이터 분석에는 반드시 “원하는 결과가 무엇인지 ‘목적’을 가져야 한다”라고 설명했다. 이 때 빅데이터 결과에 대한 신뢰도를 해치는 의미없는 데이터를 걸러내야 한다. 마치 좋은 음악을 들을 때 시끄러운 소음이 섞이지 않는 것처럼 원하는 빅데이터 결과물을 위해선 데이터를 선별해야 한다.

“과거 빅데이터 분석을 위해선 많은 데이터를 무작정 활용했습니다. 마치 배고픔을 채우기 위해 음식을 가리지 않고 먹는 것과 비슷합니다. 하지만 이젠 내가 먹고 싶은 것을 골라서 먹는 빅데이터 분석이 필요합니다. 뭘 먹는지 알아야 좋은 느낌을 가질 수 있는 거지요.”

최재원 이사는 의미 있는 데이터, 목적있는 데이터를 스마트 데이터로 규정했다. 이때 엄청난 기술이 필요한 것은 아니다. 의미없는 데이터를 잘 걸러낼 수 있는 통찰력 그리고 기존 데이터를 결합하고 활용하는 방식을 제안한다.

예를 들어 데이터는 크게 2가지로 나눌 수 있다. 트윗, 페이스북 글 같은 사람이 만들어내는 ‘휴먼데이터’, 그리고 사물, 기계가 생성하는 ‘머신데이터’다.  휴먼데이터는 트렌드를 알기 좋고, 머신 데이터는 시간과 더불어 변화하는 통계를 만들어 미래를 예측할 수 있게 도와준다.

BCW2014_Daumsoft_01

▲빅데이터에선 보통 휴먼데이터와 머신데이터 2가지를 활용한다

최재원 이사는 “최근 휴먼데이터가 줄어들고 있다”고 지적했다. 사람들이 더 이상 글을 쓰지 않고 전문가가 쓴 글을 보고 복사하거나 전달하는 경우가 많아지고 있다는 것이다. 트위터에선 리트윗 행위가 많아지고, 블로그에선 퍼가기 형태 글이 많아지는 식이다. 이런 글을 그대로 가져가서 양적으로 분석한다면 같은 내용이 반복되고 분석 결과에 영향을 줄 수 있다. 최재원 이사는 “휴먼데이터를 양으로만 접근하면 데이터 왜곡이 생길 것”라고 설명했다.

휴먼데이터나 소셜데이터에 민감한 곳이 방송사다. 새로운 드라마나 예능 프로그램을 내놓을 때 해당 프로그램이 얼마나 사랑받을지 예상할 수 있다면 그들은 실패작을 만들지 않고 인기있는 프로그램만 만들 수 있을 것이다. 하지만 단순히 소셜데이터로 얻은 트렌드를 담은 방송을 만든다면 위험할 수 있다. 시청률과 소셜데이터가 얼마나 비례하는지는 인과관계가 명확하지 않기 때문이다. 최재원 이사는 “우리는 반대로 사람들의 희로애락이 언제 발생하는지 분석한다”라며 “사람들의 희로애락을 보면서 방송주제를 잡을 수 있을 거라 본다”라고 설명했다.

기존 데이터를 결합하고 활용하는 것 역시 빅데이터를 스마트 데이터로 만들 수 있는 지름길이다. 독거노인 생활을 지원하고 도와주는 주민센터가 있다고 치자. 주민센터는 각 노인마다 담당 사회복지사를 선정해 전화하고 방문하는 식으로 복지를 지원한다. 사람이 할 수 있는 일은 한정적이라 가끔은 위급한 순간에 사회복지사가 도움을 주지 못할 수도 있다. 독거노인 신변에 문제가 생겼는데 모르고 며칠간 방치되면 안 될 것이다. 이 때 독거노인 집에 새로운 기기를 설치하거나 사회복지사 수를 늘려야 할까? 최재원 이사는 비용을 별로 들이지도 않고도 기존 데이터를 다르게 생각하면 이 문제를 해결할 수 있다고 보고 있다.

“독거노인 대부분이 약국을 정기적으로 다닙니다. 의료 진찰기록은 실시간 데이터가 아니지만, 약국에서 만드는 조제 기록 데이터들은 실시간 데이터로 주고 받을 수 있어요. 전력량도 현재 실시간으로 확인할 수 있는 상태입니다. 주민센터에서 약국 데이터가 바로 오지 않는다거나 전력량이 평소와 다르다는 걸 실시간으로 볼 수 있다면 이상 징후를 더 빨리 파악할 수 있겠죠. ”

최재원 이사는 스마트 데이터를 만들려면 다양한 관점이 있어야 한다고 말했다. 실제로 다음소프트에서 내는 빅데이터 예측 보고서는 1명의 데이터 과학자가 만들지 않는다. 컴퓨터과학과 출신, 통계학과 출신, 인문학과(사회학과) 적어도 이렇게 3가지 다른 부류의 전문가가 모여 함께 분석한다고 그는 말했다. 그는 “데이터에 대한 왜곡이 계속 일어나고 있으며, 감정이 데이터에 개입돼 분석이 더 복잡해지고 있다”라며 “평균과 불확실성에 대한 부분은 계속 생각해야 할 것”이라고 조언했다.