본문바로가기

한겨레21

기사 공유 및 설정

포털 검색어 빅데이터는 표심을 예측할까

‘구글 트렌드’로 들여다본 유권자의 마음
등록 2017-04-19 18:02 수정 2020-05-03 04:28
4월13일 서울 마포구 상암동 프리즘타워에서 열린 ‘2017 국민의 선택, 대통령 후보 초청 토론회’에 참여한 대선 주자들. 왼쪽부터 홍준표, 안철수, 유승민, 심상정, 문재인 후보. 연합뉴스

4월13일 서울 마포구 상암동 프리즘타워에서 열린 ‘2017 국민의 선택, 대통령 후보 초청 토론회’에 참여한 대선 주자들. 왼쪽부터 홍준표, 안철수, 유승민, 심상정, 문재인 후보. 연합뉴스

실패한 대통령의 경험은 잔인했다. 정권 교체의 서막은 올랐지만 유권자는 고민에 빠졌다. 이번 대선은 전례 없는 야-야 대결로 “투표일 직전까지 판세 자체를 가늠하기 어려운 불안정 국면이 지속될 가능성이 높다”( 4월12일치)는 분석도 나온다. 유권자는 후보 5명을 두고 전략적 투표를 할지, 좀더 적극 지지하는 후보를 찍을지 투표장에 들어서는 순간까지 고민할 가능성이 높다. 판세를 헤아려볼 유용한 수단은 없을까. 그동안 ‘표심’의 행방을 추적한 유일한 근거로 활용돼온 여론조사에 대한 신뢰는 2016년 4월 총선을 계기로 급격히 옅어졌다. 유권자의 심리 변화를 제대로 읽지 못하고 엉뚱한 예측 결과를 내놓은 까닭에 시민의 혼란만 가중했다는 질타를 받았다.

진심은 검색어에서 드러난다?

특정 단어가 인터넷 포털 사이트에서 검색되는 횟수나 페이스북·트위터 등 소셜네트워크서비스(SNS)에서 언급되는 정도 등 ‘빅데이터’가 여론조사의 보완재로 주목받고 있다. 이 데이터를 활용하면 실시간 여론을 확인할 수 있고, ‘샤이 지지층’ 등 보이지 않는 표심을 파악하는 데도 도움이 된다. 비용이 많이 드는 여론조사에 비해 구글·네이버 등 포털 사이트에서 공개된 정보를 활용해 개인이 언제든 확인·분석할 수 있는 장점도 있다.

포털 사이트가 제공하는 트렌드 분석 통계는 표심을 예측할 수 있을까. 예를 들어 지난해 11월 미국 대통령선거 때, 미국의 주요 언론과 전문가 집단, 여론조사 업체는 힐러리 클린턴의 승리를 장담했다. 결과는 모두가 알듯 정반대였다.

이때 인터넷 검색량 빅데이터가 유권자의 진의를 유일하게 제대로 읽었다는 평가를 받았다. ‘구글 트렌드’(trends.google.com)에서 도널드 트럼프와 힐러리 클린턴의 검색량을 확인하면, 트럼프의 검색량이 꾸준히 높은 것으로 나타난다. 빅데이터에 크게 주목하지 않은 10년 전 이상을 거슬러 올라가도 비슷한 결과를 확인할 수 있다. 2004년, 2008년, 2012년 미국 대선 후보 이름을 구글 트렌드에 넣고 선거한 해의 1년치 검색량을 살펴보면 조지 부시, 버락 오바마 등 당선된 대통령의 검색량이 꾸준히 많음을 알 수 있다. 선거일이 다가올수록 격차가 확대되는 모습도 보인다.

국내에서도 인터넷 사용자가 대선 주자를 검색한 양이 여론 추이를 반영할까. 지난 한 달 문재인 더불어민주당 대선 후보와 안철수 국민의당 대선 후보의 검색량을 구글에서 비교해봤다. 문재인 대세론이 이어지다 선거를 한 달여 앞두고 안철수 후보의 질주가 시작됐다. 4월4일 처음으로 안 후보의 검색량이 문 후보의 검색량을 역전한다. 이후 꾸준히 안 후보에 사용자의 관심도가 높은 추세를 보이다 4월6일엔 지난 한 달 검색량을 통틀어 가장 높은 수치를 보인다. ‘안철수 조폭’이 하루 내내 주요 포털 사이트의 실시간 검색어 1위를 접수했던 날이다.

흥미로운 것은 4월4일을 기점으로 일주일 동안 안 후보가 문 후보보다 더 높은 검색량을 보이는데, 실제 그로부터 엿새 뒤 4월10일 공개된 일부 여론조사에서 안 후보가 문 후보의 지지도를 처음 추월했다는 결과가 나왔다는 점이다. ‘문재인 지지’ ‘안철수 지지’라는 검색어를 넣어 비교했을 때는 4월 들어 안 후보가 문 후보를 역전하고, 이후 두 후보가 엎치락뒤치락하는 그래프를 보인다.

빅데이터와 여론조사, 서로 다른 방향
※이미지를 누르면 크게 보실 수 있습니다.

※이미지를 누르면 크게 보실 수 있습니다.

더불어민주당 경선 후보 이름을 구글에 검색했을 때 검색어가 나타난 페이지 수를 표시하는 ‘검색 결과 수’도 흥미롭다. 문재인, 안희정, 이재명의 이름을 각각 검색하면 문재인은 약 5640만 개, 안희정은 2370만 개, 이재명은 2220만 개의 페이지가 검색된다. 참고로 문 후보는 경선 누적 득표율 57%를 획득해 민주당 대선 후보로 확정됐고 안희정 충남지사는 21.5%, 이재명 성남시장은 21.2% 득표율을 얻었다. 검색 결과 수와 실제 각 후보의 누적 득표율이 비슷한 수치를 보인 셈이다.

대선 주자 5명의 지난 일주일간 동향은 어땠을까. 최근 여론조사와 구글 검색량 결과가 보여주는 정보의 결은 다소 갈린다. 여론조사기관 리얼미터가 4월10~12일 조사해 13일 발표한 대선 주자 지지도 자료에 따르면 문재인 후보 44.8%, 안철수 후보 36.5%, 홍준표 자유한국당 후보 8.1%, 심상정 정의당 후보 2.8%, 유승민 바른정당 후보 1.7% 순이었다. 하지만 구글 트렌드에 따르면 같은 기간 안 후보의 검색량은 문 후보 검색량의 2배에 가까운 수치를 기록했다. 구글 트렌드는 특정 기간의 차트에서 관심도를 0~100으로 표시하는데, 가장 높은 지점을 100이라고 한다면 50은 검색어 인기도가 그 절반 수준임을 의미한다. 이 기간 대선 주자 5명에 대한 평균 관심도는 안철수 후보 99, 문재인 후보 53, 홍준표 후보 24, 유승민 후보 6, 심상정 후보 5였다.

이에 견줘 4월10~12일 주요 여론조사에서 안철수 후보의 지지도는 ‘국·공립 단설 유치원 공약’ 논란 이후 10일 38.2%에서 11일 37%, 12일 35.9%로 이틀 연속 하락하는 것으로 집계됐다. 이 엇갈린 결과를 어떻게 해석해야 할지 망설여지지만, 인터넷 검색어 집계량은 사용자의 호감과 비호감을 표시하지 못한다는 점을 염두에 둘 필요는 있다.

우종필 세종대 교수는 저서 에서 “인터넷이나 모바일 폰 사용자들이 검색했던 검색어 목록이나 SNS 등에 올린 글들을 자세히 분석해보면, 본인이 의도했든 의도하지 않았든 그들의 속마음에 숨겨왔던 정치적 성향을 유추할 수 있다”고 썼다. 그는 검색량이 사용자의 내밀한 속마음 결을 모두 드러내 보여주진 못하지만 비호감 후보에게 나타나는 전형적 검색 패턴(나쁜 이슈가 발생한 시점에만 급격히 검색량이 증가하고 대체로 검색량이 적음)이 아닌 이상 관심도가 높다는 것은 표심으로 이어질 확률이 높다고 주장한다.

“여론조사와 보완·병행하는 자료로”

지난 3월7일(현지시각) 미국 샌프란시스코 구글 캠퍼스에서 과 만난 구글 뉴스랩 트렌드&데이터 팀 매니저 제니퍼 리는 오히려 검색 데이터를 사용자의 흥미와 관심을 파악하는 것 이상으로 해석하는 것을 경계했다. 그는 “(검색 데이터는) 어떤 상황에 대한 게시판 같은 것”이라고 표현했다. “사용자의 흥미를 솔직하게 반영하는 검색 데이터를 들여다보면 순간순간 사용자가 무엇을 원하는지 즉각 분석할 수는 있지만, 무엇에 진짜 흥미가 있는지 이면은 드러나지 않는다.” 그동안 많은 이가 여론조사의 부정확성을 지적해왔듯, 검색 데이터 또한 만병통치약이 아니란 얘기다. 리는 검색 데이터를 기존 조사 자료의 구멍을 메꾸는 수단으로 사용하거나, 여러 겹의 정보를 덧대어 정교하게 분석할 것을 제안했다. 검색량이 잠재적 표심을 나타낸다고 주장하는 우종필 교수도 “여론조사와 빅데이터를 이용한 방법이 서로 보완·병행된다면 더 정확한 선거 예측 결과를 도출할 수 있지 않을까 기대한다”고 적었다.

구글  뉴스랩  제니퍼  리  인터뷰


“구글은  결론을  내지  않는다  통찰력을  부여할  뿐”


엄청난 확장성을 가진 검색어 데이터는 사용자의 흥미를 솔직하게 반영한다. 지난 3월7일 미국 샌프란시스코 구글 캠퍼스에서 만난 구글 뉴스랩 트렌드&데이터팀 매니저 제니퍼 리(사진)는 자신들의 일을 “데이터에 통찰력을 부여하는 일”이라고 소개했다. 사용자가 포털 사이트의 검색창에 두드리는 검색어는 그 순간 그가 품은 감정과 원하는 정보를 담고 있다. 구글 검색 데이터를 통해 사용자의 생각에 대한 여러 힌트를 얻을 수 있다는 점이 바로 제니퍼 리와 그의 팀이 데이터에 부여하는 의미다.
제니퍼 리는 “구글 트렌드팀은 예측을 한 적이 없다. (우리의 일은 데이터 속에서) 사람들이 무엇에 진짜 흥미를 갖고 있는지 찾는 것”이라고 말했다. 그는 2016년 미국 대선에서 도널드 트럼프와 힐러리 클린턴의 검색 데이터를 예로 들었다. 구글 검색 데이터만으로는 선거가 끝날 때까지 사람들이 트럼프와 힐러리를 검색하는 것이 무슨 의미인지, 그것이 어떤 진영과 후보를 향한 투표로 이어질지 알 수 없다. 구글 검색창에 힐러리를 검색해도 얼마든지 트럼프에게 투표할 수 있다. 리는 “구글 서치 데이터를 통해 알 수 있는 건 사용자가 당시 그 검색어에 대해 관심이 있다, 흥미가 있다 정도”라며 빅데이터에 대한 지나친 의미 부여를 경계했다.
구글 트렌드팀은 이용자들이 특정 후보자를 검색하는 행위가 긍정적 신호인지, 부정적 신호인지 분석하지 않는다. 제니퍼 리는 구글 검색 데이터를 해석할 때 유의할 점으로 “구글은 결론을 내지 않고, 실제 선거 결과에 어떤 영향도 주지 않는다”는 것을 강조했다. 구글 트렌드 데이터는 상관관계일 뿐 인과관계가 아니라는 것이다. 리는 기자들이 구글 트렌드를 사용해 기사를 쓸 때 데이터를 통해 쉽게 결론을 내리기보다 ‘어째서 이 검색어가 많이 검색됐는가’ ‘사람들이 무엇에 진짜 흥미를 느끼는가’를 유념해야 한다고 덧붙였다.
제니퍼 리는 “구글 트렌드의 힘이 진정으로 발휘될 때는 검색 순위, 지역과 인구, 연관 검색어 등 외부 데이터와의 결합으로 데이터에 더욱 강력한 해석이 이뤄져 의미 있는 콘텐츠를 얻어낼 때”라고 말했다. 그는 구글 트렌드의 검색 데이터를 통해 특정 사회문제를 검색했을 때, 문제가 집중적으로 일어나는 지역이 어디인지, 시기별 검색을 통해 이 문제가 언제부터 지속되고 있었는지까지 접근하는 것이 저널리스트와 포털 사이트의 진정한 협업이라고 강조했다.
샌프란시스코(미국)=박상현 교육연수생


신소윤 기자 yoon@hani.co.kr
박상현 교육연수생 shparkling@naver.com



독자  퍼스트  언론,    정기구독으로  응원하기!


전화신청▶ 02-2013-1300 (월납 가능)
인터넷신청▶ http://bit.ly/1HZ0DmD
카톡 선물하기▶ http://bit.ly/1UELpok


한겨레는 타협하지 않겠습니다
진실을 응원해 주세요
맨위로