‘혐오’를 주제로 한 <한겨레21>의 기획취재에서 언더스코어는 '헤이트스코어(HateScore) 알고리즘’을 바탕으로 에펨코리아, 일간베스트저장소 등 온라인 커뮤니티 게시물과 네이버와 다음 등 포털 뉴스 댓글을 분석했다. 사람이 직접 온라인 커뮤니티나 댓글을 하나하나 살펴볼 수도 있겠지만, 그 자의적인 판단 가능성을 최소화하고 몇십만 건에 이르는 대규모 데이터의 혐오표현 정도를 하나하나 측정하기 위해서는 정량적인 접근이 필요하기 때문이다.
‘헤이트스코어 알고리즘’은 언더스코어가 스마일게이트AI의 지원을 바탕으로 수집한 3만5천여 건의 온라인 텍스트 데이터를 머신러닝(기계학습)으로 학습했기에, 기존처럼 단순히 게시물 수, 특정 단어의 출현 빈도만을 분석하는 방법을 넘어선다. 또 이분법적으로 악플은 ‘1’, 악플이 아닌 댓글은 ‘0’으로 단순 분류하는 대신, 여성·지역·성소수자·외국인·연령 등 다양한 분야에 대한 다중레이블 방식으로 데이터를 학습하도록 했다.
다중레이블은 하나의 게시물 또는 댓글이 둘 이상의 집단을 동시에 혐오하는 표현을 포함하는 경우를 효과적으로 처리한다는 장점이 있다. 예를 들어 ‘좆족은 21세기의 홍어다’라는 문장에 입력값이 주어졌을 때, 단일레이블 방식으로는 여성/성소수자/남성/인종/지역/종교/연령 중 딱 한 가지만 선택해서 분류할 수 있다. 하지만 다중레이블 방식으로 학습한 헤이트스코어 모델은 해당 문장에 인종혐오와 지역혐오가 모두 포함됐다고 판단이 가능하도록 설계됐다.
헤이트스코어 모델을 활용하면 특정한 댓글이나 게시물의 혐오표현 비율이 어떻게 되는지, 시간의 흐름에 따라 그 변화 양상이 어떻게 되는지를 측정할 수 있다. 예를 들어 ‘퀴어문화축제가 열림으로써 온건층 또는 중도층의 성소수자에 대한 반발감을 오히려 높이는가’와 같은 질문에 성소수자와 관련한 포털 뉴스에 혐오 댓글을 남기는 이용자들의 혐오표현 비율 변화를 분석함으로써 답을 찾으려 한 것이다.
이렇듯 주어진 문장이 혐오발언인지 아닌지, 만약 혐오발언이라면 여성혐오인지 성소수자혐오인지 지역혐오인지 그 확률값을 0~100%에서 계산하도록 하는 헤이트스코어 모델 이외에, 텍스트의 특성을 정량화하기 위해 군집화(clustering) 알고리즘도 이번 분석에서 함께 활용했다. 예를 들어 드라마 <이상한 변호사 우영우>와 관련한 에펨코리아 게시물에서 ‘뒤로 갈수록 PC스러운 소재들이 계속 나오네’라는 문장은 명시적인 혐오발언이라고 볼 수는 없겠지만, 혐오와 관련 있는 소재를 언급했기에 추출할 가치가 있다. 군집화 알고리즘은 이를 위해 주어진 텍스트를 몇 가지 유형으로 나눈 뒤 각 유형이 다루는 주제를 살필 수 있게 돕는다.
지난 몇 년간 여성·성소수자 혐오 등은 소셜미디어에서 많이 회자됐지만, 데이터를 활용해 명확히 답해지지는 않았던 질문이 많았다. 헤이트스코어 모델을 바탕으로 한 정량적인 접근은 ‘지난 10년간 여성혐오의 추세가 어떻게 변화했는지’ ‘과연 퀴어문화축제는 중도층의 성소수자 여론에 대한 백래시(반발)를 유발하는지’ 등 ‘우리의 직관을 넘어 한 단계 더 들어간 질문에 답하기’를 도와준다.
강태영 언더스코어 대표
*본 기획물은 정부 광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.
한겨레21 인기기사
한겨레 인기기사
“최전방 6명 제압하면 무너진다”…윤석열 체포 ‘장기전’ 시작됐다
술도 끊고…! 입만 열면 거짓말 [그림판]
권성동, 김예지에 “당론 지키라” 겁박…김상욱에 “탈당하라”
석유 찾아 떠난 대왕고래, ‘희망고문’에 시달리는 사람들
윤석열 체포 임박…‘경호처 무력화’ 압도적 경찰력 투입 태세
‘상용화 멀었다’ 젠슨 황 한마디에, 양자컴퓨터 주식 40% 폭락
젠슨 황 만난 최태원 “하이닉스 개발 속도, 엔비디아 요구 넘어서”
연천에서 무인기 추락 사실 뒤늦게 확인…대북전단 살포용?
“체포 말고 구속” 윤석열 역제안의 이유 [1월9일 뉴스뷰리핑]
동해안 발전소만 16기…‘새 석탄화력’ 강행, 무슨 일이?