혐오글 분석, 함축된 표현까지 잡아냈다

[어떻게 분석했나] 3만5천 개 텍스트 학습한 AI가 게시글·댓글 정밀분석

등록 2022-10-04 11:42 수정 2022-10-05 00:03

1432호 표지이미지

“남성은 주로 구체적인 특정 집단에 대한 편견 및 갈등을 혐오라고 규정하고, 여성은 주로 ‘다름’을 인정하지 않는 사회에서 발생하는 구조적 차별과 폭력을 혐오로 규정한다.”(홍찬숙, <한국 사회의 압축적 개인화와 문화변동>)‘혐오가 문제’라고 모두 말하지만, 각자가 인식하는 혐오는 다르다. 무엇을 어디까지 혐오로 인식할지, 어떻게 접근하고 어떤 해결책을 모색할지를 두고 또 다른 충돌이 발생한다. 이 때문에 혐오의 원인과 맥락에 접근할 길을 찾는 대신, 겉으로 드러난 갈등 자체만을 정치적으로 이용하려는 흐름이 두드러진다. <한겨레21>은 이같은 혐오 현상을 새로운 접근법으로 분석해보려 했다. 1부에서는 지식콘텐츠 스타트업 ‘언더스코어’와 함께 온라인 커뮤니티와 포털 뉴스 댓글 등의 빅데이터를 분석해 한국의 혐오가 온라인 공간에서 어떤 맥락 안에 축적돼왔는지를 살폈다. 온라인 공간은 오프라인 공간보다 혐오를 둘러싸고 가장 치열한 논쟁이 벌어지는 곳이며, 언론과 정치인의 목소리를 통해 혐오가 확대재생산될 가능성이 큰 곳이기도 하다. 여성혐오 표현에 거울을 비추는 방식(미러링)으로 혐오를 되돌려주려 한, 온라인 커뮤니티 ‘메르스갤러리’의 성장 전후로 일간베스트저장소, 에펨코리아 등 남초 커뮤니티에서 어떤 흐름이 나타났는지, 퀴어문화축제 개최 전후로 포털 뉴스 이용자의 혐오 댓글 작성 행태에 어떤 변화가 있었는지 등을 분석했다. 분석 방법으로는 혐오표현을 학습한 인공지능(AI) 알고리즘(헤이트스코어 알고리즘)을 이용했다. 1부에 이어 제1434호에 연재되는 2부에서는 혐오표현과 혐오범죄 등에 대응하는 외국의 사례를 전할 예정이다. _편집자주

‘혐오’를 주제로 한 <한겨레21>의 기획취재에서 언더스코어는 '헤이트스코어(HateScore) 알고리즘’을 바탕으로 에펨코리아, 일간베스트저장소 등 온라인 커뮤니티 게시물과 네이버와 다음 등 포털 뉴스 댓글을 분석했다. 사람이 직접 온라인 커뮤니티나 댓글을 하나하나 살펴볼 수도 있겠지만, 그 자의적인 판단 가능성을 최소화하고 몇십만 건에 이르는 대규모 데이터의 혐오표현 정도를 하나하나 측정하기 위해서는 정량적인 접근이 필요하기 때문이다.

‘헤이트스코어 알고리즘’은 언더스코어가 스마일게이트AI의 지원을 바탕으로 수집한 3만5천여 건의 온라인 텍스트 데이터를 머신러닝(기계학습)으로 학습했기에, 기존처럼 단순히 게시물 수, 특정 단어의 출현 빈도만을 분석하는 방법을 넘어선다. 또 이분법적으로 악플은 ‘1’, 악플이 아닌 댓글은 ‘0’으로 단순 분류하는 대신, 여성·지역·성소수자·외국인·연령 등 다양한 분야에 대한 다중레이블 방식으로 데이터를 학습하도록 했다.

다중레이블은 하나의 게시물 또는 댓글이 둘 이상의 집단을 동시에 혐오하는 표현을 포함하는 경우를 효과적으로 처리한다는 장점이 있다. 예를 들어 ‘좆족은 21세기의 홍어다’라는 문장에 입력값이 주어졌을 때, 단일레이블 방식으로는 여성/성소수자/남성/인종/지역/종교/연령 중 딱 한 가지만 선택해서 분류할 수 있다. 하지만 다중레이블 방식으로 학습한 헤이트스코어 모델은 해당 문장에 인종혐오와 지역혐오가 모두 포함됐다고 판단이 가능하도록 설계됐다.

헤이트스코어 모델을 활용하면 특정한 댓글이나 게시물의 혐오표현 비율이 어떻게 되는지, 시간의 흐름에 따라 그 변화 양상이 어떻게 되는지를 측정할 수 있다. 예를 들어 ‘퀴어문화축제가 열림으로써 온건층 또는 중도층의 성소수자에 대한 반발감을 오히려 높이는가’와 같은 질문에 성소수자와 관련한 포털 뉴스에 혐오 댓글을 남기는 이용자들의 혐오표현 비율 변화를 분석함으로써 답을 찾으려 한 것이다.

이렇듯 주어진 문장이 혐오발언인지 아닌지, 만약 혐오발언이라면 여성혐오인지 성소수자혐오인지 지역혐오인지 그 확률값을 0~100%에서 계산하도록 하는 헤이트스코어 모델 이외에, 텍스트의 특성을 정량화하기 위해 군집화(clustering) 알고리즘도 이번 분석에서 함께 활용했다. 예를 들어 드라마 <이상한 변호사 우영우>와 관련한 에펨코리아 게시물에서 ‘뒤로 갈수록 PC스러운 소재들이 계속 나오네’라는 문장은 명시적인 혐오발언이라고 볼 수는 없겠지만, 혐오와 관련 있는 소재를 언급했기에 추출할 가치가 있다. 군집화 알고리즘은 이를 위해 주어진 텍스트를 몇 가지 유형으로 나눈 뒤 각 유형이 다루는 주제를 살필 수 있게 돕는다.

지난 몇 년간 여성·성소수자 혐오 등은 소셜미디어에서 많이 회자됐지만, 데이터를 활용해 명확히 답해지지는 않았던 질문이 많았다. 헤이트스코어 모델을 바탕으로 한 정량적인 접근은 ‘지난 10년간 여성혐오의 추세가 어떻게 변화했는지’ ‘과연 퀴어문화축제는 중도층의 성소수자 여론에 대한 백래시(반발)를 유발하는지’ 등 ‘우리의 직관을 넘어 한 단계 더 들어간 질문에 답하기’를 도와준다.

강태영 언더스코어 대표

*본 기획물은 정부 광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

한겨레는 타협하지 않겠습니다
진실을 응원해 주세요

후원하기 후원제 소개