“좋은 아침입니다.”
이 한국어 문장은 다음처럼 쪼갤 수 있다.
‘VA’ ‘NNG’ 같은 단어들은 ‘형용사’ ‘일반명사’ 같은 한국어 형태소를 의미한다. 이렇게 문장을 형태소로 쪼개고 특정 단어로 이름 붙여 분류하는 이유는 사람의 말을 컴퓨터한테 이해시키기 위해서다. ‘자연어 처리’라고 부른다.
기획 ‘숫자로 읽는 대통령’은 이런 형태소 분석에 기반을 뒀다. 대통령 연설문과 6개 종합일간지 사설 등 8만여 건의 글을 형태소 단위로 잘게 해체한 것이다.
이렇게 사람의 말과 글을 컴퓨터 데이터로 만들면 다양한 분석 기법을 동원해 ‘숨은 의미’를 찾아낼 수 있다. 도 형태소 분석 데이터를 바탕으로 단순·상대 빈도 분석, 의미연결망 분석, 토픽 분석 등을 시도했다.
이같은 자연어 처리나 빅데이터 분석은 전문 지식과 기술력을 갖춰야 가능한 경우가 대부분이다. 도 빅데이터 전문 업체 및 전문가들의 도움을 받았다.
그래도 ‘문턱’은 점차 낮아진다. 한국언론진흥재단(이하 언론재단)은 뉴스 빅데이터 분석을 위한 기초 자료를 제공한다는 취지로 뉴스 빅데이터 분석시스템 ‘빅카인즈’(BIG Kinds)를 구축하고 있다. 언론재단은 국내 최초의 근대 신문 (1883년)와 (1896년) 등 옛 신문부터 최근까지 국내 최대 규모의 신문기사 데이터베이스(DB)를 보유하고 있다. 빅카인즈는 기존 기사 검색 서비스인 카인즈(KINDS·Korea Integrated News Database System)를 확대·개편하는 것이다.
빅카인즈는 언론재단의 뉴스 DB에 빅데이터 분석 기술을 접목한다. 기사를 모두 자연어 처리 및 표준화해 다양한 빅데이터 분석의 기초 자료로 활용할 수 있도록 한다. 이를 통해 기존 단순 뉴스 검색을 넘어, 뉴스의 맥락(히스토리)과 뉴스 간의 연결 등을 볼 수 있는 뉴스 심층 분석을 제공하는 것이 목표다. 빅데이터 기반 솔루션 개발업체 ‘솔트룩스’가 언론재단과 협업하고 있다.
빅카인즈는 △일반 이용자를 위한 서비스 △언론·전문가를 위한 서비스로 나뉘어 제공된다. 매일 언론이 주목하는 핵심 이슈 키워드를 뽑고 키워드 사이의 연결망, 관련 과거 뉴스 등을 함께 보여준다. 전문가용은 이용자만의 ‘텍사노미’(단어 분류 체계)와 정보 추출 패턴을 만들 수 있도록 하고 트렌드·네트워크 분석과 시각화까지 제공한다.
언론재단 조영현 뉴스빅데이터팀장은 “1차로 1990년대 이후 20여 개 언론사 기사 DB로 구축한 빅카인즈를 3월께 공개하며, 향후 참여 언론사 및 DB 확대, 시스템 고도화 작업을 계속 추진할 계획”이라고 말했다.
김효실 기자 trans@hani.co.kr<font color="#991900">*맨 처음 예시 문장의 형태소 분석은 <font color="#C21A1A">shineware.tistory.com</font>을 참조했습니다.</font>※카카오톡에서 을 선물하세요 :) <font color="#C21A1A">▶ 바로가기</font> (모바일에서만 가능합니다)
한겨레21 인기기사
한겨레 인기기사
목줄 매달고 발길질이 훈련?…동물학대 고발된 ‘어둠의 개통령’
야 “공천개입·국정농단 자백”…윤 시인하는 듯한 발언에 주목
[영상] 윤 기자회견 특별진단…“쇼킹한 실토” “김 여사 위한 담화”
윤, 외신기자 한국어 질문에 “말귀 못 알아듣겠다”…“무례” 비판
윤 “아내한테 ‘미쳤냐 뭐 하냐’…내 폰으로 아침 5시에 답장하길래”
‘세상에서 가장 긴 무덤’ 대전 골령골, 평화공원 조성 또 미뤄지나?
[국제발신] 499,500원 결제완료…불법문자 28억개 범인 잡았다
지구 어디에나 있지만 발견 어려워…신종 4종 한국서 확인
명태균 모교 창원대 “선배님은 수치입니다”…윤 퇴진 대자보
‘1조원대 다단계 사기’ 휴스템코리아 회장 등 70명 검찰 송치