본문바로가기

한겨레21

기사 공유 및 설정

뉴스 빅데이터 접근 쉬워진다

신문기사 DB에 빅데이터 분석 기술 접목한 한국언론진흥재단 공공서비스 ‘빅카인즈’ 3월께 공개 예정
등록 2016-01-27 20:43 수정 2020-05-03 04:28

“좋은 아침입니다.”
이 한국어 문장은 다음처럼 쪼갤 수 있다.

‘VA’ ‘NNG’ 같은 단어들은 ‘형용사’ ‘일반명사’ 같은 한국어 형태소를 의미한다. 이렇게 문장을 형태소로 쪼개고 특정 단어로 이름 붙여 분류하는 이유는 사람의 말을 컴퓨터한테 이해시키기 위해서다. ‘자연어 처리’라고 부른다.

기획 ‘숫자로 읽는 대통령’은 이런 형태소 분석에 기반을 뒀다. 대통령 연설문과 6개 종합일간지 사설 등 8만여 건의 글을 형태소 단위로 잘게 해체한 것이다.

이렇게 사람의 말과 글을 컴퓨터 데이터로 만들면 다양한 분석 기법을 동원해 ‘숨은 의미’를 찾아낼 수 있다. 도 형태소 분석 데이터를 바탕으로 단순·상대 빈도 분석, 의미연결망 분석, 토픽 분석 등을 시도했다.

이같은 자연어 처리나 빅데이터 분석은 전문 지식과 기술력을 갖춰야 가능한 경우가 대부분이다. 도 빅데이터 전문 업체 및 전문가들의 도움을 받았다.

그래도 ‘문턱’은 점차 낮아진다. 한국언론진흥재단(이하 언론재단)은 뉴스 빅데이터 분석을 위한 기초 자료를 제공한다는 취지로 뉴스 빅데이터 분석시스템 ‘빅카인즈’(BIG Kinds)를 구축하고 있다. 언론재단은 국내 최초의 근대 신문 (1883년)와 (1896년) 등 옛 신문부터 최근까지 국내 최대 규모의 신문기사 데이터베이스(DB)를 보유하고 있다. 빅카인즈는 기존 기사 검색 서비스인 카인즈(KINDS·Korea Integrated News Database System)를 확대·개편하는 것이다.

빅카인즈는 언론재단의 뉴스 DB에 빅데이터 분석 기술을 접목한다. 기사를 모두 자연어 처리 및 표준화해 다양한 빅데이터 분석의 기초 자료로 활용할 수 있도록 한다. 이를 통해 기존 단순 뉴스 검색을 넘어, 뉴스의 맥락(히스토리)과 뉴스 간의 연결 등을 볼 수 있는 뉴스 심층 분석을 제공하는 것이 목표다. 빅데이터 기반 솔루션 개발업체 ‘솔트룩스’가 언론재단과 협업하고 있다.

한국언론진흥재단 제공

한국언론진흥재단 제공

빅카인즈는 △일반 이용자를 위한 서비스 △언론·전문가를 위한 서비스로 나뉘어 제공된다. 매일 언론이 주목하는 핵심 이슈 키워드를 뽑고 키워드 사이의 연결망, 관련 과거 뉴스 등을 함께 보여준다. 전문가용은 이용자만의 ‘텍사노미’(단어 분류 체계)와 정보 추출 패턴을 만들 수 있도록 하고 트렌드·네트워크 분석과 시각화까지 제공한다.

언론재단 조영현 뉴스빅데이터팀장은 “1차로 1990년대 이후 20여 개 언론사 기사 DB로 구축한 빅카인즈를 3월께 공개하며, 향후 참여 언론사 및 DB 확대, 시스템 고도화 작업을 계속 추진할 계획”이라고 말했다.

김효실 기자 trans@hani.co.kr*맨 처음 예시 문장의 형태소 분석은 shineware.tistory.com을 참조했습니다.

※카카오톡에서 을 선물하세요 :) ▶ 바로가기 (모바일에서만 가능합니다)

한겨레는 타협하지 않겠습니다
진실을 응원해 주세요
맨위로