“좋은 아침입니다.”
이 한국어 문장은 다음처럼 쪼갤 수 있다.
‘VA’ ‘NNG’ 같은 단어들은 ‘형용사’ ‘일반명사’ 같은 한국어 형태소를 의미한다. 이렇게 문장을 형태소로 쪼개고 특정 단어로 이름 붙여 분류하는 이유는 사람의 말을 컴퓨터한테 이해시키기 위해서다. ‘자연어 처리’라고 부른다.
기획 ‘숫자로 읽는 대통령’은 이런 형태소 분석에 기반을 뒀다. 대통령 연설문과 6개 종합일간지 사설 등 8만여 건의 글을 형태소 단위로 잘게 해체한 것이다.
이렇게 사람의 말과 글을 컴퓨터 데이터로 만들면 다양한 분석 기법을 동원해 ‘숨은 의미’를 찾아낼 수 있다. 도 형태소 분석 데이터를 바탕으로 단순·상대 빈도 분석, 의미연결망 분석, 토픽 분석 등을 시도했다.
이같은 자연어 처리나 빅데이터 분석은 전문 지식과 기술력을 갖춰야 가능한 경우가 대부분이다. 도 빅데이터 전문 업체 및 전문가들의 도움을 받았다.
그래도 ‘문턱’은 점차 낮아진다. 한국언론진흥재단(이하 언론재단)은 뉴스 빅데이터 분석을 위한 기초 자료를 제공한다는 취지로 뉴스 빅데이터 분석시스템 ‘빅카인즈’(BIG Kinds)를 구축하고 있다. 언론재단은 국내 최초의 근대 신문 (1883년)와 (1896년) 등 옛 신문부터 최근까지 국내 최대 규모의 신문기사 데이터베이스(DB)를 보유하고 있다. 빅카인즈는 기존 기사 검색 서비스인 카인즈(KINDS·Korea Integrated News Database System)를 확대·개편하는 것이다.
빅카인즈는 언론재단의 뉴스 DB에 빅데이터 분석 기술을 접목한다. 기사를 모두 자연어 처리 및 표준화해 다양한 빅데이터 분석의 기초 자료로 활용할 수 있도록 한다. 이를 통해 기존 단순 뉴스 검색을 넘어, 뉴스의 맥락(히스토리)과 뉴스 간의 연결 등을 볼 수 있는 뉴스 심층 분석을 제공하는 것이 목표다. 빅데이터 기반 솔루션 개발업체 ‘솔트룩스’가 언론재단과 협업하고 있다.
한국언론진흥재단 제공
빅카인즈는 △일반 이용자를 위한 서비스 △언론·전문가를 위한 서비스로 나뉘어 제공된다. 매일 언론이 주목하는 핵심 이슈 키워드를 뽑고 키워드 사이의 연결망, 관련 과거 뉴스 등을 함께 보여준다. 전문가용은 이용자만의 ‘텍사노미’(단어 분류 체계)와 정보 추출 패턴을 만들 수 있도록 하고 트렌드·네트워크 분석과 시각화까지 제공한다.
언론재단 조영현 뉴스빅데이터팀장은 “1차로 1990년대 이후 20여 개 언론사 기사 DB로 구축한 빅카인즈를 3월께 공개하며, 향후 참여 언론사 및 DB 확대, 시스템 고도화 작업을 계속 추진할 계획”이라고 말했다.
※카카오톡에서 을 선물하세요 :) ▶ 바로가기 (모바일에서만 가능합니다)
한겨레21 인기기사
한겨레 인기기사

‘윤석열 출국금지’ 국회 보고했다고…박성재 “야당과 결탁했냐” 질책

트럼프 “대법 결정 갖고 장난치는 국가, 훨씬 더 높은 관세 부과”

‘사법개혁 3법’ 통과 앞…시민단체들 “법왜곡죄, 더 숙의해야”

배현진 지역구 공천, 중앙당이 하기로…친한계 공천권 제한
![그렇게 형이 된다...감독 김남국, 주연 정청래 [그림판] 그렇게 형이 된다...감독 김남국, 주연 정청래 [그림판]](https://flexible.img.hani.co.kr/flexible/normal/500/300/imgdb/original/2026/0223/20260223503467.jpg)
그렇게 형이 된다...감독 김남국, 주연 정청래 [그림판]

몸에 피 한방울 없는 주검이 되어 돌아온 새 신랑

의료 공백 메웠던 간호사들, 6개월째 여전히 전공의 일 떠맡아

서울중앙지법 부장판사가 대낮 음주운전…감봉 3개월

김혜경 여사·브라질 영부인, ‘커플 한복’ 맞추고 친교 활동

‘노스페이스’ 영원그룹 회장, 82개 계열사 은폐해 고발 당해




