“좋은 아침입니다.”
이 한국어 문장은 다음처럼 쪼갤 수 있다.
‘VA’ ‘NNG’ 같은 단어들은 ‘형용사’ ‘일반명사’ 같은 한국어 형태소를 의미한다. 이렇게 문장을 형태소로 쪼개고 특정 단어로 이름 붙여 분류하는 이유는 사람의 말을 컴퓨터한테 이해시키기 위해서다. ‘자연어 처리’라고 부른다.
기획 ‘숫자로 읽는 대통령’은 이런 형태소 분석에 기반을 뒀다. 대통령 연설문과 6개 종합일간지 사설 등 8만여 건의 글을 형태소 단위로 잘게 해체한 것이다.
이렇게 사람의 말과 글을 컴퓨터 데이터로 만들면 다양한 분석 기법을 동원해 ‘숨은 의미’를 찾아낼 수 있다. 도 형태소 분석 데이터를 바탕으로 단순·상대 빈도 분석, 의미연결망 분석, 토픽 분석 등을 시도했다.
이같은 자연어 처리나 빅데이터 분석은 전문 지식과 기술력을 갖춰야 가능한 경우가 대부분이다. 도 빅데이터 전문 업체 및 전문가들의 도움을 받았다.
그래도 ‘문턱’은 점차 낮아진다. 한국언론진흥재단(이하 언론재단)은 뉴스 빅데이터 분석을 위한 기초 자료를 제공한다는 취지로 뉴스 빅데이터 분석시스템 ‘빅카인즈’(BIG Kinds)를 구축하고 있다. 언론재단은 국내 최초의 근대 신문 (1883년)와 (1896년) 등 옛 신문부터 최근까지 국내 최대 규모의 신문기사 데이터베이스(DB)를 보유하고 있다. 빅카인즈는 기존 기사 검색 서비스인 카인즈(KINDS·Korea Integrated News Database System)를 확대·개편하는 것이다.
빅카인즈는 언론재단의 뉴스 DB에 빅데이터 분석 기술을 접목한다. 기사를 모두 자연어 처리 및 표준화해 다양한 빅데이터 분석의 기초 자료로 활용할 수 있도록 한다. 이를 통해 기존 단순 뉴스 검색을 넘어, 뉴스의 맥락(히스토리)과 뉴스 간의 연결 등을 볼 수 있는 뉴스 심층 분석을 제공하는 것이 목표다. 빅데이터 기반 솔루션 개발업체 ‘솔트룩스’가 언론재단과 협업하고 있다.
한국언론진흥재단 제공
빅카인즈는 △일반 이용자를 위한 서비스 △언론·전문가를 위한 서비스로 나뉘어 제공된다. 매일 언론이 주목하는 핵심 이슈 키워드를 뽑고 키워드 사이의 연결망, 관련 과거 뉴스 등을 함께 보여준다. 전문가용은 이용자만의 ‘텍사노미’(단어 분류 체계)와 정보 추출 패턴을 만들 수 있도록 하고 트렌드·네트워크 분석과 시각화까지 제공한다.
언론재단 조영현 뉴스빅데이터팀장은 “1차로 1990년대 이후 20여 개 언론사 기사 DB로 구축한 빅카인즈를 3월께 공개하며, 향후 참여 언론사 및 DB 확대, 시스템 고도화 작업을 계속 추진할 계획”이라고 말했다.
※카카오톡에서 을 선물하세요 :) ▶ 바로가기 (모바일에서만 가능합니다)
한겨레21 인기기사
한겨레 인기기사

하정우·한동훈, 구포시장서 포옹…“파이팅” “생산적으로 해봅시다”

사라진 발코니, 우리가 잃어버린 ‘집’의 숨통
![텅 빈 드론 매장에 DJI 로고만 반짝…“이제 안 팔아요” [현장] 텅 빈 드론 매장에 DJI 로고만 반짝…“이제 안 팔아요” [현장]](https://flexible.img.hani.co.kr/flexible/normal/500/300/imgdb/child/2026/0429/53_17774608729008_20260429503472.jpg)
텅 빈 드론 매장에 DJI 로고만 반짝…“이제 안 팔아요” [현장]

“배현진, 암적 존재”…장동혁이 지명한 국힘 최고위원 공개발언

“트럼프에 닥친 최악 시나리오”…전쟁도 합의도 없는 21세기 ‘냉전’
![누가 미국 기업 아니랄까봐 [그림판] 누가 미국 기업 아니랄까봐 [그림판]](https://flexible.img.hani.co.kr/flexible/normal/500/300/imgdb/original/2026/0429/20260429503422.jpg)
누가 미국 기업 아니랄까봐 [그림판]

장동혁, 쿠팡 정치후원금 ‘최대한도’ 5천달러씩 받은 미 의원들 만났다

중재국 파키스탄, 이란행 6개 육상 수송로 발표…미국 ‘역봉쇄’에 구멍

외교부, 주미대사관 공사급·북미 라인 교체 ‘쇄신 인사’

‘내란전담재판부 첫 선고’ 윤석열 항소심 징역 7년…1심보다 2년 늘어




