DOI QR코드

DOI QR Code

Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘

  • Jang, Minseo (College of Humanities, Sungkyunkwan University) ;
  • OH, Sujin (College of Information and Communication Engineering, Sungkyunkwan University) ;
  • Kim, Ung-Mo (College of Software, Sungkyunkwan University)
  • 장민서 (성균관대학교 문과대학) ;
  • 오수진 (성균관대학교 정보통신대학) ;
  • 김응모 (성균관대학교 소프트웨어대학)
  • Published : 2018.05.11

Abstract

본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

Keywords