Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2018.05a
- /
- Pages.271-274
- /
- 2018
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means
TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘
- Jang, Minseo (College of Humanities, Sungkyunkwan University) ;
- OH, Sujin (College of Information and Communication Engineering, Sungkyunkwan University) ;
- Kim, Ung-Mo (College of Software, Sungkyunkwan University)
- Published : 2018.05.11
Abstract
본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.
Keywords