DOI QR코드

DOI QR Code

A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts

블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구

  • Han, Bum-Jun (Graduate School of Computer & Information Technology, Korea University) ;
  • Kim, Min-Jeong (Dept. of Computer & Radio Communications Engineering, Korea University) ;
  • Lee, Hyoung-Gyu (Dept. of Computer & Radio Communications Engineering, Korea University)
  • 한범준 (고려대학교 컴퓨터 정보통신대학원) ;
  • 김민정 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이형규 (고려대학교 컴퓨터.전파통신공학과)
  • Published : 2010.04.23

Abstract

블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

Keywords