A Corpus Construction System of Consistent Document Categorization and Keyword Extraction

일관성 있는 문서분류 및 키워드 추출을 위한 말뭉치 구축도구

  • Published : 2010.10.27

Abstract

As the number of documents rapidly increases in the web environment, the efficient document classification approaches have been required to retrieve the desired information from too many documents. In this paper, we propose a corpus construction tool to annotate document classification information such as category, keywords, and usage to each product description document. The proposed tool can help a human annotator to correctly identify this information by providing the verification step to check the input results of other human annotators. Also, the human annotator can construct the corpus anytime anywhere by using the web-based proposed system.

최근에 웹 문서의 양이 빠르게 증가함에 따라 사용자가 원하는 정보를 검색하기 위한 효율적인 문서분류방법에 대한 연구가 요구되고 있다. 본 논문에서는 효율적인 문서분류 시스템 개발을 위한 자료수집 단계에서, 제시되는 각 문서에 대해 일관성 있는 문서범주 및 사용용도, 키워드 정보를 부착하기 위한 말뭉치구축 도구를 제안한다. 이 때 다른 사용자가 입력한 정보를 제시함으로써 자신의 것과 비교 및 수정할 수 있는 검증단계를 거쳐 일관성을 높인다. 또한 웹 환경에서 실행하여 말뭉치 구축자가 언제 어디서든지 편하게 말뭉치를 구축할 수 있다.

Keywords