DOI QR코드

DOI QR Code

Hierarchical Automatic Classification of News Articles based on Association Rules

연관규칙을 이용한 뉴스기사의 계층적 자동분류기법

  • 주길홍 (경인교육대학교 컴퓨터교육과) ;
  • 신은영 (YTN 정보시스템팀) ;
  • 이주일 (연세대학교 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • Received : 2011.03.07
  • Accepted : 2011.05.31
  • Published : 2011.06.30

Abstract

With the development of the internet and computer technology, the amount of information through the internet is increasing rapidly and it is managed in document form. For this reason, the research into the method to manage for a large amount of document in an effective way is necessary. The conventional document categorization method used only the keywords of related documents for document classification. However, this paper proposed keyword extraction method of based on association rule. This method extracts a set of related keywords which are involved in document's category and classifies representative keyword by using the classification rule proposed in this paper. In addition, this paper proposed the preprocessing method for efficient keywords creation and predicted the new document's category. We can design the classifier and measure the performance throughout the experiment to increase the profile's classification performance. When predicting the category, substituting all the classification rules one by one is the major reason to decrease the process performance in a profile. Finally, this paper suggested automatically categorizing plan which can be applied to hierarchical category architecture, extended from simple category architecture.

인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며 사용자의 다양한 요구가 생겨나게 되었다. 이로 인해 대용량의 문서를 효과적으로 분류하기 위한 다양한 방법의 연구가 필요하게 되었다. 기존의 문서 범주화는 분서의 분류를 위해 연관된 문서의 키워드를 중심으로 하는 방법을 사용하였다. 그러나 본 논문에서는 연관규칙을 이용하여 범주 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하고 각 범주 별로 의미적으로 대표성을 가진 키워드들로 분류 규칙을 생성한다. 또한 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 새로운 문서 범주를 예측한다. 프로파일의 분류성능을 높이기 위한 분류함수를 설계하고 실험을 통하여 성능을 측정한다. 마지막으로 평면적인 범주 구조에서 확장하여 계층적인 분류체계 구조에서도 적용할 수 있는 자동분류 방안을 제시한다.

Keywords

References

  1. 윤종찬, 윤성대, "스퀀스 연관규칙을 이용한 개인화 웹 마이닝 설계," 한국멀티미디어학회논문지, 제11권, 제11호, pp.1566-1574, 2008.
  2. 이형우, 김태수, "온톨로지 기반에서 연관 마이닝 방법을 이용한 지식 추론 알고리즘 연구," 한국멀티미디어학회논문지, 제11권, 제11호, pp.1601-1614, 2008.
  3. P. Hayes, P. Anderson, I. Nirenburg, and L. Schmandt. "TCS: A Shell for Content-based Text Categorization," Proceedings of the 6th IEEE Conference on Artificial Intelligence.
  4. J. R. Hobbs., D. Appelt, M. Tyson, J. Bear and D. Israel, "FASTUS: System summary," Proceedings of Fourth Message Understanding Conference, 1992.
  5. L. Larkey. and W. Croft, "Combining classifiers in text categorization," SIGIR'96, 1996.
  6. D. Lewis. "An Evaluation of Phrasal and Clustered Representations on a Text Categorization Task," SIGIR'92.
  7. B. Masand., "Classifying News Stories using Memory Based Reasoning," SIGIR'92.
  8. M. Maron, "Automatic indexing: An experimental inquiry," Journal of the ACM, 1961.
  9. R. Hoch., "Using IR techniques for text classification in document analysis," SIGIR'94, 1994.
  10. P. Jacobs., Using statistical methods to improve knowledge-based news.
  11. M. Blosseville. G. Hebrail, M. Monteil, and N. Penot., "Automatic document classification: natural language processing, statistical analysis, and expert system techniques used together," SIGIR'92, 1992.
  12. 김국희. "웹 기반 문서 자동분류시스템 설계 및 성능실험," 국방대 국방관리 대학원, 2005.
  13. 명진. "인공지능을 이용한 웹 문서의 자동분류," 서강대학교 경영대학원 석사학위 논문, 2004
  14. 황성하. "인터넷 문서의 자동분류 서비스 시스템에 관한 구현," 한국 컨텐츠학회 추계종합학술대회 논문집 제3권, 2005.
  15. 한정기. "구문 패턴과 키워드 집합을 이용한 통계적 자동 문서 분류의 성능 향상," 한국정보처리학회 학술대회 논문집, 2000.
  16. 박흠, "문서 자동분류에서 자질의 대표성 향상을 위한 자질 축소와 자질 필터링 방법," 부산대학교 정보통신대학원 박사학위 논문, 2008.
  17. 하원식, "협력적 필터링을 위해 연관단어 빈도를 이용한 웹 문서 분류," 한국정보과학회 학술대회 논문집 Vol.31, No.2, 2004.
  18. 김흥남, "가중치가 부여된 단어 연관 규칙 기반의 문서 분류," 인하대 대학원 석사학위 논문, 2004.
  19. 백용규, "인터넷 뉴스기사에 대한 자동 분류 정보 시스템에 관한 연구," 한국경영정보학회 학술대회 논문집, 2003.

Cited by

  1. A Document Classification System Using Modified ECCD and Category Weight for each Document vol.19B, pp.4, 2012, https://doi.org/10.3745/KIPSTB.2012.19B.4.237
  2. Text Extraction Algorithm using the HTML Logical Structure Analysis vol.16, pp.3, 2015, https://doi.org/10.9728/dcs.2015.16.3.445
  3. The Big Data Analytics Regarding the Cadastral Resurvey News Articles vol.32, pp.6, 2014, https://doi.org/10.7848/ksgpc.2014.32.6.651
  4. A Study on WT-Algorithm for Effective Reduction of Association Rules vol.20, pp.5, 2015, https://doi.org/10.9723/jksiis.2015.20.5.061
  5. Doc2Vec과 Word2Vec을 활용한 Convolutional Neural Network 기반 한국어 신문 기사 분류 vol.44, pp.7, 2011, https://doi.org/10.5626/jok.2017.44.7.742
  6. Dynamic Text Categorizing Method using Text Mining and Association Rule vol.23, pp.10, 2011, https://doi.org/10.9708/jksci.2018.23.10.103
  7. 국가R&D과제와 신문에서 텍스트마이닝을 통한 그래핀 기술의 지식구조 탐색 vol.21, pp.2, 2011, https://doi.org/10.5392/jkca.2021.21.02.085