DOI QR코드

DOI QR Code

Contextual Advertisement System based on Document Clustering

문서 클러스터링을 이용한 문맥 광고 시스템

  • Published : 2008.02.29

Abstract

In this paper, an advertisement-keyword finding method using document clustering is proposed to solve problems by ambiguous words and incorrect identification of main keywords. News articles that have similar contents and the same advertisement-keywords are clustered to construct the contextual information of advertisement-keywords. In addition to news articles, the web page and summary of a product are also used to construct the contextual information. The given document is classified as one of the news article clusters, and then cluster-relevant advertisement-keywords are used to identify keywords in the document. We could achieve 21% precision improvement by our proposed method.

본 연구에서는 문서 클러스터링을 이용하여 동음 이의어와 핵심단어 선정 실패로 인해 발생하는 자동 광고 시스템의 오류를 해결하는 광고 키워드 추출방식을 제안한다. 먼저 대규모 뉴스기사를 대상으로 유사한 내용을 가지며 동일한 광고 키워드와 연관이 있는 기사들을 자동으로 분류하여 광고 키워드에 대한 문맥 정보를 구축한다. 또한 광고 대상물에 대한 광고주의 요약 정보나 광고 대상 웹페이지를 분석하여 광고 키워드에 대한 문맥 정보를 추출하는 방식을 보인다. 이렇게 구축된 문서 분류와 광고 키워드용 문맥 정보를 이용하여 광고 대상 문서가 속한 문서 분류를 추정하여 단어들의 의미적인 애매성을 해결하고, 추정한 문서 분류와 관련 있으면서 문맥적으로 중요성을 가지는 핵심 단어들을 선정하여 광고 키워드를 추출한다. 상용 광고 시스템과의 비교 분석 결과 신문 기사나 일반 블로그를 대상으로 최소 21%의 성능 향상을 얻었다.

Keywords

References

  1. P. D. Turney. 'Learning algorithms for Keyphrase Extraction,' Information Retrieval, vol 2, no. 4, pages 303-336, 2000 https://doi.org/10.1023/A:1009976227802
  2. E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning. 'Domain-Specific Keyphrase Extraction,' In Proceedings of IJCAI-99, pages 668-673, 1999
  3. A. Hulth. 'Improved Automatic Keyword Extraction given more Linguistic Knowledge,' In Proceedings of EMNLP-03, pages 216-223, 2003
  4. Wen Tau-Wih, Joshua Goodman, and Vitor R. Carvalho, 'Finding Advertising Keywords on Web Pages,' In Proceedings of the World Wide Web Conference 2006, Edinburgh, Scotland, 2006
  5. Rafael A. Calvo, Jae-Moon Lee and Xiaobo Li, 'Managing Content with Automatic Document Classification,' Journal of Digital Information, vol. 5, 2004
  6. 오장민, 장병탁, 김영택, 'SVM 학습을 이용한 다중 클래스 뉴스그룹 문서 분류', 한국정보과학회 가을 학술발표, pages 60-62, 1999
  7. 방선이, 양재동, 양형정, 'k-NN 분류 알고리즘과 객체기반 시소러스를 이용한 자동 문서 분류', 한국정보과학회논문지, vol. 31, no. 9, pages 1204-1217, 2004
  8. 이경찬, '확률 기법을 이용한 자동 문서 분류 시스템', 석사학위논문 국민대학교, 2004
  9. Christopher D. Manning, Hinrich Schutze, 'Foundations of Statistical Natural Language Processing,' MIT Press, Cambridge, MA, 1999
  10. J. Goodman and V. R. Carvalho, 'Implicit Queries for Email,', In Proceedings of the conference on Email and Anti-Spam (CEAS), 2005
  11. Ricardo Baeza-Yates and Berthier Ribeiro-Neto 'Modern Information Retrieval,' Addison-Wesley, 2000