DOI QR코드

DOI QR Code

Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0

웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템

  • 김영춘 (공주대학교 기계자동차공학부) ;
  • 주해종 (동국대학교 산학협력중심대학) ;
  • 최혜길 (경희사이버대학교 정보통신학과) ;
  • 조문택 (대원대학 전기전자계열) ;
  • 김영백 (경남대학교 컴퓨터공학부) ;
  • 이상용 (경남대학교 컴퓨터공학부)
  • Received : 2011.01.27
  • Accepted : 2011.02.10
  • Published : 2011.02.25

Abstract

This paper focuses on the opinion information extraction and analysis system through Web mining that is based on statistics collected from Web contents. That is, users' opinion information which is scattered across several websites can be automatically analyzed and extracted. The system provides the opinion information search service that enables users to search for real-time positive and negative opinions and check their statistics. Also, users can do real-time search and monitoring about other opinion information by putting keywords in the system. Proposing technique proved that the actual performance is excellent by comparison experiment with other techniques. Performance evaluation of function extracting positive/negative opinion information, the performance evaluation applying dynamic window technique and tokenizer technique for multilingual information retrieval, and the performance evaluation of technique extracting exact multilingual phonetic translation are carried out. The experiment with typical movie review sentence and Wikipedia experiment data as object as that applying example is carried out and the result is analyzed.

본 연구에서 제안하는 시스템은 인터넷 상에 존재하는 여러 웹사이트들에 흩어져 있는 웹 콘텐츠에서 사용자 의견 정보들을 자동 추출 및 분석함으로써, 긍정/부정 의견별로 검색 및 통계를 확인할 수 있는 의견 검색 서비스를 제공한다. 그 결과 의견 검색 사용자들은 특정 키워드에 대하여 다른 사용자들의 의견을 손쉽게 한눈에 검색 및 모니터링하는 시스템을 용이하게 사용할 수 있으며, 웹 콘텐츠에서의 의견 추출 및 분석하는 기능을 제공받는다. 제안한 기법들은 다른 기법들과의 비교 실험을 수행하여 실제 성능이 우수함을 증명하였다. 성능 평가는 긍정/부정 의견 정보를 추출하는 기능의 성능 평가, 다국어 정보 검색을 위한 동적 윈도우 기법과 토크나이저 기법을 적용한 성능 평가, 그리고 정확한 다국어 음차표기를 추출 기법에 성능 평가를 실시하였다. 그 적용 사례로 대표적인 영화 리뷰 문장과 위키디피아 실험 데이터를 대상으로 실험하고 그 결과를 분석하였다.

Keywords

References

  1. 주해종.박영배, “모니터링 검색엔진을 위한 웹 콘텐츠 마이닝 시스템 설계,” 한국통신학회 논문지, 제34권 제2호 , pp.53-60, 2009,
  2. 장남식, 홍성완, 장재호, 데이터마이닝, 대청, 2007.
  3. HaeJong Joo.YoungBae Park, "Design of Web Contents Mining System for Monitoring Search Engine", KICS, Vol. 34, No. 2, February, pp.53-60, 2009.
  4. NamSik Jang, SungWan Hong, JaeHo Jang, Data Mining, DaeChung, pp.32-56, 2007.
  5. S. Anand, D. Bell, J. Hughes, "The Role of Domain Knowledge in Data Mining," CIKM95, 1995.
  6. S. Anand, J. Hughes, "Hybrid Data Mining Systems: The Next Generation,“ PAKDD '98, Melbourne, Australia, pp. 13-24, 1998.
  7. P. Adriaans, D. Zantinge, Data Mining, Addison Wesley Longman, England,1996.
  8. J. Berry, G. Linoff, Data Mining Techniques: For Marketing, Sales, and Customer Support, John Wiley & Sons, 1997.
  9. R. Kosala, H. Blockeel, "Web Mining Research: A Survey,“ ACM SIGKDD, July, 2000.
  10. C. H. Lee, H. C. Yang, "A Web Text Mining Approach Base on Self-Organizing Map", Proceedings of the 2nd International Workshop on Web Information and Data Management, WIDM'99, Kansas City, MO, USA, pp. 59-62, 1999.
  11. M. Mulvenna, S. Anand, A. Buchner, "Personalization on the Net using Web Mining," Communications of the ACM, Vol. 43, No. 8, August, 2000.
  12. Dagan, I., Church, K.W., and Gale, “Robust bilingual word alignment for machine aided translation”, Proceedings of the workshop on Very Large Corpora, pp. 1-8, 1993.
  13. Lee, J.S. and K.S.Choi, "Enflish to Korean Statistical transliteration for information retrieval," Journal of Computer Processing of Oriental languages, Vol. 12, No. 1, pp. 17-37, 1998.
  14. Kang B.J. and K-S. Choi, "Automatic Transliteration and Back-transliteration by Decision Tree Learning," Proceedings of LREC'2000, 2000.
  15. GotoI., N. Kato, N. Urataniand T. Ehara, "Transliteration Considering Context Information Based on the Maximum Entropy Method," Proceedings of MT-Summit IX, 2003.
  16. Qu Yan, Gregory Grefenstette, David A. Evans, "Automatic transliteration for Japanese-to-English text retrieval," Proceedings of ACM SIGIR'2003, pp. 353-360, 2003.
  17. Virga Paola and Khudanpur, Transliteration of Proper Names in Cross-Lingual Information Retrieval, ACL 2003's Workshop on Multilingual and Mixed-language Named Entity Recognition, 2003.
  18. Dorre J., Gerstl, P., and Seiffert, R., "Text Mining:Finding Nuggets in Mountains of Textual Data," Proceedings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1999.