DOI QR코드

DOI QR Code

A Study on Web Mining System for Real-Time Monitoring of Opinion Information Based on Web 2.0

의견정보 모니터링을 위한 웹 마이닝 시스템에 관한 연구

  • 주해종 (동국대학교 산학협력중심대학육성사업단) ;
  • 홍봉화 (경희사이버대학교 정보통신학과) ;
  • 정복철 (경희대학교 교양학부)
  • Received : 2009.11.06
  • Accepted : 2010.01.26
  • Published : 2010.01.31

Abstract

As the use of the Internet has recently increased, the demand for opinion information posted on the Internet has grown. However, such resources only exist on the website. People who want to search for information on the Internet find it inconvenient to visit each website. This paper focuses on the opinion information extraction and analysis system through Web mining that is based on statistics collected from Web contents. That is, users' opinion information which is scattered across several websites can be automatically analyzed and extracted. The system provides the opinion information search service that enables users to search for real-time positive and negative opinions and check their statistics. Also, users can do real-time search and monitoring about other opinion information by putting keywords in the system. Proposed technologies proved to have outstanding capabilities in comparison to existing ones through tests. The capabilities to extract positive and negative opinion information were assessed. Specifically, test movie review sentence testing data was tested and its results were analyzed.

최근에 인터넷 사용이 점차 활발해 짐에 따라, 다른 사람들이 인터넷 상에 올려놓은 의견정보를 참조하고자 하는 수요가 높아지고 있다. 하지만, 이러한인터넷상에존재하는의견들은개개의웹사이트들에만존재하여, 이러한 의견정보들을 사용하고자 할 경우에는 사용자가 일일이 이러한 개개의 모든 웹사이트를 수동으로 찾아보아야 하는 번거로움이 존재하는 문제점이 있다. 본 논문은 웹 콘텐츠에서의 통계기반 웹 마이닝(Web Mining)을 통한 의견 추출 및 분석 시스템에 관한 것으로, 인터넷 상에 존재하는 여러 웹사이트들에 흩어져 있는 웹문서에서 사용자 의견정보들을 자동으로 추출 및 분석한다. 또한, 긍정/부정 의견별로 실시간으로 검색 및 통계를 확인할 수 있는 의견정보 검색 서비스를 간편하게 제공할수 있으며, 의견정보 검색 사용자들은 특정 키워드에 대하여 다른 사용자들의 의견정보를 손쉽게 실시간으로 검색 및 모니터링(Monitoring)할 수 있는 시스템이다. 제안한 기법들은 기존의 다른 기법들과의 비교 실험을 수행하여 실제 성능이 우수함을 증명하였다. 성능 평가는 긍정/부정 의견정보를 추출하는 기능의 성능 평가를 실시하였다. 그 적용 사례로 대표적인 영화 리뷰 문장 실험 데이터를 대상으로 실험하고 그 결과를 분석하였다.

Keywords

References

  1. 주해종.박영배, "모니터링 검색엔진을 위한 웹 콘텐츠 마이닝 시스템 설계," 한국통신학회 논문지 제 34권, 제 2호, 53-60쪽, 2009년 2월.
  2. P. Adriaans, D. Zantinge, "Data Mining," Addison Wesley Longman, England, 1996.
  3. R. Kosala, H. Blockeel, "Web Mining Research: A Survey", ACM SIGKDD, July 2000.
  4. C. H. Lee, H. C. Yang, "A Web Text Mining Approach Base on Self-Organizing Map," In Proceedings of the 2nd International Workshop on Web Information and Data Management, WIDM'99, Kansas City, MO, USA, 1999, 59-62.
  5. M. Mulvenna, S. Anand, A. Buchner, "Personalization on the Net using Web Mining," Communications of the ACM, Vol. 43, No. 8, Aug. 2000.
  6. Dagan, I., Church, K.W., and Gale, "Robust bilingual word alignment for machine aided translation," In Proceedings of the workshop on Very Large Corpora, pp.1-8, 1993
  7. Lee, J. S. and K. S. Choi, "English to Korean Statistical transliteration for information retrieval," Journal of Computer Processing of Oriental Languages, 12(1):17-37, 1998
  8. Kang B.J. and K-S. Choi, "Automatic Transliteration and Back-transliteration by Decision Tree Learning," In Proceedings of LREC'2000, 2000.
  9. Goto I., N. Kato, N. Uratani and T. Ehara, "Transliteration Considering Context Information Based on the Maximum Entropy Method," In Proceedings of MT-Summit IX, 2003
  10. Qu Yan, Gregory Grefenstette, David A. Evans, "Automatic transliteration for Japanese-to-English textretrieval," In Proceedings of ACM SIGIR'2003, pp.353-360, 2003
  11. Dorre J., Gerstl, P., and Seiffert, R., "Text Mining: Finding Nuggets in Mountains of Textual Data," in Proceedings of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1999.
  12. Lee Hing Yan, "Text Mining-Knowledge Discovery from Text," Trend in Knowledge Discovery from Databases, 29th June 1999.
  13. Jong-Hoon Oh, Sun-Mee Bae, Key-Sun Choi, "An Algorithmfor extracting Engilish-Korean Transliterationpairs using Automatic E-K Transliteration," In Proceddings of Korean Information Science Society, 2004.
  14. C.J. Lee, J.S. Chang, J.S. Jang, "Extraction of transliteration pairs form parallel corpora using a statistical transliteration model," Information Science 176, 67-90, 2006 https://doi.org/10.1016/j.ins.2004.10.006
  15. Chun-Jen Lee, Jason S. Chang, Jyh-Shing Roger Jang: "Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources," ACM Trans. Asian Lang. Inf.Process. 5(2):121-145, 2006 https://doi.org/10.1145/1165255.1165257
  16. Satish L, Gururaj BI, "Use of hidden Markov models for partial discharge pattern classification," IEEE Transactions on Dielectrics and Electrical Insulation, April 2003.

Cited by

  1. 의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구 vol.15, pp.11, 2010, https://doi.org/10.9708/jksci.2010.15.11.021