DOI QR코드

DOI QR Code

Product Review Data and Sentiment Analytical Processing Modeling

상품 리뷰 데이터와 감성 분석 처리 모델링

  • 연종흠 (서울대학교 컴퓨터공학부) ;
  • 이동주 (삼성전자 DMC연구소) ;
  • 심준호 (숙명여자대학교 컴퓨터과학부) ;
  • 이상구 (서울대학교 컴퓨터공학부)
  • Received : 2011.07.23
  • Accepted : 2011.09.29
  • Published : 2011.11.30

Abstract

Product reviews in online shopping sites can serve as a useful guideline to buying decisions of customers. However, due to the massive amount of such reviews, it is almost impossible for users to read all the product reviews. For this reason, e-commerce sites provide users with useful reviews or statistics of ratings on products that are manually chosen or calculated. Opinion mining or sentiment analysis is a study on automating above process that involves firstly analyzing users' reviews on a product to tell if a review contains positive or negative feedback, and secondly, providing a summarized report of users' opinions. Previous researches focus on either providing polarity of a user's opinion or summarizing user's opinion on a feature of a product that result in relatively low usage of information that a user review contains. Actual user reviews contains not only mere assessment of a product, but also dissatisfaction and flaws of a product that a user experiences. There are increasing needs for effective analysis on such criteria to help users on their decision-making process. This paper proposes a model that stores various types of user reviews in a data warehouse, and analyzes integrated reviews dynamically. Also, we analyze reviews of an online application shopping site with the proposed model.

전자 상거래 사이트의 상품 리뷰는 구매 예정자들에게 유용한 정보로 활용될 수 있지만, 방대한 양으로 인해 사용자가 모든 리뷰를 읽는 것은 불가능에 가깝다. 이를 보완하고자 전자 상거래 사이트들은 상품이나 그 특징에 대한 별점 통계, 유용한 리뷰 분류 등을 사용자의 참여나 수작업을 통해 제공하고 있다. 오피니언 마이닝(opinion mining) 혹은 감성 분석(sentiment analysis)은 이러한 일련의 과정을 자동화하는 연구로서, 상품 리뷰의 사용자 의견을 대상으로 그 의견이 긍정적인지, 부정적인지 판단한 후 요약하여 제공한다. 하지만 기존의 감성 분석은 구매예정자에게 유용한 정보, 즉 상품평의 극성을 판별하거나, 상품 특징별 평가 요약 등에만 초점을 맞추고 있어, 상대적으로 의견 정보의 활용도가 낮아지는 문제가 있다. 실제 상품 리뷰에는 상품의 평가 외에도 제품이 가지고 있는 문제점, 고객의 불만 등이 제시되어 있으며, 이를 관리자가 효과적으로 분석하여 의사 결정에 지원에 활용하고자 하는 요구가 늘어나고 있다. 이에 본 논문은 다양한 종류의 의견 정보를 파악하여 데이터 웨어하우스에 저장한 후, 의견 정보를 온라인에서 동적으로 분석하고 통합 처리하는 모델링 방안을 제시한다. 또한 이를 활용하여 실제 전자 상거래 사이트의 한 종류인 어플리케이션 판매 사이트의 리뷰에 대한 분석을 수행하였다.

Keywords

References

  1. 명재석, 이동주, 이상구, "반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템", 정보과학회논문지 : 소프트웨어 및 응용, 제35권, 제6호, pp. 392-403, 2008.
  2. 이동주, 연종흠, 이상구, "한국어 문장의 띄어 쓰기 오류 교정과 최적 형태소 분석을 위한 통합 확률 모델", 한국컴퓨터종합학술대회논문집, 제38권, 제1A호, pp. 237-240, 2011.
  3. 이현자, 심준호, "관계형 데이터베이스 상품 정보 질의 처리를 위한 인덱싱", 한국전자거래학회지, 제13권, 제4호, pp. 209-222, 2008.
  4. 장재영, "OLAP 환경에서 다중 존 디스크를 활용한 실체뷰의 효율적 저장 기법", 한국전자거래학회지, 제14권, 제1호, pp. 143-160, 2009.
  5. 꼬꼬마 한글 형태소 분석기, http://kkma.snu.ac.kr.
  6. Chaudhuri, S. and Dayal, U., "An overview of data warehousing and OLAP technology," SIGMOD Record, Vol. 26, , No. 1, pp. 65-75. 1997. https://doi.org/10.1145/248603.248616
  7. Denecke, K., "Using SentiWordNet for Multilingual Sentiment Analysis," In Proceedings of the International Conference on Data Engineering : ICDE, Workshop on Data Engineering for Blogs, Social Media, and Web 2.0, 2008.
  8. Ding, X., Liu, B., and Yu, P. S., "A holistic lexicon-based approach to opinion mining," In Proceedings of the international conference on Web search and web data mining, pp. 231-240, 2008.
  9. Esuli, A. and Sebastiani, F., "Determining Term Subjectivity and Term Orientation for Opinion Mining," In Proceedings of 11th conference of the European chapter of the Association for Computational Linguistics : EACL, pp. 193-200, 2006.
  10. Gray, J., Bosworth, A., Layman, A., Reichart D., and Hamid Pirahesh, "Data cube : A relational aggregation operator generalizing group-by, cross-tab, and sub-totals," Data Mining and Knowledge Discovery, Vol. 1, , No. 1, pp. 29-53, 1997. https://doi.org/10.1023/A:1009726021843
  11. Hu, M. and Liu, B., "Mining and summarizing customer reviews," In Proceedings of the 10th ACM SIGKDD international conference on Knowledge Discovery and Data mining, pp. 168-177, 2004.
  12. Jin, W., Ho, H., and Srihari, R., "Opinion-Miner : a novel machine learning system for web opinion mining and extraction," In Proceedings of the 15th ACM SIGKDD international conference on Knowledge Discovery and Data mining, pp. 1195-1204, 2009.
  13. Jindal, N. and Liu, B., "Mining Comparative Sentences and Relations," In Proceedings of the 21st national conference on Artificial intelligence, pp. 1331-1336, 2006.
  14. Liu, B., Hu, M., and Cheng, J., "Opinion observer : analyzing and comparing opinions on the Web," In Proceedings of the 14th international conference on World Wide Web, pp. 342-351, 2005.
  15. Miller, G., Beckwith, R., Fellbaum, C., Gross, D., and Miler, K., "Introduction to WordNet : An on-line lexical database," International Journal of Lexicography, pp. 235-244, 1990.
  16. Morinaga, S., Yamanishi, K., Tateishi, K., and Fukushima, T., "Mining Product Reputations on the Web," In Proceedings of the 8th SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 341-349, 2002.
  17. Myung, J., Yang, J., and Lee, S., "PicAChoo : A Tool for Customizable Feature Extraction Utilizing Characteristics of Textual Data," In Proceedings of the 3rd International Conference on Ubiquitous Information Management and Communication : ICUIMC, pp. 650-655, 2009.
  18. Popescu, A. and Etzioni, O., "OPINE : Extracting product features and opinions from reviews," In Proceedings of the conference on Human Language Technology/Empirical Methods in Natural Language Processing : HLT/EMNLP, pp. 339-346, 2005.
  19. Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin, C., "Red Opal : Product-Feature Scoring from Reviews," In Proceedings of the 8th ACM conference on Electronic Commerce, pp. 182-191, 2007.
  20. Turney, P. and Littman, M., "Unsupervised learning of semantic orientation from a hundred-billion-word corpus," Technical Report ERC-1094 (NRC 44929), National Research Council of Canada, 2002.
  21. Turney, P. and Littman, M., "Measuring praise and criticism : Inference of semantic orientation from association," ACM Transactions on Information Systems, Vol. 21, pp. 315-346, 2003. https://doi.org/10.1145/944012.944013

Cited by

  1. Impact Parameter Analysis of Subspace Clustering vol.11, pp.9, 2015, https://doi.org/10.1155/2015/398452
  2. Semi-supervised learning for sentiment analysis in mass social media vol.24, pp.5, 2014, https://doi.org/10.5391/JKIIS.2014.24.5.482
  3. Practical Datasets for Similarity Measures and Their Threshold Values vol.18, pp.1, 2013, https://doi.org/10.7838/jsebs.2013.18.1.097
  4. PHR Based Life Health Index Mobile Service Using Decision Support Model vol.86, pp.1, 2016, https://doi.org/10.1007/s11277-015-3069-8
  5. Sentiment analysis on movie review through building modified sentiment dictionary by movie genre vol.22, pp.2, 2016, https://doi.org/10.13088/jiis.2016.22.2.097
  6. P2P context awareness based sensibility design recommendation using color and bio-signal analysis vol.9, pp.3, 2016, https://doi.org/10.1007/s12083-015-0398-z
  7. 특허 토픽 모델링과 성장주기곡선을 통한 유망기술 발굴 vol.27, pp.4, 2017, https://doi.org/10.5391/jkiis.2017.27.4.357
  8. 청취 순서 성향을 고려한 랜덤워크 음악 추천 기법과 실험 사례 vol.22, pp.3, 2011, https://doi.org/10.7838/jsebs.2017.22.3.075
  9. 고객센터 상담내용 분석을 통한 이탈 요인에 관한 실증 연구 vol.22, pp.4, 2011, https://doi.org/10.7838/jsebs.2017.22.4.141
  10. 웹마이닝을 활용한 사이클웨어 소비자 인식 분석 vol.19, pp.5, 2011, https://doi.org/10.5762/kais.2018.19.5.640
  11. Fashion informatics of the Big 4 Fashion Weeks using topic modeling and sentiment analysis vol.8, pp.1, 2011, https://doi.org/10.1186/s40691-021-00265-6