DOI QR코드

DOI QR Code

A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로

  • Lee, Min Cheol (Chonnam National University, College of Business Administration) ;
  • Yoon, Hyun Shik (Chonnam National University, College of Business Administration)
  • 이민철 (전남대학교 일반대학원 경영학과) ;
  • 윤현식 (전남대학교 경영대학 경영학부)
  • Received : 2020.07.30
  • Accepted : 2020.09.17
  • Published : 2020.09.30

Abstract

The social consciousness on fake reviews has triggered researchers to suggest ways to cope with them by analyzing contents of fake reviews or finding ways to discover them by means of structural characteristics of them. This research tried to collect data from blog posts in Naver and detect habitual patterns users use unconsciously by variables extracted from blogs and blog posts by a machine learning model and wanted to use the technique in predicting fake reviews. Data analysis showed that there was a very high relationship between the number of all the posts registered in the blog of the writer of the related writing and the date when it was registered. And, it was found that, as model to detect advertising reviews, Random Forest is the most suitable. If a review is predicted to be an advertising one by the model suggested in this research, it is very likely that it is fake review, and that it violates the guidelines on investigation into markings and advertising regarding recommendation and guarantee in the Law of Marking and Advertising. The fact that, instead of using analysis of morphemes in contents of writings, this research adopts behavior analysis of the writer, and, based on such an approach, collects characteristic data of blogs and blog posts not by manual works, but by automated system, and discerns whether a certain writing is advertising or not is expected to have positive effects on improving efficiency and effectiveness in detecting fake reviews.

References

  1. 강경수, 박세민 (2019). 웹 크롤링과 기계학습 기법을 이용한 경영학 분야 KCI 저널의 주제어 분석. 대한경영학회지, 32(4), 597-615.
  2. 강지우, 김동욱, 송이현, 이석범, 이범진, 정윤경 (2017). 음식점 가짜 리뷰 판별을 위한 기계학습 방법 비교. 한국정보과학회 학술발표논문집, 1980-1982.
  3. 공정거래위원회 (2019). 인스타그램 이용 후기 믿고 구매한 상품..., 사실은 광고?-대가 지급 사실을 밝히지 않은 7개 사업자의 표시광고법 위반 행위 시정조치-. 공정거래위원회 소비자정책국 소비자안정정보과, pp. 1-13.
  4. 곽주영, 윤현식 (2019). 머신러닝을 활용한 TV 오디션 프로그램의 우승자 예측 모형 개발: 프로듀스X 101 프로그램을 중심으로. 지식경영연구, 20(3), 155-171. https://doi.org/10.15813/kmr.2019.20.3.010
  5. 김보라, 박은아 (2017). 협찬 블로그의 상품추천도 효과가 있을까? 한국심리학회 학술대회 자료집, 391.
  6. 김성훈 (2003). 제품 관여도 및 제품 지식에 따른 온라인 구전정보 활용 연구. 광고학연구, 14(1), 257-280.
  7. 김영선, 이용조, 최예림, 김현수 (2019). 머신러닝 기반의 폐가전제품 무상방문수거 서비스 수거시간 수준 예측 방법론. 한국SCM학회지, 19(2), 49-57.
  8. 김예림, 이순영, 황근창, 강태원 (2016). 빅데이터를 이용한 블로그 포스트 분석. 한국정보과학회 학술발표논문집, 1804-1805.
  9. 김진섭, 고덕우, 정재우 (2019). 머신러닝 기반 Lumpy 수요형태의 항공기 수리부속 수요예측 정확도 개선 연구. 경영과학, 36(3), 1-11.
  10. 김진일, 권유진, 김진욱, 김성렬, 박근수 (2010). 그래프 탐색기법을 이용한 효율적인 웹 크롤링 방법들. 정보과학회논문지: 시스템 및 이론, 37(1), 27-34.
  11. 남은우 (2010). 블로그 특성이 관계품질과 구매의도에 미치는 영향. 유통과학연구, 8(2), 45-51.
  12. 박병욱, 서현석, 나윤규 (2008). 블로그 특성이 브랜드 태도에 미치는 영향. 마케팅논집, 16(3), 1-40.
  13. 박상현, 박석 (2018). 온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법. 정보과학회논문지, 45(2), 165-174.
  14. 배영혜, 김종성, 왕원준, 유영훈, 정재원, 김형수 (2019). VARMA와 머신러닝 모형을 이용한 소양강댐 월유입량 예측. 기후연구, 14(3), 183-198.
  15. 성영신, 백지은, 임선희, 이현진 (2007). 무의식적 구매결정의 심리적 메커니즘. 한국심리학회지: 소비자.광고, 8(3), 283-313.
  16. 손민정, 남택진 (2010). 지속가능한 인터랙션 디자인에 적용하기 위한 인간의 무의식적인 행동에 관한 연구. 한국HCI학회 학술대회, 456-459.
  17. 양오석, 한재훈 (2019). 강원경제 핵심 산업별 블록체인 기술도입에 관한 주요 토픽: 빅데이터 머신 러닝 기반 토픽 모델링 및 토픽 네트워크 분석. 전문경영인연구, 22(4), 307-334.
  18. 우교혜, 박윤서, 김용식 (2016). 구전정보 채널유형이 소비자 제품태도에 미치는 영향. 한국콘텐츠학회논문지, 16(12), 707-723. https://doi.org/10.5392/JKCA.2016.16.12.707
  19. 우다해, 최민영 (2014). 사용자 경험디자인을 위한 습관 행동분석 방법에 대한 연구. 디지털디자인학연구, 14(2), 191-200. https://doi.org/10.17280/JDD.2014.14.2.019
  20. 윤상혁, 이소현, 김희웅 (2019). 머신러닝 기반의 디지털방송 프로그램 유형 분류 및 활용 방안 연구. 지식경영연구, 20(3), 119-137. https://doi.org/10.15813/kmr.2019.20.3.008
  21. 윤지현, 곽기영 (2014). 기업SNS사용이 직무성과에 미치는 영향: 제너러티비티역량의 매개효과를 중심으로. 지식경영 학술심포지움, (1), 235-260.
  22. 이군희, 유영범, 하승인 (2017). 개인신용평가 모형을 위한 딥러닝 활용에 대한 연구. 한국경영과학회 학술대회논문집, 4042-4047.
  23. 이동우, 황요섭, 민진영 (2019). C2C 중고거래 환경에서의 사기 게시물 탐지 모델에 관한 연구. 한국경영정보학회 학술대회, 189-193.
  24. 이은정, 조희숙, 송영수 (2020). 랜덤 포레스트를 활용한 대졸 신입사원 조기이직 예측 결정요인 탐색. 기업교육과 인재연구, 22(1), 163-194.
  25. 이종화 (2018). Python을 이용한 SNS 크롤링 시스템 구축1. 한국산업정보학회논문지, 23(5), 61-76. https://doi.org/10.9723/JKSIIS.2018.23.5.061
  26. 임문영, 박승범 (2019). 데이터 마이닝을 활용한 가짜뉴스의 선제적 대응을 위한 연구: M 온라인 커뮤니티 게시물을 중심으로. 한국IT서비스학회지, 18(1), 219-234. https://doi.org/10.9716/kits.2019.18.1.219
  27. 임현아, 최재원, 이홍주 (2019). 텍스트 분석을 통한 제품분류 체계 수립방안: 관광분야 App을 중심으로. 지식경영연구, 20(3), 139-154. https://doi.org/10.15813/kmr.2019.20.3.009
  28. 조진완, 이종호 (2008). 포털사이트 블로그 서비스의 성공요인 연구-네이버 사례를 중심으로. 전자상거래학회지, 9(2), 79-95.
  29. 최진우, 전성환, 김상엽, 강인혜, 이중건, 조성준 (2019). 공공데이터를 활용한 머신러닝 기반 상업용 건물 가격 추정. 한국경영과학회 학술대회논문집, 2635-2652.
  30. Heydari, A., Tavakoli, M. A., Salim, N., & Heydari, Z. (2015). Detection of review spam: A survey. Expert Systems with Applications, 42(7), 3634-3642. https://doi.org/10.1016/j.eswa.2014.12.029
  31. Jindal, N., & Liu, B. (2008). Opinion spam and analysis. Proceedings of the 2008 International Conference on Web Search and Data Mining, Palo Alto, California, USA, ACM, 219-230.
  32. Leung, K. H., Mo, D. Y., Ho, G. T. S., Wu, C. H., & Huang, G. Q. (2020). Modelling near-real-time order arrival demand in e-commerce context: A machine learning predictive methodology. Industrial Management & Data Systems, 120(6), 1149-1174. https://doi.org/10.1108/IMDS-12-2019-0646
  33. Mukherjee, A., Liu, B., & Glance, N. (2012). Spotting fake reviewer groups in consumer reviews. Proceedings of the 21st International Conference World Wide Web, 191-200.
  34. Simester, D., Timoshenko, A., & Zoumpoulis, S. I. (2020). Targeting prospective customers: Robustness of machine-learning methods to typical data challenges. Management Science, 66(6), 2495-2522. https://doi.org/10.1287/mnsc.2019.3308
  35. Watson, J. B. (1913). Psychology as the behaviorist views it. Psychological Review, 20(2), 158-177. https://doi.org/10.1037/h0074428
  36. 조성원 (2020, 2월 18일). 구충제 항암치료, 무모한 선택일까. SBS뉴스, https://news.sbs.co.kr/news/endPage.do?news_id=N1005651856&plink=ORI&cooper=DAUM
  37. 김대근 (2020, 2월 3일). 신종 코로나 바이러스 '가짜뉴스' 강경 대응! YTN뉴스, https://www.ytn.co.kr/_ln/0103_202002030510205014
  38. 공정거래위원회 (2016). 추천.보증 등에 관한 표시.광고 심사지침. Retrieved from http://www.law.go.kr/행정규칙/추천.보증등에관한표시.광고심사지침/