DOI QR코드

DOI QR Code

A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis

토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구

  • 강현아 (고려대학교 빅데이터융합학과) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Received : 2021.02.24
  • Accepted : 2021.03.26
  • Published : 2021.06.30

Abstract

Recent advances in the 4th Industrial Revolution have accelerated the change of the shopping behavior from offline to online. Search queries show customers' information needs most intensively in online shopping. However, there are not many search query research in the field of search, and most of the prior research in the field of search query research has been studied on a limited topic and data-based basis based on researchers' qualitative judgment. To this end, this study defines the type of search query with data-based quantitative methodology by applying machine learning to search research query field to define the 15 topics of search query by conducting topic modeling based on search query and clicked document information. Furthermore, we present a new classification system of new search query types representing searching behavior characteristics by extracting key variables through principal component analysis and analyzing. The results of this study are expected to contribute to the establishment of effective search services and the development of search systems.

4차 산업 혁명 시대의 도래에 따라 쇼핑의 행태는 더욱 빠르게 오프라인에서 온라인으로 이동하고 있다. 온라인 쇼핑에서 고객의 정보요구를 가장 집약적으로 보여주는 것이 바로 검색 질의이다. 하지만 검색 분야에서도 검색 질의 관련 연구 사례는 많지 않으며 대부분의 검색 질의 연구 분야 선행 연구들은 연구자의 정성적인 판단에 근거하여 제한적인 주제와 데이터 기반으로 연구되어 왔다. 이에 본 연구는 검색 질의 연구 분야에 기계학습을 적용하여 검색 질의와 검색 이후 이용자가 조회한 문서명 로그를 기반으로 토픽모델링 수행 후 검색 질의 주제를 정의함으로써 데이터 기반의 정량적 방법론으로 15개의 검색 질의 주제 유형을 정의하였다. 또한 기존 검색어 자체만을 보고 판단하던 주제 유형에서 나아가 검색 행동특성을 반영한 유형을 정의하기 위하여 주성분 분석을 통해 주요 변수를 추출 후 각 주제별 검색 행동특성을 분석함으로써 검색 탐색 활성도, 상품 관여도에 따른 4가지의 새로운 검색 질의 유형 분류체계를 제시하였다. 본 연구결과는 효과적인 검색서비스 구축 및 검색 시스템 개발에 기여할 것으로 기대된다.

Keywords

References

  1. H. I. Kwon, B. H. Baek, Y. J. Ahn, and J. H. Lee, "A Study on the Development Strategies for e-commerce Innovation," Journal of the Korea Contents Association, Vol.20, No.1, pp.217-232, 2020. https://doi.org/10.5392/JKCA.2020.20.01.217
  2. C. Silverstein, H. Marais, M. Henzinger, and M. Moricz, "Analysis of a very large web search engine query log," SIGIR Forum (ACM Special Interest Group on Information Retrieval), Vol.33, No.1, pp.6-12, 1999.
  3. A. Spink, D. Wolfram, B. J. Jansen, and T. Saracevic, "Searching the web: The public and their queries," Journal of the American Society for Information Science and Technology, Vol.52, No.3, pp.226-234, 2001. https://doi.org/10.1002/1097-4571(2000)9999:9999<::AID-ASI1591>3.0.CO;2-R
  4. A. Spink, B. J. Jansen, D. Wolfram, and T. Saracevic, "From e-sex to e-commerce: Web search changes," IEEE Computer, Vol.35, No.3, pp.133-135, 2002. https://doi.org/10.1109/2.976928
  5. B. J. Jansen, A. Spink, and J. Pedersen, "A temporal comparison of Alta Vista web searching," Journal of the American Society for Information Science and Technology, Vol.56, No.6, pp.559-570, 2005. https://doi.org/10.1002/asi.20145
  6. NCM. Ross and D. Wolfram, "End user searching on the Internet: An analysis of term pair topics submitted to the Excite search engine," Journal of the American Society for Information Science and Technology, Vol.51, No.10, pp.949-958, 2000. https://doi.org/10.1002/1097-4571(2000)51:10<949::AID-ASI70>3.0.CO;2-5
  7. S. Y. Park, J. H. Lee, and J. S. Kim, "Analysis of Query Types and Topics Submitted to Naver," Journal of the Korea Society for Library and Information Science, Vol.39, No.1, pp.265-278, 2005. https://doi.org/10.4275/KSLIS.2005.39.1.265
  8. S. Y. Bong and K. B. Hwang, "Applying Labeled LDA to Author Keywirds Recommendation," in Proceedings of KIISE Spring Conference, pp.385-389, 2010.
  9. D. Newman, J. H. Lau, K. Grieser, and T. Baldwin, "Automatic evaluation of topic coherence," in Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp.100-108, 2010.
  10. H. Hotelling, "Analysis of a complex of statistical variables into principal components," Journal of Educational Psychology, Vol.24, No.6, pp.417-441, 1933. https://doi.org/10.1037/h0071325