DOI QR코드

DOI QR Code

Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발

  • Choi, Youji (Graduate School of Business IT, Kookmin University) ;
  • Park, Do-Hyung (College of Business Administration/ Graduate School of Business IT, Kookmin University)
  • 최유지 (국민대학교 비즈니스IT전문대학원) ;
  • 박도형 (국민대학교 경영대학/비즈니스IT전문대학원)
  • Received : 2016.09.01
  • Accepted : 2017.06.28
  • Published : 2017.09.30

Abstract

As social data become into the spotlight, mainstream web search engines provide data indicate how many people searched specific keyword: Web Search Traffic data. Web search traffic information is collection of each crowd that search for specific keyword. In a various area, web search traffic can be used as one of useful variables that represent the attention of common users on specific interests. A lot of studies uses web search traffic data to nowcast or forecast social phenomenon such as epidemic prediction, consumer pattern analysis, product life cycle, financial invest modeling and so on. Also web search traffic data have begun to be applied to predict tourist inbound. Proper demand prediction is needed because tourism is high value-added industry as increasing employment and foreign exchange. Among those tourists, especially Chinese tourists: Youke is continuously growing nowadays, Youke has been largest tourist inbound of Korea tourism for many years and tourism profits per one Youke as well. It is important that research into proper demand prediction approaches of Youke in both public and private sector. Accurate tourism demands prediction is important to efficient decision making in a limited resource. This study suggests improved model that reflects latest issue of society by presented the attention from group of individual. Trip abroad is generally high-involvement activity so that potential tourists likely deep into searching for information about their own trip. Web search traffic data presents tourists' attention in the process of preparation their journey instantaneous and dynamic way. So that this study attempted select key words that potential Chinese tourists likely searched out internet. Baidu-Chinese biggest web search engine that share over 80%- provides users with accessing to web search traffic data. Qualitative interview with potential tourists helps us to understand the information search behavior before a trip and identify the keywords for this study. Selected key words of web search traffic are categorized by how much directly related to "Korean Tourism" in a three levels. Classifying categories helps to find out which keyword can explain Youke inbound demands from close one to far one as distance of category. Web search traffic data of each key words gathered by web crawler developed to crawling web search data onto Baidu Index. Using automatically gathered variable data, linear model is designed by multiple regression analysis for suitable for operational application of decision and policy making because of easiness to explanation about variables' effective relationship. After regression linear models have composed, comparing with model composed traditional variables and model additional input web search traffic data variables to traditional model has conducted by significance and R squared. after comparing performance of models, final model is composed. Final regression model has improved explanation and advantage of real-time immediacy and convenience than traditional model. Furthermore, this study demonstrates system intuitively visualized to general use -Youke Mining solution has several functions of tourist decision making including embed final regression model. Youke Mining solution has algorithm based on data science and well-designed simple interface. In the end this research suggests three significant meanings on theoretical, practical and political aspects. Theoretically, Youke Mining system and the model in this research are the first step on the Youke inbound prediction using interactive and instant variable: web search traffic information represents tourists' attention while prepare their trip. Baidu web search traffic data has more than 80% of web search engine market. Practically, Baidu data could represent attention of the potential tourists who prepare their own tour as real-time. Finally, in political way, designed Chinese tourist demands prediction model based on web search traffic can be used to tourism decision making for efficient managing of resource and optimizing opportunity for successful policy.

최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

Keywords

References

  1. Ahn. Y., D.-H. Sohn. Y.-T. Lee and C.-K. Lee, "The Economic Impact of Tourism Industry in Korea - Input - Output Analysis," Korean Public Administration Review, Vol. 29, No. 1 (1995), 123-142.
  2. Archer, B. Sustainable Tourism: An Economist's Viewpoint, Sustainable Tourism in Islands and Small States, Pinter, London, 1996.
  3. Bae. S.-K., S.-W. Kim and H.-J. Kim, Contracting-out Recreational Facilities Service Management, Korean Contracting-out Management Institute, Seoul, 2015.
  4. Choi. H. and H. Varian, "Predicting the Present with Google Trends," Economic Record, Vol. 88, No. 1 (2012), 2-9. https://doi.org/10.1111/j.1475-4932.2012.00809.x
  5. Dharmaratne, G. S. "Forecasting Tourist Arrivals in Barbados," Annals of Tourism Research, Vol. 22, No. 4 (1995), 804-818. https://doi.org/10.1016/0160-7383(95)00022-3
  6. Ginsberg, J., M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski and L. Brilliant, "Detecting Influenza Epidemics Using Search Engine Query Data," Nature, Vol. 457, No. 7232 (2009), 1012-1014. https://doi.org/10.1038/nature07634
  7. Jang, B,-K. "China Outbound Market Trend and Strategies for Tour Competitiveness Enhancement," Korea Tourism Policy, Vol. 62 (2015), 10-21.
  8. Jeong E.-S., T. Liu. and S.-H. Cho, "Demand Forecasting of Inbound Tourism Revenues in China," Journal of Hotel Resort, Vol. 12, No. 1 (2013), 135-157.
  9. Jun, S.-P., D. Choi, H.-W. Park, B.-G. Seo and D.-H. Park, "Development of Systematic Process for Estimating Commercialization Duration and Cost of R&D Performance," Journal of Intelligence and Information Systems, Vol. 23, No. 2 (2017), 139-160. https://doi.org/10.13088/jiis.2017.23.2.139
  10. Jun, S.-P. and D.-H. Park, "Visualization of Brand Positioning Based on Consumer Web Search Information: Using Social Network Analysis," Internet Research, Vol. 27, No. 2 (2017), 381-407. https://doi.org/10.1108/IntR-02-2016-0037
  11. Jun, S.-P. and D.-H. Park, "Consumer Information Search Behavior and Purchasing Decisions: Empirical Evidence from Korea," Technological Forecasting and Social Change, Vol. 107 (2016), 97-111. https://doi.org/10.1016/j.techfore.2016.03.021
  12. Jun, S.-P., D.-H. Park and J. Yeom, "The Possibility of Using Search Traffic Information to Explore Consumer Product Attitudes and Forecast Consumer Preference," Technological Forecasting and Social Change, Vol. 86 (2014), 237-253. https://doi.org/10.1016/j.techfore.2013.10.021
  13. Jun, S.-P. and D.-H. Park, "Intelligent Brand Positioning Visualization System Based on Web Search Traffic Information : Focusing on Tablet PC," Journal of Intelligence and Information Systems, Vol. 19, No. 3 (2013), 93-111. https://doi.org/10.13088/jiis.2013.19.3.093
  14. Kang, T. and D.-H. Park, "The Effect of Expert Reviews on Consumer Product Evaluations : A Text Mining Approach," Journal of Intelligence and Information Systems, Vol. 22, No. 1 (2016), 63-82. https://doi.org/10.13088/jiis.2016.22.1.063
  15. Kim, B., Y. Choi and D.-H. Park, "Investment Model Development Based on Web-search Traffic Information: Focusing on KOSPI Index," Entrue Journal of Information Technology, Vol. 14, No. 3 (2015), 63-81.
  16. Koo, P. and M. Kim, "A Study on the Relationship between Internet Search Trends and Company's Stock Price and Trading Volume," The Journal of Society for e-Business Studies, Vol. 20, No. 2 (2015), 1-14.
  17. Kwahk, K.-Y. and D.-H. Park, "The Effects of Network Sharing on Knowledge-sharing Activities and Job Performance in Enterprise Social Media Environments," Computers in Human Behavior, Vol. 55 (2016), 826-839. https://doi.org/10.1016/j.chb.2015.09.044
  18. Lazer, D., R. Kennedy, G. King and A. Vespignani, "The Parable of Google Flu: Traps in Big Data Analysis," Science, Vol. 343, No. 6176 (2014), 1203-1205. https://doi.org/10.1126/science.1248506
  19. Lee C.-K., K.-S. Song and H.-J. Song, "Determinants of Bi-national Tourism Demand from Japan to Korea: Using Econometric Models," Journal of Tourism & Leisure Research, Vol. 18, No. 4 (2006), 7-25.
  20. Lee, D., T. Kang and D.-H. Park, "The Research on PC-based Versus Mobile Device-based Shopping Behavior Depending on Consumer Purchase Decision Process: Focusing on Task-Technology Fit Theory," Entrue Journal of Information Technology, Vol. 13, No. 3 (2014), 107-122.
  21. Lee D.-S. and S.-J. Jung, "An Analysis on Appropriateness of Performance Indicators in the Certification System for Good Travel Program," Proceeding of 55th International Tourism Conference (2004), 491-500.
  22. Lui, C., P.T. Metaxas and E. Mustafaraj, "On the Predictability of the US Elections through Search Volume Activity," Proceedings of the IADIS International Conference on e-Society (2011).
  23. Park. D.-H. and M.-S. Lee, "Development of Forecasting Model for Travel Demand Using Web Search Traffic Information: Focusing on Major Cities in Gangwon-do," Gang-won Economy Brief, Vol. 2 (2015), 515-542.
  24. Park, D.-H. and S. Kim, "The Effects of Consumer Knowledge on Message Processing of Electronic Word-of-mouth via Online Consumer Reviews," Electronic Commerce Research and Applications, Vol. 7, No. 4 (2008), 399-410. https://doi.org/10.1016/j.elerap.2007.12.001
  25. Park, D.-H. and J. Lee, "eWOM Overload and its Effect on Consumer Behavioral Intention Depending on Consumer Involvement," Electronic Commerce Research and Applications, Vol. 7, No. 4 (2008), 386-398. https://doi.org/10.1016/j.elerap.2007.11.004
  26. Park, D.-H., J. Lee and I. Han, "The Effect of On-line Consumer Reviews on Consumer Purchasing Intention: The Moderating Role of Involvement," International Journal of Electronic Commerce, Vol. 11, No. 4 (2007), 125-148. https://doi.org/10.2753/JEC1086-4415110405
  27. Park, S.-B. and D.H. Park, "The Effect of Lowversus High-variance in Product Reviews on Product Evaluation," Psychology & Marketing, Vol. 30, No. 7 (2013), 543-554. https://doi.org/10.1002/mar.20626
  28. Seo, B.-G. and D.-H. Park, "Development on Early Warning System about Technology Leakage of Small and Medium Enterprises," Journal of Intelligence and Information Systems, Vol. 23, No. 1 (2017), 143-159. https://doi.org/10.13088/jiis.2017.23.1.143
  29. Sheldon, P.J. and T. Var, "Tourism Forecasting: A Review of Empirical Research," Journal of Forecasting, Vol. 4, No. 2 (1985), 183-195. https://doi.org/10.1002/for.3980040207
  30. Song. J.H. and H.J. Huh, "Destination Repositioning of Jeju Island Resort: Comparison with Other Domestic Competitive Ones," Journal of Tourism Sciences, Vol. 27, No. 3 (2003), 9-24.
  31. Uysal, M. and J.L. Crompton, "An Overview of Approaches Used to Forecast Tourism Demand," Journal of Travel Research, Vol. 23, No. 4 (1985), 7-15. https://doi.org/10.1177/004728758502300402
  32. Vosen, S. and T. Schmidt, "Forecasting Private Consumption: Survey-Based Indicators vs. Google Trends," Journal of Forecasting, Vol. 3, No. 6 (2011), 565-578.
  33. Witt, S.F. and C.A. Witt, Modeling and Forecasting Demand in Tourism, Academic Press Ltd, London, 1992.

Cited by

  1. 중소기업 프로파일링 분석을 통한 기술유출 방지 및 보호 모형 연구 vol.27, pp.1, 2017, https://doi.org/10.5859/kais.2018.27.1.171