• 제목/요약/키워드: practical intelligence

검색결과 509건 처리시간 0.025초

키워드검색광고 포트폴리오 구성을 위한 통계적 최적화 모델에 대한 실증분석 (An Empirical Study on Statistical Optimization Model for the Portfolio Construction of Sponsored Search Advertising(SSA))

  • 양홍규;홍준석;김우주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.167-194
    • /
    • 2019
  • 본 논문은 키워드검색광고와 관련하여 의사결정자인 광고주의 입장에서 분석한 통계모델 기반 검색엔진최적화(Search Engine Optimization)논문이다. 일반적으로 키워드입찰은 노출순위를 대상으로 하는 입찰가액에 의해 이루어지고 있다. 그런데, 대부분 광고주는 수천 개 이상의 많은 키워드를 관리함에 있어, 매시간적으로 바뀌는 키워드별 입찰가액을 통해 입찰광고시스템을 관리하고 있는데, 사실상 시간과 인력자원측면에서 비효율적이다. 따라서, 본 논문에서는 기존의 입찰가액을 중심으로 하는 입찰시스템에 대해 의문점을 제기하고, 새로운 관점에서 노출순위를 의사결정변수로 하는 새로운 검색광고모델을 재정의하여 제시하였다. 새로운 검색광고모델에 대한 최적화실증분석을 위해 예측모델과 최적화모델을 제시하였다. 연구과정은 우선 키워드의 특성에 따라 키워드그룹을 원천 제조브랜드 유통브랜드의 범주화기준을 제시한 후, PC 와 모바일 매체별로 대표 키워드 선정한 후 노출순위와 클릭률이 비선형분포임을 보였고, 통계적 관계를 검토하였다. 클릭률예측 및 입찰가액예측을 위한 통계적 시나리오를 제시하였고, 적합성 분석을 통해 최적의 예측모델을 선정한 후, 선정된 예측모델을 기반으로 하여 클릭률과 기대이익(전환율)에 관한 최적화목적함수를 정의하고 실증분석을 진행하였다. 분석결과, 본 논문에서 제시한 검색광고모델은 클릭률 기반의 클릭수와 전환율 기반의 기대이익으로 표현되는 최적화모델 모두에서 개선효과가 있음을 확인하였다. 다만, 기대이익 최적화모델의 경우에는 핵심키워드임에도 불구하고 기대이익이 낮아 광고에서 배제되는 문제를 있음을 확인하고 대안을 제시했다. 마코브체인분석을 통해 핵심 경유키워드 개념을 도입하였고, 최적화목적함수에 대해 핵심경유키워드의 기회이익을 반영한 최적화수정모델을 제시하여 적용가능성을 확인하였다. 본 논문은 키워드입찰시스템의 의사결정변수를 노출순위의 관점으로 전환하는 새로운 모델을 제안하였고, 키워드 범주별 및 노출순위 기반의 통계적 예측을 제시하고, 포트폴리오 구성에서의 최적화실증분석을 통해 노출순위 기반 예측모델의 유효성을 확인함과 동시에, 키워드간의 확산효과를 포함하는 수정모델제시 등 전략적인 입찰을 제안한 점에 시사점이 있다.

K-Beauty 구전효과가 온라인 매출액에 미치는 영향: 중국 SINA Weibo와 Meipai 중심으로 (Word-of-Mouth Effect for Online Sales of K-Beauty Products: Centered on China SINA Weibo and Meipai)

  • 류미나;임규건
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.197-218
    • /
    • 2019
  • 중국 화장품 전체 교역중 약 67% 정도가 전자상거래로 이루어지고 있는데 특히 한국 화장품인 K-Beauty 제품의 인기가 높다. 기존 연구에 의하면 화장품 같은 소비재의 경우 소비자의 80%는 제품 구매 전 제품정보를 인터넷으로 검색하며 구전정보에 영향을 받는다. 대부분의 중국 소비자들은 화장품과 관련된 정보를 주요 SNS에 다른 소비자들이 올린 댓글을 통해 획득하며 최근에는 뷰티 관련 동영상 채널 정보를 이용하기도 한다. 기존의 온라인 구전 관련 연구는 대부분 Facebook, Twitter, 블로그 등의 매체 자체가 중심이었다. 본 연구에서는 온라인 구전정보의 전달 형태와 정보의 형태를 고려하여 정보유형을 동영상과 사진 및 텍스트로 나누어 연구하고자 한다. 중국의 SNS대표 플랫폼인 SINA Weibo와 동영상 플랫폼 Meipai의 비정형 데이터를 분석하고 온라인 구전정보를 양과 방향성으로 나누어 K-Beauty브랜드 매출액에 미치는 영향을 분석하고자 한다. Meipai에서는 총 약 33만개의 데이터를 수집하였고 SINA Weibo에서는 총 약 11만개의 데이터를 수집하여 화장품의 기본 속성도 고려하여 분석하였다. 본 연구의 의의는 온라인 매출은 K-Beauty화장품에 대해서도 구전에 영향을 받는다는 것을 기본적으로 입증함과 동시에 특히 정보 유형에 대한 구분을 시도 했다는 것이다. 두가지 매체 모두 기존 연구와 같이 양이 매출에 영향을 미치고 있으나 매체풍부성으로 인해 텍스트보다 동영상이 정보를 더 주고 영향이 크다는 것을 입증하였다. 또한, 정보 방향성 측면에서는 색조화장품의 경우 부정 댓글의 영향이 크게 나타났다. 실무적으로는 화장품 판매 전략 및 광고 전략에 기초 및 색조 화장품을 구분하여 중국 K-Beauty화장품 매출증대를 위한 마케팅전략을 구사하는데 도움이 될 것으로 기대된다.

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.

대학생의 학창경험이 사회 진출에 미치는 영향: 대학생활 활동 로그분석을 중심으로 (School Experiences and the Next Gate Path : An analysis of Univ. Student activity log)

  • 이은주;박도형
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.149-171
    • /
    • 2020
  • 대학생 시기는 실질적으로 직업선택을 해야 하는 시기이다. 우리 사회가 빠르게 고도로 발달하는 만큼, 직업은 다양화, 세분화, 전문화되어 대학생들의 취업 준비기간은 또한 갈수록 길어지고 있다. 본 연구는 대학생들이 학교 내외에서 하는 경험하는 다양한 활동들이 취업에 어떤 영향이 있을지 대학생들의 로그데이터를 중심으로 분석해 보았다. 실험을 위하여 학생들의 다양한 활동을 체계적으로 분류하고 활동 데이터를 6개의 핵심역량(직무전문성강화 역량, 리더십 및 팀웍 역량, 세계화 역량, 직무몰입 역량, 직업탐색 역량, 자율이행역량)으로 구분하였고, 여기서 구분된 6개의 역량 값이 취업여부(취업그룹, 미취업그룹)에 미치는 영향을 분석하였다. 분석 결과 6개의 역량 모두 취업집단과 미취업집단의 수준차이가 유의한 것을 확인할 수 있어 학교에서의 활동은 취업에 유의미함을 유추할 수 있었다. 다음으로 6개의 역량이 취업의 질적성과에 미치는 영향을 분석하기 위하여 6개의 역량수준을 상·하로 나누고, 첫연봉액을 기준으로 6개의 그룹을 만든 후 관계를 확인해 보았는데, 그 결과 6개의 역량 중 세계화역량, 직업탐색역량, 자율이행역량 수준이 높은 학생이 연봉을 기준으로 한 취업성과 또한 높은 것으로 확인되었다. 본 연구의 이론적 공헌은 다음과 같다. 첫 번째, 학창경험으로부터 추출할 수 있는 역량을 인사조직관리분야의 역량과 연결하며, 개인의 경력성공을 위해 대학생으로서 필요한 역량을 직업탐색역량과 자율이행역량을 추가하였다는 점이다. 두 번째, 활동로그의 실데이터 기반으로 각각의 역량을 측정하고 결과변수와 검증을 한 점이다. 세 번째, 양적성과(취업률)뿐만 아니라 질적성과(연봉수준)를 분석한 점이다. 본 연구의 실무적 활용은 다음과 같다. 첫 번째, 대학생들의 경력개발계획 수립 시 가이드가 될 수 있다. 전략이 없거나 균형을 갖추지 못한 또는 과도한 스펙을 쌓기는 지양하고 직업세계와 직무에 대한 분석을 바탕으로 자신의 강점을 표현할 수 있는 취업준비가 필요하다. 두 번째, 학교와 기업, 지자체, 정부 등 대학생들을 위한 행사를 기획하는 담당자는 대학생들이 필요로 하는 경험을 설계할 본 연구에서 제시한 6대 역량을 참고할 수 있다. 이벤트의 수요자인 대학생이 필요한 역량을 키우면서 하면서 각 기관의 목적을 더할 때 수요자와 공급자 모두 만족스러운 결과를 만들 수 있다. 세 번째, 디지털 대전환 시대, 국가의 균형발전을 구상하는 정부의 정책담당자는 대학생들의 호기심과 에너지를 대학생들의 역량개발과 국가의 균형발전을 함께 성취하는 방향으로 정책을 만들 수 있다. 기존에 없던 플랫폼서비스를 시도하고, 기존의 아날로그 상품이나 서비스와 기업문화를 디지털화 하는 데에는 많은 인력이 필요하며 디지털세대인 현 대학생들의 활약은 전 산업에서 촉매가 될 뿐 아니라 성공적인 경력개발을 위한 대학생들에게도 필요한 경험이라 사료된다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

각인각색, 각봇각색: ABOT 속성과 소비자 감성 기반 소셜로봇 디자인평가 모형 개발 (Different Look, Different Feel: Social Robot Design Evaluation Model Based on ABOT Attributes and Consumer Emotions)

  • 하상집;이준식;유인진;박도형
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.55-78
    • /
    • 2021
  • 최근 인간과 상호작용할 수 있는 '소셜로봇'을 활용하여 복잡하고 다양한 사회문제를 해소하고 개인의 삶의 질을 제고하려는 시도가 주목받고 있다. 과거 로봇은 인간을 대신해서 산업 현장에 투입되고 노동력을 제공해주는 존재로 인식되었다. 그러나 오늘날의 로봇은 각종 산업분야를 관통하는 핵심 키워드인 'Smart'의 등장을 기점으로 인간과 함께 공존하며 사회적 교감이 가능한 '소셜로봇(Social Robot)'으로 그 개념이 확장되고 있다. 구체적으로 고객을 응대하는 서비스 로봇, 에듀테인먼트(Edutainment) 성격의 로봇, 그리고 인간과의 교감, 상호작용에 주목한 감성로봇 등이 출시되고 있다. 그러나 4차 산업혁명을 계기로 ICT 서비스 환경이 급격한 발전을 이룬 현재까지 소셜로봇의 대중화는 체감되지 않고 있다. 소셜로봇의 핵심 기능이 사용자와의 사회적 교감임을 고려하면, 소셜로봇의 대중화를 촉진하기 위해서는 기기에 적용되는 기술 이외의 요소들도 중요하게 고려할 필요가 있다. 본 연구는 로봇의 디자인 요소가 소셜로봇에 대한 소비자들의 구매를 이끌어내는데 중요하게 작용할 것으로 판단한다. 로봇의 외형이 유발하는 감성은 사용자의 인지, 추론, 평가와 기대를 형성하는 과정에서 중요한 영향을 미치며 나아가 로봇에 대한 태도와 호감 그리고 성능 추론 등에도 영향을 줄 수 있다. 그러나 소셜로봇에 대한 기존 연구들은 로봇의 개발방법론을 제안하거나, 소셜로봇이 사용자에게 제공하는 효과를 단편적으로 검증하는 수준에 머무르고 있다. 따라서 본 연구는 소셜로봇의 외형으로부터 사용자가 느끼는 감성이 소셜로봇에 대한 사용자의 태도에 미치는 영향을 검증해보고자 한다. 이때 서로 다른 출처의 이종 데이터 간 결합을 통하여 소셜로봇 디자인평가 모형을 구성한다. 구체적으로 소셜로봇의 외형에 대하여 사전에 구축된 ABOT Database로부터 다수의 소셜로봇에 대한 세 가지 정량적 지표 데이터를 확보하였다. 소셜로봇의 디자인 감성은 (1) 기존의 디자인평가 문헌과 (2) 소셜로봇 제품 후기와 블로그 등의 온라인 구전, (3) 소셜로봇 디자인에 대한 정성적인 인터뷰를 통해 도출하였다. 이후 사용자 설문을 통하여 각각의 소셜로봇에 대해 사용자가 느끼는 감성과 태도에 대한 평가를 수집하였다. 세부적인 감성 평가항목 23개에 대하여, 차원 축소 방법론을 통해 6개의 감성 차원을 도출하였다. 이어서 도출된 감성 차원들이 사용자의 소셜로봇에 대한 태도에 미치는 영향을 검증하기 위해 회귀분석을 수행하여 감성과 태도 간의 관계를 파악해 보았다. 마지막으로 정량적으로 수집된 소셜로봇의 외형에 대한 지표가 감성과 태도 간의 관계에 영향을 줄 수 있음을 검증하기 위해 조절회귀분석을 수행하였다. 기술적인ABOT Database 속성 지표들과 감성 차원들 간의 순수조절효과를 확인하고, 도출된 조절효과에 대한 시각화를 수행하여 외형, 감성, 그리고 태도 간의 관계를 다각적인 관점에서 해석하였다. 본 연구는 이종간 데이터를 연결하여 소셜로봇의 기술적 속성과 소비자 감성, 태도까지 변수 간 관계를 총체적으로 실증 분석했다는 점에서 이론적 공헌을 가지며, 소셜로봇 디자인 개발 전략에 대한 의사결정을 지원하기 위한 기준으로 소비자 감성의 활용 가능성을 제안하였다는 실무적 의의를 가진다.

Node2vec 그래프 임베딩과 Light GBM 링크 예측을 활용한 식음료 산업의 수출 후보국가 탐색 연구 (A Study on Searching for Export Candidate Countries of the Korean Food and Beverage Industry Using Node2vec Graph Embedding and Light GBM Link Prediction)

  • 이재성;전승표;서진이
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.73-95
    • /
    • 2021
  • 본 연구는 Node2vec 그래프 임베딩 방법과 Light GBM 링크 예측을 활용해 우리나라 식음료 산업의 미개척 수출 후보국가를 탐색한다. Node2vec은 네트워크의 공통 이웃 개수 등을 기반으로 하는 기존의 링크 예측 방법에 비해 상대적으로 취약하다고 알려져 있던 네트워크의 구조적 등위성 표현의 한계를 개선한 방법이다. 따라서 해당 방법은 네트워크의 커뮤니티 탐지와 구조적 등위성 모두에서 우수한 성능을 나타내는 것으로 알려져 있다. 이에 본 연구는 이상의 방법을 우리나라 식음료 산업의 국제 무역거래 정보에 적용했다. 이를 통해 해당 산업의 글로벌 가치사슬 관계에서 우리나라의 광범위한 마진 다각화 효과를 창출하는데 기여하고자 한다. 본 연구의 결과를 통해 도출된 최적의 예측 모델은 0.95의 정밀도와 0.79의 재현율을 기록하며 0.86의 F1 score를 기록해 우수한 성능을 나타냈다. 이상의 모델을 통해 도출한 우리나라의 잠재적 수출 후보국가들의 결과는 추가 조사를 통해 대부분 적절하게 나타난 것을 알 수 있었다. 이상의 내용을 종합하여 본 연구는 Node2vec과 Light GBM을 응용한 링크 예측 방법의 실무적 활용성에 대해 시사할 수 있었다. 그리고 모델을 학습하며 링크 예측을 보다 잘 수행할 수 있는 가중치 업데이트 전략에 대해서도 유용한 시사점을 도출할 수 있었다. 한편, 본 연구는 그래프 임베딩 기반의 링크 예측 관련 연구에서 아직까지 많이 수행된 적 없는 무역거래에 이를 적용했기에 정책적 활용성도 갖고 있다. 본 연구의 결과는 최근 미중 무역갈등이나 일본 수출 규제 등과 같은 글로벌 가치사슬의 변화에 대한 빠른 대응을 지원하며 정책적 의사결정을 위한 도구로써 충분한 유용성이 있다고 생각한다.

ERGM 기반의 모수적 및 비모수적 방법을 활용한 수출 유망국가 분석: 정보통신 및 가전 산업 사례를 중심으로 (Analysis of promising countries for export using parametric and non-parametric methods based on ERGM: Focusing on the case of information communication and home appliance industries)

  • 전승표;서진이;유재영
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.175-196
    • /
    • 2022
  • 우리나라의 주력 산업 중 하나였던 정보통신 및 가전 산업은 점차 수출 비중이 낮아지는 등 수출 경쟁력이 약화되고 있다. 본 연구는 이런 정보통신 및 가전 산업의 수출 제고를 돕기 위해서 객관적으로 수출경쟁력을 분석하고 수출 유망국가를 제시하고자 했다. 본 연구는 수출경쟁력 평가를 위해서 네트워크 분석 중 구조적 특징, 중심성 그리고 구조적 공백 분석을 수행했다. 유망 수출 국가를 선정하기 위해서는 기존에 경제적 요인 외에도 이미 형성된 글로벌 무역 네트워크(ITN) 즉 글로벌 밸류체인(GVC)의 특성을 고려할 수 있는 새로운 변수를 제안했다. 국가간 무역 네트워크 분석에서 Exponential Random Graph Model(ERGM)을 통해 도출된 개별적인 링크에 대한 조건부 로짓값(log-odds)을 수출가능성을 나타낼 수 있는 대리변수로 가정했다. 이런 ERGM의 링크 연결 가능성까지 고려해 수출 유망국가를 추천하는 데는 모수적 접근 방법과 비모수적 접근 방법을 각각 활용했다. 모수적 방법에서는 ERGM에서 도출된 네트워크의 링크별 특성값을 기존의 경제적 요인에 추가 고려하여 우리나라 정보통신 및 가전 산업 수출액을 예측하는 회귀분석 모형을 개발했다. 또한 비모수적 접근 방법에서는 클러스터링 방법을 바탕으로 한 Abnormality detection 알고리즘을 활용했는데, 2개 Peer(동배)에서 벗어난 이상값을 찾는 방법으로 수출 유망국가를 제안했다. 연구 결과에 따르면, 해당 산업 수출 네트워크의 구조적 특징은 이전성이 높은 연결망이었으며, 중심성 분석결과에 따르면 우리나라는 수출에 규모에 비해서 영향력이 약한 것으로 나타났고, 구조적 공백 분석결과에서 수출 효율성이 약한 것으로 나타났다. 본 연구가 제안한 추천모델에 따르면 모수 분석에서는 이란, 아일랜드, 북마케도니아, 앙골라, 파키스탄이 유망 수출 국가로 나타났으며, 비모수 분석에서는 카타르, 룩셈부르크, 아일랜드, 북마케도니아, 파키스탄이 유망 국가로 분석되었으며, 분석방법에 따라 추천된 국가에서는 일부 차이가 나타났다. 본 연구결과는 GVC에서 우리나라 정보통신과 가전 산업의 수출경쟁력이 수출 규모에 비해서 높지 않음을 밝혔고, 따라서 수출이 더욱 감소될 수 있음을 보였다. 또한 본 연구는 이렇게 약화된 수출경쟁력을 높일 수 있는 방안으로 다른 국가들과의 GVC 네트워크까지 고려해 수출유망 국가를 찾는 방법을 제안했다는데 의의가 있다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.