• 제목/요약/키워드: intelligent system

검색결과 9,804건 처리시간 0.035초

키워드검색광고 포트폴리오 구성을 위한 통계적 최적화 모델에 대한 실증분석 (An Empirical Study on Statistical Optimization Model for the Portfolio Construction of Sponsored Search Advertising(SSA))

  • 양홍규;홍준석;김우주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.167-194
    • /
    • 2019
  • 본 논문은 키워드검색광고와 관련하여 의사결정자인 광고주의 입장에서 분석한 통계모델 기반 검색엔진최적화(Search Engine Optimization)논문이다. 일반적으로 키워드입찰은 노출순위를 대상으로 하는 입찰가액에 의해 이루어지고 있다. 그런데, 대부분 광고주는 수천 개 이상의 많은 키워드를 관리함에 있어, 매시간적으로 바뀌는 키워드별 입찰가액을 통해 입찰광고시스템을 관리하고 있는데, 사실상 시간과 인력자원측면에서 비효율적이다. 따라서, 본 논문에서는 기존의 입찰가액을 중심으로 하는 입찰시스템에 대해 의문점을 제기하고, 새로운 관점에서 노출순위를 의사결정변수로 하는 새로운 검색광고모델을 재정의하여 제시하였다. 새로운 검색광고모델에 대한 최적화실증분석을 위해 예측모델과 최적화모델을 제시하였다. 연구과정은 우선 키워드의 특성에 따라 키워드그룹을 원천 제조브랜드 유통브랜드의 범주화기준을 제시한 후, PC 와 모바일 매체별로 대표 키워드 선정한 후 노출순위와 클릭률이 비선형분포임을 보였고, 통계적 관계를 검토하였다. 클릭률예측 및 입찰가액예측을 위한 통계적 시나리오를 제시하였고, 적합성 분석을 통해 최적의 예측모델을 선정한 후, 선정된 예측모델을 기반으로 하여 클릭률과 기대이익(전환율)에 관한 최적화목적함수를 정의하고 실증분석을 진행하였다. 분석결과, 본 논문에서 제시한 검색광고모델은 클릭률 기반의 클릭수와 전환율 기반의 기대이익으로 표현되는 최적화모델 모두에서 개선효과가 있음을 확인하였다. 다만, 기대이익 최적화모델의 경우에는 핵심키워드임에도 불구하고 기대이익이 낮아 광고에서 배제되는 문제를 있음을 확인하고 대안을 제시했다. 마코브체인분석을 통해 핵심 경유키워드 개념을 도입하였고, 최적화목적함수에 대해 핵심경유키워드의 기회이익을 반영한 최적화수정모델을 제시하여 적용가능성을 확인하였다. 본 논문은 키워드입찰시스템의 의사결정변수를 노출순위의 관점으로 전환하는 새로운 모델을 제안하였고, 키워드 범주별 및 노출순위 기반의 통계적 예측을 제시하고, 포트폴리오 구성에서의 최적화실증분석을 통해 노출순위 기반 예측모델의 유효성을 확인함과 동시에, 키워드간의 확산효과를 포함하는 수정모델제시 등 전략적인 입찰을 제안한 점에 시사점이 있다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

온라인 쇼핑에서 웹루밍으로의 쇼핑전환 의도에 영향을 미치는 요인에 대한 연구 (An Empirical Study on Influencing Factors of Switching Intention from Online Shopping to Webrooming)

  • 최현승;양성병
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.19-41
    • /
    • 2016
  • 정보통신기술의 발전과 모바일 기기 사용의 생활화로 인해 최근 많은 소비자들이 멀티채널 쇼핑(multi-channel shopping)이라는 새로운 쇼핑 행태를 보이고 있다. 온라인 쇼핑이 등장한 이후, 온라인 매장에서 상품을 구매하기 전 오프라인 매장에서 상품을 먼저 확인하는 쇼루밍(showrooming) 형태의 멀티채널 쇼핑이 한 때 대세를 이루었으나, 최근에는 스마트폰, 태블릿 PC, 스마트워치 등 스마트 기기 사용의 폭발적 증가와 옴니채널(omni-channel) 전략으로 대표되는 오프라인 채널의 대대적 반격으로 인해 오프라인 매장에서 상품을 구매하기 전 온라인(혹은 모바일)으로 정보를 먼저 확인하는 웹루밍(webrooming) 현상이 도드라지게 나타나 온라인 소매업자를 위협하고 있다. 이러한 상황에서 소비자의 온라인 쇼핑에서 웹루밍으로의 쇼핑전환 의도에 영향을 미치는 요인을 분석하는 것이 의미가 있음에도 불구하고, 기존 대부분의 선행연구는 싱글채널(single-channel) 혹은 멀티채널 쇼핑 자체에만 초점을 맞추고 있다. 이에, 본 연구에서는 밀고-당기기-이주이론(push-pull-mooring theory)을 바탕으로 소비자의 온라인 채널 쇼핑이 웹루밍 형태의 쇼핑으로 전환되는 과정을 상품정보 탐색과 구매행위로 각각 구분하여 그 영향을 실증하였다. 연구모형을 검증하기 위하여, 웹루밍 경험이 있는 수도권 소재 대학생을 대상으로 280개의 설문 표본을 수집하였다. 본 연구의 결과는 현업 마케팅 종사자에게 멀티채널 소비자들을 관리하는 데 있어 실무적인 시사점을 제공함과 동시에, 향후 다양한 형태의 멀티채널 쇼핑전환 연구로의 확장에 기여할 수 있을 것으로 기대한다.

가상현실 웨어러블 기기의 구매 촉진을 위한 태도 자신감과 사용자 저항 태도: 가상현실 헤드기어를 중심으로 (Attitude Confidence and User Resistance for Purchasing Wearable Devices on Virtual Reality: Based on Virtual Reality Headgears)

  • 손봉진;박다슬;최재원
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.165-183
    • /
    • 2016
  • 스마트폰을 넘어 차세대 IT 비즈니스의 주목할 만한 후보군으로 가상현실이 이슈가 되고 있다. 가상현실은 컴퓨터와 VR헤드셋을 통해 구현한 입체적인 가상공간을 제공함으로써 사용자의 시각을 완전히 장악하고, 청각, 촉각 등 오감과의 상호작용 및 음성, 동작인식 등을 통해 가상공간을 마치 현실처럼 느끼게 한다는 점에서 향후 주목할 만한 산업 분야로 떠오르고 있다. 많은 글로벌 대기업들이 가상현실과 관련한 사업에 투자를 하고 있으나 소비자의 관점에서 가상현실 관련 제품군은 아직 쉽게 접하거나 구매하기 어려운 제품군으로 인식된다. 그렇기 때문에 소비자의 태도 변화가 큰 변화가 발생되고 있지 않으며 Acception & Diffusion 모델의 초기단계에 지나지 않아 구매로 연결되지 않는 실정이다. 본 연구는 기존 선행연구의 관점을 바탕으로 가상현실 헤드기어 제품들의 판매 촉진을 위한 사용자 관점에서의 사용자 저항을 매개 변수로 저항을 감소시키고 사용 및 구매의도에 영향을 주는 선행요인들을 도출하고자 하였으며 사용자가 가지고 있는 태도에 대한 자신감에 영향을 주어 행동 의도까지 변화시키는 현상에 대한 분석을 하고자 하였다. 본 연구의 결과는 태도 자신감에 대한 사용 용이성과 사용 혁신성의 영향력을 확인할 수 있었다. 마찬가지로 사용자 혁신저항에 영향력을 주는 변수로는 가격, 심미적 외관, 즐거움, 콘텐츠 및 화질 관련 변수들을 도출하였다. 결과적으로 본 연구는 태도 자신감의 가상현실 혁신 수용에 대한 영향력을 제시하고 가격 이외 변수인 콘텐츠의 양과 저항감의 관계성을 바탕으로 관련 변수들을 제시하였다. 특히 초기 시장인 가상현실 제품의 특성에 따라 브랜드에 대한 선점효과의 필요성과 콘텐츠의 부족함 등이 실무적으로 해결해야 할 과제로서 확인되었다.

국내 주요 10대 기업에 대한 국민 감성 분석: 다범주 감성사전을 활용한 빅 데이터 접근법 (Public Sentiment Analysis of Korean Top-10 Companies: Big Data Approach Using Multi-categorical Sentiment Lexicon)

  • 김서인;김동성;김종우
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.45-69
    • /
    • 2016
  • 최근에 빅 데이터를 활용하여 감성을 측정하는 시도가 활발히 이루어지고 있다. 통신 매체와 SNS의 발달로 기업은 국민의 감성을 파악하고 즉시 대응해야할 필요성이 생겼다. 우리나라의 경제는 대기업에 대한 의존도가 높기 때문에 10대 기업에 대한 감성분석은 의미가 있다고 할 수 있다. 이러한 측면에서 본 연구는 다 범주를 기준으로 구축한 감성사전을 활용하여 우리나라 10대 기업에 대한 감성을 분석하였다. 빅 데이터를 이용하여 감성을 분석한 기존의 선행연구는 감성을 차원으로 분류하는 경향이 있다. 차원적 감성으로 감성을 분류하는 것은 분류의 기준이 학술적으로 증명되었기에 감성 분석에 주로 사용되어 왔지만 전문가 정도의 지식이 있어야 분류할 수 있어 보편적인 감성을 대변하는 데 비효과적이기에 보완이 필요하다고 할 수 있다. 개별 범주적 감성은 이 점을 보완할 수 있는 분류 방식으로 일정 수준의 주관성이 개입되지만 보편적으로 느낄 수 있는 감성을 측정하는데 효과적이다. 따라서 본 연구는 보편적인 감성의 측정을 위해 감성을 차원으로 분류하지 않고 개별 범주로 분류하여 9가지 영역으로 나누었다. 선행 연구에서 추출한 9가지 범주에 해당하는 감성 단어에 기초하여 감성사전을 구축하였으며 감성 단어가 검출된 빈도를 기준으로 감성을 분석했다. 대상 데이터는 2014년 1월부터 2016년 1월까지 우리나라 10대 기업에 대하여 축적된 뉴스 데이터이다. 대상 데이터에서 검출된 감성 단어의 빈도를 기준으로 각 기업에 대한 감성 순위를 나누고 분포를 확인하였다. 기업에 따라서 감성이 다를 수 있는지, 특정 사건이 각 기업에 대한 감성에 영향을 줄 수 있는지 가설을 세우고 검정하였다. 결론적으로, 다 범주 감성 사전을 활용한 감성 분석은 기업 간 비교와 시점 간 비교에 유의한 것으로 나타났다. 본 연구는 빅 데이터에 산재해있는 감성을 국민의 시각으로 측정하는 하나의 대안으로서 의의가 있다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 (Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site)

  • 변성호;이동훈;김남규
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.23-43
    • /
    • 2016
  • 최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.