• 제목/요약/키워드: business models

검색결과 2,496건 처리시간 0.028초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

기계학습을 활용한 상품자산 투자모델에 관한 연구 (A Study on Commodity Asset Investment Model Based on Machine Learning Technique)

  • 송진호;최흥식;김선웅
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.127-146
    • /
    • 2017
  • 상품자산(Commodity Asset)은 주식, 채권과 같은 전통자산의 포트폴리오의 안정성을 높이기 위한 대체투자자산으로 자산배분의 형태로 투자되고 있지만 주식이나 채권 자산에 비해 자산배분에 대한 모델이나 투자전략에 대한 연구가 부족한 실정이다. 최근 발전한 기계학습(Machine Learning) 연구는 증권시장의 투자부분에서 적극적으로 활용되고 있는데, 기존 투자모델의 한계점을 개선하는 좋은 성과를 나타내고 있다. 본 연구는 이러한 기계학습의 한 기법인 SVM(Support Vector Machine)을 이용하여 상품자산에 투자하는 모델을 제안하고자 한다. 기계학습을 활용한 상품자산에 관한 기존 연구는 주로 상품가격의 예측을 목적으로 수행되었고 상품을 투자자산으로 자산배분에 관한 연구는 찾기 힘들었다. SVM을 통한 예측대상은 투자 가능한 대표적인 4개의 상품지수(Commodity Index)인 골드만삭스 상품지수, 다우존스 UBS 상품지수, 톰슨로이터 CRB상품지수, 로저스 인터내셔날 상품지수와 대표적인 상품선물(Commodity Futures)로 구성된 포트폴리오 그리고 개별 상품선물이다. 개별상품은 에너지, 농산물, 금속 상품에서 대표적인 상품인 원유와 천연가스, 옥수수와 밀, 금과 은을 이용하였다. 상품자산은 전반적인 경제활동 영역에 영향을 받기 때문에 거시경제지표를 통하여 투자모델을 설정하였다. 주가지수, 무역지표, 고용지표, 경기선행지표 등 19가지의 경제지표를 이용하여 상품지수와 상품선물의 등락을 예측하여 투자성과를 예측하는 연구를 수행한 결과, 투자모델을 활용하여 상품선물을 리밸런싱(Rebalancing)하는 포트폴리오가 가장 우수한 성과를 나타냈다. 또한, 기존의 대표적인 상품지수에 투자하는 것 보다 상품선물로 구성된 포트폴리오에 투자하는 것이 우수한 성과를 얻었으며 상품선물 중에서도 에너지 섹터의 선물을 제외한 포트폴리오의 성과가 더 향상된 성과를 나타남을 증명하였다. 본 연구에서는 포트폴리오 성과 향상을 위해 기존에 널리 알려진 전통적 주식, 채권, 현금 포트폴리오에 상품자산을 배분하고자 할 때 투자대상은 상품지수에 투자하는 것이 아닌 개별 상품선물을 선정하여 자체적 상품선물 포트폴리오를 구성하고 그 방법으로는 기간마다 강세가 예측되는 개별 선물만을 골라서 포트폴리오를 재구성하는 것이 효과적인 투자모델이라는 것을 제안한다.

첨단산업의 환경동태성이 공급체인의 결속에 미치는 영향: 유연성과 의존성의 역할 (The Effects of Environmental Dynamism on Supply Chain Commitment in the High-tech Industry: The Roles of Flexibility and Dependence)

  • 김상덕;지성구
    • 마케팅과학연구
    • /
    • 제17권2호
    • /
    • pp.31-54
    • /
    • 2007
  • 첨단산업의 기업들은 환경의 변화에 효과적으로 대응하는 것을 기업 성패에 중요한 요인으로 여기고 있다. 하지만 첨단산업의 환경 동태성이 공급체인 구성원 간 관계 결속에 미치는 영향에 관한 연구가 부족하여, 환경 변화에 효과적인 대응을 어렵게 하고 있다. 본 연구는 첨단산업에서 환경 동태성이 공급체인의 결속에 영향을 미치는 메커니즘에 대해 규명하고 있다. 좀 더 구체적으로 말하면, 첫째, 첨단산업의 고객, 경쟁, 기술 동태성이 공급체인의 결속에 어떠한 영향을 미치는지, 둘째, 공급체인의 유연성과 의존성이 이러한 영향에 어떠한 조절효과를 가지는 지 실증하고 있다. 구조방정식 모형에 의한 가설검정 결과 첨단산업의 고객 동태성은 공급체인의 결속을 약화시켰지만 경쟁 동태성은 강화시키는 역할을 하였다. 한편 유연성과 의존성은 고객과 경쟁 동태성에 유의적인 조절 효과를 가졌다.

  • PDF

ICT 산업분야 신생기업의 IPO 이후 인수합병과 산업 집중도에 관한 연구 (Impact of Shortly Acquired IPO Firms on ICT Industry Concentration)

  • 장영봉;권영옥
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.51-69
    • /
    • 2020
  • 본 논문은 ICT 산업분야에서 신생기업이 기업공개(IPO) 이후 단기간 내에 기존 기업에 인수합병됨으로써 산업의 집중도가 높아지는 현상을 실증적으로 규명하였다. 이를 위해 1990년대 이후 기업공개를 한 4,938개 기업에 대해 산업분야를 구분하고 인수합병 여부에 따른 상태 변화를 추적하여 산업의 집중도에 미치는 영향을 분석하였다. 먼저 시기별로 분석한 결과, 2000년대 이후 기업들은 1990년대 기업들에 비해 상대적으로 단기간 내에 기존 기업에 인수합병된 것으로 나타났다. 그러나 이들 기업은 규모, 수익성 및 연구개발비 등이 시장에서 퇴출된 기업에 비해 양호한 것으로 나타났다. 또한 산업분야별로 분석한 결과, 동일한 산업분야로 인수합병되는 경우가 증가할수록 산업의 집중도 역시 증가한 것으로 나타났다. 그리고 산업분야별로 지배적 기업의 존재여부를 분석한 결과, 지배적 기업이 존재할 경우 인수합병이 산업의 집중도에 미치는 영향이 더 큰 것으로 나타났다. 특히 지배적 기업의 비중이 높은 ICT 분야에서 산업의 집중도에 미치는 영향이 더욱 크게 부각되는 것으로 나타났다. 이는 알파벳, 아마존 등이 공격적으로 신생기업을 인수합병하고 시장에서의 지배력을 확장시켜나가고 있는 ICT 산업분야의 최근 추세를 보여주고 있다. 또한 인공지능 및 데이터 애널리틱스 등 ICT 기술기반 신생기업이 인수된 경우 산업 집중도의 변동은 더 큰 폭으로 증가하는 것으로 나타났다. 이러한 분석결과는 디지털 경제시대에 ICT 분야의 산업 집중도가 높아지는 요인의 하나로서 신생기업이 단기간 내에 인수합병되는 추세를 실증적으로 규명하였다는 점에서 의의가 있다.

영화 흥행에 영향을 미치는 새로운 변수 개발과 이를 이용한 머신러닝 기반의 주간 박스오피스 예측 (Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning)

  • 송정아;최근호;김건우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.67-83
    • /
    • 2018
  • 2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출 점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉 1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를 예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며, 새롭게 제시한 변수들을 포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수 있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.

신차와 중고차간 프로모션의 상호작용에 대한 연구 (A Study on Interactions of Competitive Promotions Between the New and Used Cars)

  • 장광필
    • Asia Marketing Journal
    • /
    • 제14권1호
    • /
    • pp.83-98
    • /
    • 2012
  • 신차와 중고차가 함께 경쟁하는 시장에서 신차의 경쟁만을 모형화한다면 가격이나 기타 프로모션 탄력성의 추정이 왜곡될 수 있다. 그러나 자동차 시장을 연구대상으로 한 선행연구의 대부분이 신차 시장의 경쟁에만 관심을 기울였던 바, 합리적인 가격결정이나 프로모션 기획에 도움을 주기에 미흡한 점이 있었다. 본 연구는 신차의 가격결정 및 프로모션 기획이 향후 중고차 시장을 통해 리바운드되어 신차 매출에 다시 영향을 미친다는 점을 반영하여 모형을 설정하였다. 즉, 서로 다른 신차간의 (혹은 서로 다른 중고차간의) 교차탄력성보다, 동일 모델의 신차와 중고차간의 교차탄력성이 높다는 가정하에 모형을 설정하였다. 방법론적으로는 네스티드 로짓(Nested Logit) 모형을 설정하여 소비자의 자동차 선택은 단계적으로 이루어진다고 가정하였다. 즉, 1단계에서 자동차 모델을 선택하고, 모델이 정해지면 2단계에서 신차와 중고차 중 선택하는 구조를 가정하였다 실증분석은 미국 전역에서 2009년 1월부터 2009년 6월까지 판매된 모든 컴팩트 카 모델 중에서 시장점유율 상위 9개 모델의 신차와 중고차를 대상으로 하였다. 실증분석을 통하여 비교 대상 모형보다 제안된 모형이 모형 적합도 측면에서 우월하고 예측타당성도 높다는 것을 보여주었다. 제안된 모형으로 부터 추정된 모수를 사용하여 몇 가지 시나리오를 상정하여 시뮬레이션을 실시한 결과, 신차(중고차)가 점유율을 높이고자 리베이트를 실시할 경우 중고차(신차)는 현재의 시장점유율을 유지하기 위해 대응 가격할인을 실시하게 되는데 할인 폭은 반대의 경우에 비해 높다는(낮다는)점을 확인하였다. 또한 시뮬레이션 결과가 시사하는 바는 신차와 중고차가 함께 경쟁하는 시장에서 IIA(Independence of Irrelevant Alternatives)모형을 적용할 경우 동일모델의 신차와 중고차간의 교차 탄력성을 과소평가하게 되어 현상유지를 위한 가격할인을 실시할 경우 적정한 수준이하로 하게 된다는 것이다.

  • PDF

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

종합 평점과 다기준 평점을 선택적으로 활용하는 협업필터링 기반 하이브리드 추천 시스템 (A Hybrid Recommender System based on Collaborative Filtering with Selective Use of Overall and Multicriteria Ratings)

  • 구민정;안현철
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.85-109
    • /
    • 2018
  • 추천시스템은 사용자의 과거 구매행동을 통해 향후 구매할 것이라고 예상되는 제품을 자동으로 검색하여 추천해준다. 특히 전자상거래 기업의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로 가치가 있다. 하지만, 전통적인 추천시스템, 특히 학계 및 산업계에서 가장 널리 사용되고 있는 전통적인 협업필터링 기법은 단일차원의 '종합 평점'만을 고려하여 추천결과를 생성하도록 설계되어 있어, 사용자들의 정확한 니즈를 이해하고 대응하는데 근본적인 한계가 있다. 최근에는 전자 상거래 기업들도 고객들로부터 보다 다각화된, 다기준 방식으로 피드백을 받고 있다. 특히 다기준 평점은 정량적으로 입력되는 정보이므로 상대적으로 분석 및 처리가 용이하다는 장점이 있다. 그러나 다기준 평점 역시 사전에 정해진 기준에 대해서만 사용자의 피드백이 이루어지기 때문에, 보다 상세하게 사용자의 의견을 이해하여 추천에 반영하는 데에는 한계가 있다. 이에 본 연구는 다기준 평점 정보와 선택적 협업필터링의 서로 다른 접근방법을 통해 도출된 추천결과를 종합하여, 최종적으로 추천 대상리스트를 산출할 수 있는 하이브리드 기술을 제안한다. 본 연구에서 제안한 연구모형의 유용성을 검증하기 위해, 식음료점(식당, 카페 등)에 대한 실제 이용자를 대상으로 온라인 설문을 통해 종합 평점과 다기준 평점을 수집하였으며, 데이터를 학습용과 검증용으로 구분하여 학습시키고 성과를 평가하였다. 이 기법은 결합 함수 기반 접근법과 사용자마다 구매의사결정의 체계가 다르다는 전제하에, 사용자들을 유형화하고, 유형에 따라 정보원을 선택적으로 활용하는 협업필터링 알고리즘을 활용했다. 실험결과, 제안 알고리즘을 통한 추천 방법이 단일 차원을 고려하는 전통적인 협업필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인했다. 아울러, 본 연구가 제안하는 다기준 평점과 선택적 협업필터링 알고리즘을 종합하여 추천하는 방법이, 단순히 다기준 평점을 고려했을 때 보다 통계적으로 유의한 수준의 정확도의 개선이 이루어짐을 확인할 수 있었다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.