• 제목/요약/키워드: Regression algorithm

검색결과 1,055건 처리시간 0.031초

임상도와 Landsat TM 위성영상을 이용한 산림탄소저장량 추정 방법 비교 연구 (Comparison of Forest Carbon Stocks Estimation Methods Using Forest Type Map and Landsat TM Satellite Imagery)

  • 김경민;이정빈;정재훈
    • 대한원격탐사학회지
    • /
    • 제31권5호
    • /
    • pp.449-459
    • /
    • 2015
  • 기존의 국가산림자원조사(National Forest Inventory, NFI)에 의한 산림탄소저장량 추정 방법은 국가 규모의 평균 탄소저장량 추정에는 충분하지만 표본점 개수가 부족한 시 군 단위의 세밀한 추정은 어렵다. 본 연구에서는 시 군별 산림탄소저장량 추정을 위해 공간 자료를 보조 자료로 이용하고 2가지 업스케일링 방법을 적용하여 격자별 산림탄소저장량 정보를 가진 산림탄소지도를 제작하였다. 대상지역은 충청남도로 2가지 방법 모두 제 5차 NFI(2006~2009) 자료를 활용하였다. 방법 1은 임상도를 보조 자료로 선택하고 NFI 기반 산림탄소저장량 회귀모델을 이용하였다. 방법 2는 위성영상을 보조 자료로 선택하고 k-NN을 이용하여 산림탄소저장량을 추정하였다. 불확실성을 고려하기 위해 200회 몬테카를로 시뮬레이션을 수행하여 최종 AGB 탄소지도를 산출하였다. 방법 1에서는 충청남도의 총 산림탄소저장량이 22,948,151 tonC으로 기존의 현지조사표본 기반 추정치(21,136,911 tonC)에 비해 과대추정을, 방법 2에서는 19,750,315 tonC로 과소추정되는 경향을 나타내었다. 독립검증 지점(n=186)의 탄소저장량에 대한 대응표본 T-검정 결과, 방법 2의 평균 추정치와 NFI 표본 기반 평균 추정치는 통계적으로 유의한 차이가 있는 반면(p<0.01), 방법 1의 평균 추정치는 NFI 표본 기반 평균 추정치와 통계적으로 유의한 차이가 없는 것으로 평가되었다(p>0.01). 특히, 방법 2의 경우 k-NN의 스무딩 효과 및 몬테카를로 시뮬레이션을 통해 위성영상과 표본점의 mis-registration 오차가 추정오차에 큰 영향을 미칠 수 있음이 발견되었다. 임상도를 활용한 방법 1이 임분 구조가 복잡한 우리나라 산림의 탄소량 추정에 효과적일 수 있지만, 미조사 지점의 주기적인 갱신 및 대면적 추정에 유리한 위성영상의 활용은 여전히 필수적이다, 따라서 시공간적인 확장과 함께 보다 신뢰할 수 있는 산림탄소저장량 추정을 위해 다양한 위성영상 자료 및 활용 기법에 관한 연구가 필요할 것으로 사료된다.

기상조건에 따른 도시고속도로 교통류변화 분석 (The Effect of Rain on Traffic Flows in Urban Freeway Basic Segments)

  • 최정순;손봉수;최재성
    • 대한교통학회지
    • /
    • 제17권1호
    • /
    • pp.29-39
    • /
    • 1999
  • 본 연구는 우리나라의 고속도로 기본구간에서 기상조건에 따른 도시고속도로 교통류의 특성을 분석한 것이다. 본 연구의 주요 결과를 요약하면 다음과 같다. 첫째, 비가 올 경우 속도-교통류율간의 관계는 길어깨쪽 차로를 제외하고 차로별로 큰 차이가 없이 유사한 패턴을 보이는 것으로 나타났다. 둘째 교통류율-점유율간의 관계식은 비가 올 경우 그 관계성은 더 분명해지지만, 서비스교통류율이 약 200대/시/차로 정도 감소하는 것으로 나타났다. 셋째, 비가 올 경우 도로의 관측된 서비스교통류율은 맑은 날에 비해 약 10-20% 정도 감소하는 것으로 나타났으며, 이러한 결과는 1998 HCM에서 제시한 결과 및 교통류율-점유율 관계식의 기울기 감소 패턴과 일치한다. 넷째, 비가 올 경우 전체 차로의 소통능력은 맑은 날에 비해 감소하고 전반적으로 중앙분리대쪽 차로의 소통 능력이 길어깨쪽 차로에 비해 높은 것으로 나타났으나, 기상변화에 따른 차로별 임계속도와 임계점유율은 큰 변화가 없는 것으로 나타났다. 본 연구는 도시고속도로 기본구간의 1개 지점에서 나타난 특성으로서 공간적 분포 특성을 고려하기 위해서는 향후 연구에서 다양한 조건을 갖는 도로지점에 대해 분석해야 할 것이다. 또한 비 뿐만 아니라 안개나 눈에 의 한 영향을 고려한 상세한 분석이 필요하다. 본 연구의 결과는 그간 일반적으로 알려졌던 내용과 큰 차이는 없지만 실제로 고속도로를 설계하거나 운영하는데 근거자료로 활용할 수 있는 자료를 제공하는 측면에서 의미가 있다고 판단되며, 도로용량편람을 개정 및 수정하는 과정에서 명확히 명시해야할 기초자료를 제공하고 있다.Bayesian pooling technique for estimating the dynamic link travel time of networks. The proposed algorithm has been validated using the field experiment data out of GPS probes and detectors over the roadways and the estimated link travel time from the algorithm is proved to be more useful than the mere arithmetic mean from each traffic source. the whole sentence(preceeding sentence and the accompanying sentence). The conjunctive endings are '-고₂, -으며₂, -다가₂, -어서, -고서, 을수록, -은데₂, -으면₂, -어야₂, -어도₂, -으니까₂, -거든₁,'etc. Type C can be interpreted as the neutralized tense of the preceeding sentence and the absolute tense of the accompanying sentence. The conjunctive endings are '-으러, -으려고, -고자, -도록, -게,'etc. Type D can be described as the relative tense of the part of the preceeding sentence and the

  • PDF

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

R&D 기술 선정을 위한 시계열 특허 분석 기반 지능형 의사결정지원시스템 (An Intelligent Decision Support System for Selecting Promising Technologies for R&D based on Time-series Patent Analysis)

  • 이충석;이석주;최병구
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.79-96
    • /
    • 2012
  • 기술의 발전과 융합이 빠르게 이루어지고 있는 오늘날 유망기술을 어떻게 파악하여, 다양한 후보군들 중에서 최적의 R&D 대상을 어떻게 선정할 것인가에 대한 문제는 주요한 경영의사결정문제 중 하나로 부상하고 있다. 본 연구에서는 이러한 R&D 기술 선정 의사결정을 지원할 수 있는 새로운 지능형 의사결정지원시스템을 제안한다. 본 연구의 의사결정지원시스템은 크게 3가지 모듈로 구성되는데, 우선 첫 번째 모듈인 '기술가치 평가' 모듈에서는 기업이 관심을 갖고 있는 분야의 특허들을 분석하여 유망기술 파악에 요구되는 다양한 차원의 기술가치 평가지수 값들을 산출하는 작업이 이루어진다. 이를 통해, 현재 시점에서의 각 기술의 가치가 다양한 차원에서 평가가 이루어지고 나면, 두 번째 모듈인 '미래기술가치 예측' 모듈에서 이들의 시간 흐름에 따른 변화를 학습한 인공지능 모형을 토대로 각 후보기술들이 미래 시점에 어떤 가치지수값을 갖게 될 것인지 예측값을 산출하게 된다. 마지막 세 번째 모듈인 '최적 R&D 대상기술 선정 지원' 모듈에서는 앞서 두 번째 모듈에서 산출된 각 차원별 예상 가치지수값들을 적절히 가중합하여 기술의 종합적인 미래가치 예측값을 산출하여 의사결정자에게 제공하는 기능을 수행한다. 이를 통해 의사결정자가 자사에 적합한 최적의 R&D 대상기술을 선정할 수 있도록 하였다. 본 연구에서는 제안된 시스템의 적용 가능성을 검증하기 위해, 10년치 특허데이터에 인공신경망 기법을 적용하여 실제 기술가치 예측모형을 구축해 보고, 그 효과를 살펴본다.

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

SVM을 이용한 VKOSPI 일 중 변화 예측과 실제 옵션 매매에의 적용 (VKOSPI Forecasting and Option Trading Application Using SVM)

  • 라윤선;최흥식;김선웅
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.177-192
    • /
    • 2016
  • 기계학습(Machine Learning)은 인공 지능의 한 분야로, 데이터를 이용하여 기계를 학습시켜 기계 스스로가 데이터 분석 및 예측을 하게 만드는 것과 관련한 컴퓨터 과학의 한 영역을 일컫는다. 그중에서 SVM(Support Vector Machines)은 주로 분류와 회귀 분석을 목적으로 사용되는 모델이다. 어느 두 집단에 속한 데이터들에 대한 정보를 얻었을 때, SVM 모델은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 집단에 속할지를 판단해준다. 최근 들어서 많은 금융전문가는 기계학습과 막대한 데이터가 존재하는 금융 분야와의 접목 가능성을 보며 기계학습에 집중하고 있다. 그러면서 각 금융사는 고도화된 알고리즘과 빅데이터를 통해 여러 금융업무 수행이 가능한 로봇(Robot)과 투자전문가(Advisor)의 합성어인 로보어드바이저(Robo-Advisor) 서비스를 발 빠르게 제공하기 시작했다. 따라서 현재의 금융 동향을 고려하여 본 연구에서는 기계학습 방법의 하나인 SVM을 활용하여 매매성과를 올리는 방법에 대해 제안하고자 한다. SVM을 통한 예측대상은 한국형 변동성지수인 VKOSPI이다. VKOSPI는 금융파생상품의 한 종류인 옵션의 가격에 영향을 미친다. VKOSPI는 흔히 말하는 변동성과 같고 VKOSPI 값은 옵션의 종류와 관계없이 옵션 가격과 정비례하는 특성이 있다. 그러므로 VKOSPI의 정확한 예측은 옵션 매매에서의 수익을 낼 수 있는 중요한 요소 중 하나이다. 지금까지 기계학습을 기반으로 한 VKOSPI의 예측을 다룬 연구는 없었다. 본 연구에서는 SVM을 통해 일 중의 VKOSPI를 예측하였고, 예측 내용을 바탕으로 옵션 매매에 대한 적용 가능 여부를 실험하였으며 실제로 향상된 매매 성과가 나타남을 증명하였다.