• 제목/요약/키워드: Decision support techniques

검색결과 217건 처리시간 0.025초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.

선형분광혼합화소분석을 이용한 서부지역 DMZ의 토지피복 변화 탐지 (Land-Cover Change Detection of Western DMZ and Vicinity using Spectral Mixture Analysis of Landsat Imagery)

  • 김상욱
    • 한국지리정보학회지
    • /
    • 제9권1호
    • /
    • pp.158-167
    • /
    • 2006
  • 본 연구는 DMZ 및 민통선지역의 토지피복 변화양상을 생태학적 측면에서 파악해보는데 목적을 두고 있다. 한반도 허리를 가르는 대상형 지역인 DMZ에 대하여 남북간 왕래가 잦은 서부지역에 대하여 토지피복특성을 파악해 보았는데, 비접근지역인 연구지역 특성상 본 연구에서는 위성영상자료를 활용하여 토지피복의 현황 및 변화특성을 파악해 보았다. '80년대 중반(Landsat TM, '87.05.20) 및 2000년대 초반의 영상(Landsat ETM+, '02.06.06)을 활용함으로써 최근 15년 동안 토지피복이 어떻게 변화했는지 파악하였으며, 생태적 가치가 큰 DMZ 지역의 토지피복 분류정확도를 높이기 위하여, 선형분광혼합화소분석(linear spectral mixture analysis : LSMA)을 이용하였다. 이 분석법은 하나의 화소를 단일한 지표물로 가정하여 영상을 처리하는 기존의 기법과 달리, 각 화소의 토지피복의 혼합정도를 세분화 한 후 대상지의 토지피복 특성을 가장 잘 반영하는 순수한 화소값 별로 분할영상(fraction image)을 생성하였는데, 본 연구에서는 식생, 토양, 수문의 3가지 화소에 대한 분할영상을 생성하였다. 분석결과 토지피복 가운데 산림지역의 면적이 가장 많은 감소를 가져왔는데, 남한지역의 경우 산림의 $39.04km^2$가, 북한지역은 $52.37km^2$가 다른 토지피복으로 변화되었다. 농경지의 경우 북한은 농경지 면적의 $56.15km^2$가 나대지로 변화되었는데, 이는 남한에 비하여 농경지 관리가 소홀하여 나대지 상태로 방치되고 있음을 알 수 있다. 공간적인 측면에서 볼 때, 민통선지역의 경우 전반적으로 토지피복의 변화가 나타나고 있으며, DMZ 내부의 경우도 장단반도 주변지역, 파주시 및 북한 판문군지역의 경우 그 변화가 민통선지역과 비슷한 양상을 보이고 있다.

  • PDF

KB국민카드의 빅데이터를 활용한 실시간 CRM 전략: 스마트 오퍼링 시스템 (Real-time CRM Strategy of Big Data and Smart Offering System: KB Kookmin Card Case)

  • 최재원;손봉진;임현아
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.1-23
    • /
    • 2019
  • 소비자의 니즈가 다양해지면서 데이터 마이닝과 고도화된 고객관계관리(CRM) 기법을 활용한 체계적인 마케팅 서비스를 제공하는 기업이 증가하고 있으며, KB국민카드는 고객의 결제 데이터 등을 활용하여 고객 개개인의 니즈를 충족시키고 소비자의 평생가치를 극대화하기 위한 전략을 강조하고 있다. 실시간으로 고객의 카드이용과 고객 행동, 위치 정보 등을 감지하여 진행하는 고효율 마케팅 운영시스템인 스마트 오퍼링 시스템을 운영하고 있으며, 다양한 앱 등과 결합하여 더욱 정교화된 서비스를 제공하고 있다. KB국민카드는 스마트 오퍼링 시스템의 성공과 지속적인 성장을 위해 고도화되고 있는 ICT 기술과 인재 확보를 위한 투자를 진행해야 하며, 장기적인 관점에서의 수익확보를 위한 전략을 확립하여 체계적인 진행이 필요하다. 특히, 프라이버시 침해와 개인정보 유출 등의 문제가 쟁점이 되는 현재 상황에서 고객 정보를 활용한 마케팅에 대한 고객의 인식을 긍정적으로 유도하고, 보안성을 강조하는 기업 이미지 형성을 위한 노력이 필요하다. 본 연구는 CRM 전략의 변화 과정을 통해 현재 카드사의 실시간 CRM 전략을 KB 국민카드의 빅데이터 활용전략과 마케팅 활동을 통해 확인하고자 한다.

머신러닝 기법을 활용한 터널 설계 시 시추공 내 암반분류에 관한 연구 (A study on the rock mass classification in boreholes for a tunnel design using machine learning algorithms)

  • 이제겸;최원혁;김양균;이승원
    • 한국터널지하공간학회 논문집
    • /
    • 제23권6호
    • /
    • pp.469-484
    • /
    • 2021
  • 터널 설계 시 지반조사를 통한 암반분류 결과는 공사기간 및 공사비 산출, 그리고 터널안정성 평가에 지대한 영향을 미친다. 국내에서 지금까지 완공된 3,526개소의 터널들의 설계 및 시공을 통해 관련 기술들은 지속적으로 발전되어 왔지만, 터널 설계 시 암질 및 암반등급을 보다 정확하게 평가하기 위한 방법에 대한 연구는 미미하여 평가자의 경험 및 주관에 따라 결과의 차이가 큰 경우가 적지 않다. 따라서 본 연구에서는 암석샘플에 대한 주관적 평가를 통한 기존의 인력에 의한 암반분류 대신, 최근 지반분야에서도 그 활용도가 급증하고 있는 머신러닝 알고리즘을 이용하여 시추조사에서 획득한 다양한 암석 및 암반정보를 분석하여 보다 신뢰성있는 RMR에 의한 암반분류 모델을 제시하고자 하였다. 국내 13개 터널을 대상으로 11개의 학습 인자(심도, 암종, RQD, 전기비저항, 일축압축강도, 탄성파 P파속도 및 S파 속도, 영률, 단위중량, 포아송비, RMR)를 선정하여 337개의 학습 데이터셋과 60개의 시험 데이터셋을 확보하였으며, 모델의 예측성능을 향상시키기 위해 6개의 머신러닝 알고리즘(DT, SVM, ANN, PCA & ANN, RF, XGBoost)과 각 알고리즘별 다양한 초매개변수(hyperparameter)를 적용하였다. 학습된 모델의 예측성능을 비교한 결과, DT 모델을 제외한 5개의 머신러닝 모델에서 시험데이터에 대한 RMR 평균절대오차 값이 8 미만으로 수렴되었으며, SVM 모델에서 가장 우수한 예측성능을 나타내었다. 본 연구를 통해 암반분류 예측에 대한 머신러닝 기법의 적용 가능성을 확인하였으며, 향후 다양한 데이터를 지속적으로 확보하여 예측모델의 성능을 향상시킨다면 보다 신뢰성 있는 암반 분류에 활용될 수 있을 것으로 기대된다.

GIS 및 공간통계를 활용한 낙동강 유역 수생태계의 건강성 평가 (Health Assessment of the Nakdong River Basin Aquatic Ecosystems Utilizing GIS and Spatial Statistics)

  • 조명희;심준석;이재안;장성현
    • 한국지리정보학회지
    • /
    • 제18권2호
    • /
    • pp.174-189
    • /
    • 2015
  • 본 연구는 낙동강 유역의 수생태계 건강성 조사지점에서 생물 및 서식환경, 수질에 대한 건강성을 조사 및 평가한 결과자료를 이용하여 공간정보로 재구축하고 공간분석기법을 활용하여 낙동강 유역의 수생태계 보전 및 복원 정책의 합리적인 의사결정을 지원하고 효율적인 관리방안을 제시하는데 목적이 있다. 낙동강 유역의 수생태계 건강성을 분석하기 위하여 250개 조사구간의 수생태계 건강성 조사 및 평가 결과자료를 각 지점별 위치정보를 기반으로 점형 자료로 구축하였다. 그리고 공간적인 분석기법의 적용을 위해 면형 자료로 재구축 할 필요성이 있으며, 이를 위해 Kriging 보간법(ArcGIS 10.1, Geostatistical Analysis)을 활용하여 공간적 영향력 및 트랜드를 분석하였고 면형 자료로 재구축 하였다. 이를 바탕으로 낙동강 유역 건강성의 공간분포 특성을 분석하기 위해 Hotspot(Getis-Ord Gi, $G^*_i$)과 LISA(Local Indicator of Spatial Association), 표준편차타원체(Standard deviational ellipse) 분석을 활용하였다. Hotspot 분석 결과 생물지수(TDI, BMI, FAI)의 Hotspot 유역은 안동댐 상류, 왕피천, 임하댐 유역으로 생물지수의 건강성 등급이 양호한 것으로 분석되었으며, Coldspot 유역은 낙동강 남해, 낙동강 하구, 수영강 등의 유역으로 나타났다. LISA 분석 결과 이례지역은 가화천, 합천댐 상류, 영강 상류 유역으로 분석되었으며 이 지역은 생물 건강성 지수가 높은 유역이지만 주변 유역의 건강성이 낮아 수생태계 건강성에 대한 관리가 필요한 유역으로 분석되었다. 이화학적 요인(BOD)의 Hotspot 유역은 낙동강하류 유역과 수영강, 회야강, 낙동강남해 유역으로 나타났으며, Coldspot 유역은 안동댐, 임하댐, 영강 등 낙동강 지류의 상류 유역으로 분석되었다. 서식 및 수변환경(HRI)요인의 Hotspot과 LISA 분석결과 요인별 Hotspot과 Coldspot이 다르게 분석되었으나 일반적으로 낙동강 상류, 안동댐, 임하댐, 합천댐 유역 등 낙동강 본류와 지류의 상류 유역 서식 및 수변환경 건강성이 좋은 것으로 분석되었다. 서식 및 수변환경 요인이 Coldspot으로 나타난 유역들은 생물지수와 이화학적 요인의 건강성 지수도 낮게 나타나 서식 및 수변환경의 관리가 필요한 유역으로 판단할 수 있다. 표준편차타원체로 분석한 시계열 분석결과 생물과 서식 및 수변환경에 의한 수생태계 건강성이 좋은 지역이 점점 북쪽으로 이동하는 경향을 나타내고 있으며 BOD 결과는 조사년도에 따라 방향과 집중도가 각각 다르게 나타나는 것으로 분석되었다. 이러한 수생태계 건강성 분석 결과는 조사지점별 건강성 관리정보뿐만 아니라 향후 공간정보 기술기반 수환경 연구와 실무연구진을 위한 집수구역 단위 수생태계를 관리할 수 있는 정보를 제공할 수 있을 것으로 판단된다.

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.