• 제목/요약/키워드: Intelligent information systems

검색결과 4,229건 처리시간 0.029초

K-Means Clustering 알고리즘과 헤도닉 모형을 활용한 서울시 연립·다세대 군집분류 방법에 관한 연구 (A Study on the Clustering Method of Row and Multiplex Housing in Seoul Using K-Means Clustering Algorithm and Hedonic Model)

  • 권순재;김성현;탁온식;정현희
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.95-118
    • /
    • 2017
  • 최근 도심을 중심으로 연립 다세대의 거래가 활성화되고 직방, 다방등과 같은 플랫폼 서비스가 성장하고 있다. 연립 다세대는 수요 변화에 따른 시장 규모 확대와 함께 정보 비대칭으로 인해 사회적 문제가 발생 되는 등 부동산 정보의 사각지대이다. 또한, 서울특별시 또는 한국감정원에서 사용하는 5개 또는 25개의 권역 구분은 행정구역 내부를 중심으로 설정되었으며, 기존의 부동산 연구에서 사용되어 왔다. 이는 도시계획에 의한 권역구분이기 때문에 부동산 연구를 위한 권역 구분이 아니다. 이에 본 연구에서는 기존 연구를 토대로 향후 주택가 격추정에 있어 서울특별시의 공간구조를 재설정할 필요가 있다고 보았다. 이에 본 연구에서는 연립 다세대 실거래가 데이터를 기초로 하여 헤도닉 모형에 적용하였으며, 이를 K-Means Clustering 알고리즘을 사용해 서울특별시의 공간구조를 다시 군집하였다. 본 연구에서는 2014년 1월부터 2016년 12월까지 3년간 국토교통부의 서울시 연립 다세대 실거래가 데이터와 2016년 공시지가를 활용하였다. 실거래가 데이터에서 본 연구에서는 지하거래 제거, 면적당 가격 표준화 및 5이상 -5이하의 실거래 사례 제거와 같이 데이터 제거를 통한 데이터 전처리 작업을 수행하였다. 데이터전처리 후 고정된 초기값 설정으로 결정된 중심점이 매번 같은 결과로 나오게 K-means Clustering을 수행한 후 군집 별로 헤도닉 모형을 활용한 회귀분석을 하였으며, 코사인 유사도를 계산하여 유사성 분석을 진행하였다. 이에 본 연구의 결과는 모형 적합도가 평균 75% 이상으로, 헤도닉 모형에 사용된 변수는 유의미하였다. 즉, 기존 서울을 행정구역 25개 또는 5개의 권역으로 나뉘어 실거래가지수 등 부동산 가격 관련 통계지표를 작성하던 방식을 속성의 영향력이 유사한 영역을 묶어 16개의 구역으로 나누었다. 따라서 본 연구에서는 K-Means Clustering 알고리즘에 실거래가 데이터로 헤도닉 모형을 활용하여 연립 다세대 실거래가를 기반으로 한 군집분류방법을 도출하였다. 또한, 학문적 실무적 시사점을 제시하였고, 본 연구의 한계점과 향후 연구 방향에 대해 제시하였다.

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

전시장 참관객의 계획되지 않은 방문행동에 있어서 부스추천시스템의 영향에 대한 연구 (A Study on the Effect of Booth Recommendation System on Exhibition Visitors Unplanned Visit Behavior)

  • 정남호;김재경
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.175-191
    • /
    • 2011
  • 국가신성장동력으로MICE(Meeting, Incentive travel, Convention, Exhibition) 산업이각광받으면서국내전시산업에 대한 관심이 드높아 지고 있다. 이에 따라 국내 전시산업(domestic exhibition industry)도 미국이나 유럽과 같이 전시성과를 향상시키기 위한 다양한 연구가 진행 중이다. 그 중에서도 전시환경이나 전시기법 등에 따라 관람효과가 다르기 때문에 지능형 정보기술을 이용하여 전시장에 방문한 참관객의 참관패턴을 분석하여 참관객을 이해하고 더 나아가 참여업체 간의 연관관계 도출 및 전시회의 성과를 높이고자 하는 연구들이 진행되고 있다. 그런데, 이러한 기존의 부스추천시스템과 관련된 연구를 살펴보면 시스템적인 관점에서 추천의 정확성만을 논하고 있을 뿐 추천을 통한 참관객의 행동이나 인식의 변화에 대해서는 충분히 논의하고 있지 못하다. 부스추천시스템(Booth Recommendation System)은 참관객의 부스방문 정보를 바탕으로 참관객에게 적절한 부스를 추천하기 때문에 참관객은 사전에 계획하지 않은 전시장을 방문하게 될 수 있다. 이 때 참관객은 계획하지 않은 방문행동을 통해서 만족할 수도 있지만 추천과 정이 번거롭다거나 자유롭게 참관을 하는데 방해가 된다고 생각할 수 있다. 이 경우 참관객의 자유로운 관람보다 오히려 더 좋지 않은 성과를 낼 수 있다. 따라서 부스 추천시스템을 전시장에 적용하기 위해서는 시스템의 성과에 미치는 영향요인이 무엇인지 전반적으로 검토하고, 부스추천시스템이 참관객의 계획되지 않은 방문행동에 미치는 영향에 대해 면밀히 검토해야 한다. 이에 본 연구에서는 부스추천시스템의 성과에 영향을 미치는 요인이 무엇인지 이론과 기존문헌을 통해 살펴보고자 하였다. 또한, 참관객의 지각된 부스추천시스템의 성과가 참관객의 계획되지 않은 행동에 대한 만족도와 부스추천시스템의 재사용의도에 어떤 영향을 미치는지 살펴보고자 하였다. 이러한 연구목적을 달성하기 위한 이론적 프레임워크로 본 연구는 계획되지 않은 행동이론(Unplanned Behavior Theory)을 도입하였다. 계획되지 않은 행동(unplanned behavior)이란 "소비자들이 사전에 계획하지 되지 않은 채 실행된 어떤 행동"으로 정의할 수 있다. 소비자들의 계획되지 않은 행동은 그 동안 마케팅 등 다양한 분야에서 연구되어 왔다. 특히, 마케팅에서는 계획되지 않은 행동 중 계획되지 않은 구매(unplanned purchasing)에 많은 관심을 두어 왔는데 이 개념은 종종 충동적 구매(impulsive purchasing)와 혼동되어 사용되곤 하였다. 그런데, 충동적 구매가 갑자기 무엇인가 구매를 해야하는 강하고 지속적인 충동(urge)이라고 본다면 계획되지 않은 구매는 구매의사결정의 시점이 상점에 들어가기 전이 아닌 상점 내에서 수행된다는 점이 다르다. 즉, 모든 충동적 구매는 비계획적이나, 모든 계획되지 않은 구매가 충동적인 구매는 아니다. 그런데, 왜 소비자들은 계획되지 않은 행동을 하는가? 이에 대해서는 학자들에 따라 여러 가지 의견이 있으나 소비자가 사전에 철저한 계획을 수립하지 않고 따라서 중간에 계획을 변화시킬만한 유연성(flexibility)이 있기 때문이라는 점에 일관된 의견을 보인다. 즉, 계획되지 않은 행동을 하는데 많은 비용이 소요된다면 소비자들은 사전에 수립한 계획을 변경하기 어렵게 될 것이기 때문이다. 본 연구에서 살펴보고자 하는 전시장 역시 참관객들은 방문하기 전에 전시장이 어떤 프로그램으로 구성되어 있는지 살펴보고, 어떤 부스를 방문할지를 사전에 계획하게 된다. 그 이유는 참관객들이 전시장 방문에 투입할 수 있는 시간은 한정되어 있는 반면에 전시회는 대규모의 다양한 부스로 운영되기 때문에 참관객들이 모든 부스를 참관한다는 것이 현실적으로 불가능하기 때문이다. 따라서 본 연구에서 제시하는 부스추천시스템이 참관객이 선호할 만한 부스를 추천하게 되면 참관객은 자신의 계획을 변화시켜서 부스추천시스템이 추천한 부스를 방문하게 된다. 이러한 방문행동은 소비자가 상점을 방문하거나, 관광객이 관광지에서 계획하지 않은 행동을 하는 것과 유사한 측면에서 이해가 가능하며 특히 최근 여행소비자들이 정보기기의 영향으로 계획되지 않은 행동을 하는 경우가 부쩍 증가한 추세와 동일한 맥락에서 이해가 가능하다. 이에 다음과 같은 연구모형을 설정하였다. 이 연구모형은 참관객이 지각한 부스추천시스템의 성과(performance)를 매개변수로 하고 있는데 이 성과에 영향을 미치는 요인으로 부스추천시스템에 대한 신뢰(trust), 전시장 참관객의 지식수준 (knowledge level), 부스 추천시스템의 기대된 개인화 (expected personalization) 그리고 부스추천시스템의 자유위협(threat to freedom)을 영향요인으로 파악하였다. 또한, 지각된 부스추천시스템 성과와 계획되지 않은 행동에 대한 참관객의 만족도와 향후 부스추천시스템의 재사용의도간의 인과관계도 파악하고자 하였다. 이 때 부스추천시스템에대한신뢰는권한(competence), 자선(benevolence), 그리고진실(integrity)의2차요인(2nd order factor)으로구성하고, 나머지 요인들은 1차 요인으로 구성하였다. 이를 검증하기 위해 2011 DMC Culture Open 행사에서 부스추천시스템을 테스트하기 위하여 시스템을 개발하고, 101명의 참관객을 대상으로 실증조사를 하여 분석하였다. 분석결과 첫째, 부스추천시스템에 있어서 참관객의 신뢰가 가장 중요한 요소이며 실제 해당 부스추천시스템을 이용한 참관객들은 신뢰를 통해 부스추천시스템이 성과 있다고 인식하였다. 둘째, 참관객의 지식수준 역시 부스추천시스템의 성과에 유의한 영향을 미쳤는데 이는 추천의 성과가 전시장에 대한 사전적 이해가 필요함을 의미한다. 즉, 전시장에 대한 이해가 높은 참관객이 부스추천시스템의 유용성을 더 잘 파악하는 것으로 나타났다. 셋째, 기대된 개인화 수준은 성과에 유의한 영향을 미치지 못했는데 이는 기존 연구와 다른 결과로 본 연구에 사용된 부스추천시스템이 충분히 개인화 서비스를 제공하지 못했기 때문이라고 판단된다. 넷째, 부스추천시스템의 추천정보는 개인의 자유를 위협하거나 제한한다고 느끼지 않음으로 충분히 유용한 가치를 갖는다고 할 수 있다. 끝으로 부스정보시스템의 높은 성과는 참관객들의 계획되지 않은 행동에 대한 높은 만족도와 향후에도 부스추천시스템을 재사용할 의도를 만드는 것으로 나타났다. 이와 같이 본 연구는 부스추천시스템이 야기하는 참관객의 계획되지 않은 부스방문행동에 미치는 영향력을 분석하기 위해 계획되지 않은 행동이론을 중심으로 실증자료를 이용하여 분석하고, 이를 통해 향후 부스추천시스템의 구축 및 설계에 유용한 시사점을 도출할 수 있었다. 향후에는 보다 정교한 설문구성과 측정대상을 이용하여 추가적인 검토가 필요할 것으로 기대된다.

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

적응형 군집화 기반 확장 용이한 협업 필터링 기법 (Scalable Collaborative Filtering Technique based on Adaptive Clustering)

  • 이오준;홍민성;이원진;이재동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.73-92
    • /
    • 2014
  • 기존 협업 필터링 기법은 사용자들의 아이템에 대한 선호도를 기반으로 유사 아이템 집합 또는 유사 사용자 집합을 구성하고, 이를 이용해 예측된 사용자의 특정 아이템에 대한 선호도를 기반으로 추천을 수행한다. 이로 인해, 사용자 선호도 정보가 부족하게 되면, 유사 아이템 사용자 집합의 신뢰도가 낮아지고, 추천 서비스의 신뢰도 또한 따라서 낮아진다. 또한, 서비스의 규모가 커질수록, 유사 아이템, 사용자 집합의 생성에 걸리는 시간은 기하급수적으로 증가하고 추천서비스의 응답시간 또한 그에 따라 증가하게 된다. 위와 같은 문제점을 해결하기 위해 본 논문에서는 적응형 군집화 기법을 제안하고 이를 적용한 협업 필터링 기법을 제안하고 있다. 이 기법은 크게 네 가지 방법으로 이루어진다. 첫째, 사용자와 아이템의 특성 벡터를 기반으로 사용자와 아이템 각각을 군집화 하여, 기존 협업 필터링 기법에서 유사 아이템, 사용자 집합을 생성하는데 소요되는 시간을 절약하며, 사용자 선호도 정보만을 이용한 부분 집합 생성보다 추천의 신뢰도를 높이고, 초기 평가 문제와 초기 이용자 문제를 일부 해소한다. 둘째, 미리 구성된 사용자와 아이템의 군집을 기반으로 군집간의 선호도를 이용해 추천을 수행한다. 사용자가 속한 군집의 선호도가 높은 순서대로 아이템 군집을 조회하여 사용자에게 제공할 아이템 목록을 구성하여, 추천 시스템의 부하 대부분을 모델 생성 단계에서 부담하고 실제 수행 시 부하를 최소화한다. 셋째, 누락된 사용자 선호도 정보를 사용자와 아이템 군집을 이용하여 예측함으로써 협업 필터링 추천 기법의 사용자 선호도 정보 희박성으로 인한 문제를 해소한다. 넷째, 사용자와 아이템의 특성 벡터를 사용자의 피드백에 따라 학습시켜 아이템과 사용자의 정성적 특성 정량화의 어려움을 해결한다. 본 연구의 검증은 기존에 제안되었던 하이브리드 필터링 기법들과의 성능 비교를 통해 이루어졌으며, 평가 방법으로는 평균 절대 오차와 응답 시간을 이용하였다.

지식 공유의 파레토 비율 및 불평등 정도와 가상 지식 협업: 위키피디아 행위 데이터 분석 (Pareto Ratio and Inequality Level of Knowledge Sharing in Virtual Knowledge Collaboration: Analysis of Behaviors on Wikipedia)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.19-43
    • /
    • 2014
  • 전체 결과의 80%가 전체 원인의 20%에 의해 일어난다는 파레토 법칙(Pareto principle)은 상위 20%의 핵심 고객에 대한 우선적인 마케팅을 비롯하여 기업 경영의 많은 부분에서 적용되어 왔다. 파레토 법칙과는 대조적으로, 80%의 사소한 다수가 20%의 핵심적인 소수보다 우월한 가치를 창출한다는 롱테일 법칙(Long Tail theory)은 ICT(Information and Communication Technology)의 발전과 함께 새로운 경영 패러다임으로 주목 받아오고 있다. 본 연구의 목적은 경영 현장에서 양대 흐름을 형성해온 이러한 법칙들이 변화무쌍한 글로벌 가상화 환경에서 기업의 핵심적인 성공 요인이라고 할 수 있는 가상 지식 협업에는 어떻게 관련되는지를 규명하는 것이다. 이를 위해, 대표적인 가상 지식 협업 커뮤니티인 위키피디아에서 품질 최상위 등급인 피쳐드 아티클(Featured Article) 레벨로 승급된 2,978개의 아티클에 대한 협업 행위를 분석하였다. 즉, 각 아티클 그룹에서 편집 횟수 기준 상위 20%에 속하는 참여자들의 총 편집 횟수가 전체 편집 횟수에서 차지하는 비율인 파레토 비율(Pareto ratio)이 지식 협업 효율성과 어떤 관계를 가지고 있는지를 도출하였다. 그리고, 이러한 연구를 편집 참여를 통한 지식 공유에 대한 전체적인 불평등 정도를 나타내는 지니 계수(Gini coefficient)의 영향 및 그룹의 작업 특성을 반영하도록 확장하였다. 결과적으로, 지식 공유의 파레토 비율과 지니 계수가 증가하면 지식 협업 효율성도 높아지지만, 이러한 변수들이 일정 수준 이상으로 증가하면 오히려 지식 협업 효율성이 낮아지는 역 U자(inverted U-shaped) 관계가 있음을 확인하였다. 그리고, 이러한 관계는 인지적 노력을 상대적으로 더 많이 요구하는 학문적인 특성의 작업에서 더 민감하게 작용하는 것으로 보인다.

뉴스기사를 이용한 소비자의 경기심리지수 생성 (Construction of Consumer Confidence index based on Sentiment analysis using News articles)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.1-27
    • /
    • 2017
  • 경제주체들의 경기상황에 대한 판단 및 전망은 경기변동에 영향을 미치므로 경기심리지수와 거시경제지표들 간에는 밀접한 관련성을 나타내는 것으로 알려져 있다. 경기선행지표로 국내에서 많이 사용되는 경기심리지수에는 소비자동향조사, 기업경기조사, 경제심리지수가 있다. 그러나 설문조사를 통해 생성된 지수는 자료의 성격상 속보성이 떨어지는 문제가 있다. 본 연구에서는 이러한 정형데이터의 한계를 보완할 수 있도록 비정형데이터에서 정보를 추출해 경기심리지수를 생성하고, 경제분석에서의 활용 가능성을 검토하였다. 민간소비와 관련된 실물지표에는 소매판매업지수와 서비스업생산지수를 사용하였고, 고용지표에는 고용률과 실업률을, 가격지표에는 소비자물가상승률과 가계의 대출금리를 사용하여 지표들 간의 추이 분석 및 시차구조 파악을 위한 교차상관분석을 수행하였다. 마지막으로 이들 지표들에 대한 예측 가능성을 점검하였다. 분석결과, 다른 지표들의 선행지수로 많이 사용되는 소비자심리지수와 비교해 선택 지표들과 높은 상관관계를 보이며, 1~2개월 선행한 것으로 나타났다. 예측력 또한 향상되어 텍스트데이터에서 생성한 소비자 경기심리지수의 유용성이 확인되었다. 온라인에서 생성되는 뉴스기사나 소셜 SNS 등의 텍스트 데이터는 속보성이 뛰어나고, 커버리지가 넓어 특정 경제적 이슈가 발생할 경우 이것이 경제에 미치는 영향을 빠르게 파악할 수 있다는 점에서 경기판단지표로써의 잠재적 가능성이 클 것으로 보인다. 경제분석에서 비정형데이터를 활용한 국내연구는 초기 단계지만 데이터의 유용성이 확인되면 그 활용도가 크게 높아질 것으로 기대한다.

빅데이터와 딥러닝을 활용한 동물 감염병 확산 차단 (Animal Infectious Diseases Prevention through Big Data and Deep Learning)

  • 김성현;최준기;김재석;장아름;이재호;차경진;이상원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.137-154
    • /
    • 2018
  • 조류인플루엔자와 구제역 같은 동물감염병은 거의 매년 발생하며 국가에 막대한 경제적 사회적 손실을 일으키고 있다. 이를 예방하기 위해서 그간 방역당국은 다양한 인적, 물적 노력을 기울였지만 감염병은 지속적으로 발생해 왔다. 최근 빅데이터와 딥러닝 기술을 활용하여 감염병의 예측모델을 개발하고자 하는 시도가 시작되고 있지만, 실제로 활용가능한 모델구축 연구와 사례보고는 활발히 진행되고 있지 않은 실정이다. KT와 과학기술정보통신부는 2014년부터 국가 R&D사업의 일환으로 축산관련 차량의 이동경로를 분석하여 예측하는 빅데이터 사업을 수행하고 있다. 동물감염병 예방을 위하여 연구진은 최초에는 차량이동 데이터를 활용한 회귀분석모델을 기반으로 한 예측모델을 개발하였다. 이후에는 기계학습을 활용하여 좀 더 정확한 예측 모델을 구성하였다. 특히, 2017년 예측모델에서는 시설물에 대한 확산 위험도를 추가하였고 모델링의 하이퍼 파라미터를 다양하게 고려하여 모델의 성능을 높였다. 정오분류표와 ROC 커브를 확인한 결과, 기계 학습 모델보다 2017년 구성된 모형이 우수함을 확인 할 수 있었다. 또한 2017에는 결과에 대한 설명을 추가하여 방역당국의 의사결정을 돕고 이해관계자를 설득할 수 있는 근거를 확보하였다. 본 연구는 빅데이터를 활용하여 동물감염병예방시스템을 구축한 사례연구로 모델주요변수값, 이에따른 실제예측성능결과, 그리고 상세하게 기술된 시스템구축 프로세스는 향후 감염병예방 영역의 지속적인 빅데이터활용 및 분석 모델 개발에 기여할 수 있을 것이다. 또한 본 연구에서 구축한 시스템을 통해 보다 사전적이고 효과적인 방역을 할 수 있을 것으로 기대한다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.