• 제목/요약/키워드: Intelligence Based Society

검색결과 2,914건 처리시간 0.032초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

KOSDAQ 시장의 관리종목 지정 탐지 모형 개발 (Development of a Detection Model for the Companies Designated as Administrative Issue in KOSDAQ Market)

  • 신동인;곽기영
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.157-176
    • /
    • 2018
  • 관리종목은 상장폐지 가능성이 높은 기업들을 즉시 퇴출하기 보다는 시장 안에서 일정한 제약을 부여하고, 그러한 기업들에게 상장폐지 사유를 극복할 수 있는 시간적 기회를 주는 제도이다. 뿐만 아니라 이를 투자자 및 시장참여자들에게 공시하여 투자의사결정에 주의를 환기시키는 역할을 한다. 기업의 부실화로 인한 부도 예측에 관한 연구는 많이 있으나, 부실화 가능성이 높은 기업에 대한 사회, 경제적 경보체계라 할 수 있는 관리종목에 관한 연구는 상대적으로 매우 부족하다. 이에 본 연구는 코스닥 기업들 가운데 관리종목 지정 기업과 비관리종목 기업을 표본으로 삼아 로지스틱 회귀분석과 의사결정나무 분석을 이용하여 관리종목 지정 예측 모형을 개발하고 검증하였다. 분석결과에 따르면 로지스틱 회귀분석 모형은 ROE(세전계속사업이익), 자기자본현금흐름률, 총자산회전율을 사용하여 관리종목 지정을 예측하였으며, 전체 평균 예측 정확도는 검증용 데이터셋에 대해 86%의 높은 성능을 보여주었다. 의사결정나무 모형은 현금흐름/총자산과 ROA(당기순이익)를 통한 분류규칙을 적용하여 약 87%의 예측 정확도를 보여주었다. 로지스틱 회귀분석 기반의 관리종목 탐지 모형의 경우 ROE(세전계속사업이익)와 같은 구체적인 관리종목 지정 사유를 반영하면서 기업의 활동성에 초점을 맞추어 관리종목 지정 경향성을 설명하는 반면, 의사결정 관리종목 탐지 모형은 기업의 현금흐름을 중심으로 하여 관리종목 지정을 예측하는 것으로 나타났다.

쿠폰 다운로드를 기준으로 하는 온라인 광고비 모델의 설계 및 분석 (Design and Analysis of Online Advertising Expenditure Model based on Coupon Download)

  • 전정호;이경전
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.1-19
    • /
    • 2010
  • 기존의 인터넷 광고비 모델에는 CPM (Cost Per Mile), CPC (Cost Per Click), CPS (Cost Per Sales) 등이 존재하며, 특히 CPC 모델은 광고주와 미디어에게 모두 합리적이라는 평가를 받으며, 인터넷 광고 시장에서 높은 비중을 차지하고 있다. 그러나 CPC 모델 또한, 경쟁 사업자에 의한 과도한 광고비 부과나 부정한 광고 수익 등을 목적으로 하는 부정 행위가 발생할 수 있고, 사용자의 전환 의도 없는 광고물 클릭으로 인해 광고주에게 부당한 광고비가 부과될 수 있는 것이 사실이다. 이에 본 연구에서는 새로운 광고비 모델인 'CPCD' (Cost Per Coupon Download) 모델을 제안한다. CPCD 모델은 사용자가 단순히 광고물을 클릭하는 행동을 넘어 광고주가 제공하는 쿠폰을 다운로드 받았을 때 광고비가 부과되는 모델로서, CPC 모델과 CPS 모델의 중간 개념이라고 할 수 있다. 본 연구에서는 CPCD 모델의 설계 및 분석을 위하여 발생 가능한 시나리오를 제시하고, 프로세스 분석 및 관련 이슈에 대한 검토를 수행한다. 그리고 CPCD 모델에 참여하는 각 사업 참여자들에 대한 분석을 수행하고, 비용 시뮬레이션을 통해 CPC 모델과 CPCD 모델을 비교함으로써, CPCD 모델에 참여하는 광고주의 사업 참여 조건을 밝히며, 마지막으로 유비쿼터스 환경에서 CPCD 모델의 적용 가능성에 대하여 고찰한다.

사회연결망분석과 인공신경망을 이용한 추천시스템 성능 예측 (Predicting the Performance of Recommender Systems through Social Network Analysis and Artificial Neural Network)

  • 조윤호;김인환
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.159-172
    • /
    • 2010
  • 협업필터링 추천은 다양한 분야에서 활용되고 있지만 트랜잭션 데이터의 성격에 따라 추천 성능에 현저한 차이를 보이고 있다. 기존 연구에서는 이러한 추천 성능의 차이가 나타나는 이유에 대한 설명을 구체적으로 제시하지 못하고 있고 이에 따라 추천 성능의 예측 또한 연구된 바가 없다. 본 연구는 사회네트워크분석과 인공신경망 모형을 이용하여 협업필터링 추천시스템의 성능을 예측하고자 한다. 본 연구의 목적을 달성하기 위해 국내 백화점의 트랜잭션 데이터를 기반으로 형성되는 고객간 사회 네트워크의 구조적 지표를 측정한 후 이를 기반으로 인공신경망 모형을 구축하고 검증한다. 본 연구는 협업필터링 추천 성능을 예측할 수 있는 새로운 모형을 제시하였다는 점에서 그 의의가 있으며 이를 통해 기업들의 협업필터링 추천시스템 도입에 대한 의사결정에 도움을 줄 수 있을 것으로 기대된다.

지능적인 RFID 미들웨어 시스템을 위한 적응형 윈도우 슬라이딩 기반의 유연한 데이터 정제 (A Smoothing Data Cleaning based on Adaptive Window Sliding for Intelligent RFID Middleware Systems)

  • 신동천;오동옥;류승완;박세권
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.1-18
    • /
    • 2014
  • RFID는 유비쿼터스 환경의 다양한 응용분야에서 기본적인 기술로 사용되어 왔다. 특히, 사물 인터넷을 위한 향후 RFID 기술의 폭 넓은 활용의 장애물중의 하나는 태그 리더기에 의한 RFID 데이터의 근본적인 비 신뢰성이다. 특히, 읽기 손실과 잘못된 읽기 같은 읽기오류 문제는 RFID 시스템이 적절히 처리해야 할 필요가 있다. 왜냐하면, 미들웨어 시스템이 전달한 오류 데이터는 궁극적으로 응용 서비스의 품질을 저하시킬 수 있기 때문이다. 따라서 높은 품질의 서비스를 위해서 지능형 RFID 미들웨어 시스템은 응용에 깨끗한 데이터를 전달하기 위해 읽기오류를 상황에 따라 적절하게 처리하여야 한다. 읽기 오류를 해결하기 위한 보편적인 방법 중의 하나는 슬라이딩 윈도우 필터의 사용이다. 따라서 최적의 윈도우 크기를 결정하는 것은 특히 모바일 환경에서는 읽기 오류를 줄이기 위해 쉽지 않은 중요한 일이다. 본 논문에서는 지능형 윈도우 크기 조정을 통해 읽기 오류를 줄이기 위하여 단일 태그를 위한 RFID 데이터 정제 방안을 제안한다. 이항 샘플링을 기반으로 한 기존 연구와 달리, 본 논문에서는 가중치 평균을 사용한다. 이는 최근의 읽기가 더 정확한 현재의 태그 전이를 나타낼 수 있으므로 과거와 현재의 읽기를 차별화하는 일이 필요하다는 것에 기반을 두고 있다. 가중치 평균을 사용하므로 이질적인 읽기 패턴을 갖는 모바일 환경에서도 효율적으로 적응하여 윈도우 크기를 동적으로 조정할 수 있게 된다. 뿐만 아니라, 윈도우 내의 읽음 패턴과 감소되는 윈도우 크기의 효과를 분석함으로서 더욱 효율적이고 정확한 크기 조정 결정을 할 수 있도록 한다. 제안한 방안을 사용하면 RFID 미들웨어 시스템이 응용에 좀 더 정확하고 무결점의 데이터를 제공함으로써 본래의 응용 서비스 품질을 보장할 수 있도록 한다는 궁극적인 목적을 달성할 수 있을 것으로 기대한다.

오피니언 분류의 감성사전 활용효과에 대한 연구 (A Study on the Effect of Using Sentiment Lexicon in Opinion Classification)

  • 김승우;김남규
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.133-148
    • /
    • 2014
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

UML의 부분-전체 관계에 대한 메타모델 형식화 이론의 적용: 집합연관 및 복합연관 판별 실험 (Applying Meta-model Formalization of Part-Whole Relationship to UML: Experiment on Classification of Aggregation and Composition)

  • 김태경
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.99-118
    • /
    • 2015
  • 정보 시스템 개발에 있어 객체지향 프로그래밍 언어가 널리 사용된다. 이와 함께 객체지향 설계를 뒷받침하는 개념적 모델링 언어에 관한 관심도 높다. 이를 배경으로 통합 모델링 언어 혹은 UML로 알려진 개념적 모델링 언어는 여러 객체 지향 프로그래밍 언어와 함께 사용되면서 사후적 표준으로 자리 잡았다. UML은 클래스를 설계의 중심에 둔다. 또한 클래스들 간의 관계를 통해 체계적인 이해를 가능하게 한다. 특히 부분에 해당하는 클래스들과 전체에 해당하는 클래스의 관계인 부분-전체 관계를 설계할 수 있는 문법 또한 UML에 포함된다. 현실 세계에 부분-전체 관계로 파악될 수 있는 여러대상들이 존재하고 비즈니스 활동에 존재하는 각종 역할들의 구조에서도 부분-전체 관계로 표현될 수 있는 대상들이 보편적으로 보인다. 따라서 UML로 클래스들 간의 부분-전체 관계를 드러내는 일은 자연스럽다. 문제는 부분-전체 관계를 파악하는 활동은 UML 2.0의 표준에 포함되었으나 실제 설계 과정에서 적극 활용하기 위한 실천적 이론화가 부족하다는 점이다. 부분-전체 관계를 집합연관과 복합연관으로 세분화한 UML 문법은 표현 양식에서 부족함은 없을지라도 어떤 대상을 부분-전체로 파악하고, 이를 어떻게 집합연관이나 복합연관으로 분류해야 할 것인지에 대한 판단이 쉽게 결여된다. 지금까지 UML의 부분-전체 관계 규명은 언어적 표현법을 활용하는 것에 치우쳤다. 이와 같은 문제에 대한 대안을 제시하기 위해 본 연구는 메타모델 형식화 이론을 기반으로 UML 사용자가 부분-전체 관계를 판단하고 이를 집합연관과 복합연관으로 분류할 수 있는 실천적 대안을 제시한다. 이를 활용한 실험의 결과 메타모델 형식화가 UML 사용자들에게 통용되어 온 언어적 구분법보다 더 나은 결과를 낳는다는 점이 밝혀졌다. 본 연구는 부분-전체의 판별과 구분에 도움을 주는 실용적인 방법을 제안하고 검증하였다는 점에서 의의가 있다.

멀티에이전트시스템(MAS)을 이용한 G2B 조달 프로세스 혁신의 효과평가에 관한 연구 : 나라장터 G2B사례 (A Study on the Performance Evaluation of G2B Procurement Process Innovation by Using MAS: Korea G2B KONEPS Case)

  • 서원준;이대철;임규건
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.157-175
    • /
    • 2012
  • 방대한 규모와 복잡한 프로세스로 구성된 공공조달의 혁신성과를 평가하기란 매우 어려운 문제이다. 기존의 프로세스 혁신 평가는 주로 설문 및 인터뷰, 그리고 운영데이터를 분석한 정성적, 또는 통계적인 정량적 방법들이었다. 이에 본 연구에서는 공공조달 프로세스를 복잡계로 보고 이에 대한 시뮬레이션 방법으로 멀티에이전트시스템(MAS)을 이용하여 공공조달 프로세스 혁신효과 평가모델을 개발하였다. 그리고, 개발된 MAS 기반의 공공조달 혁신평가 모델을 우리나라 조달청의 G2B(나라장터, KONEPS) 시스템에 적용하여 혁신효과를 평가하였다. MAS 시뮬레이션 도구는 Northwestern University에서 개발된 Netlogo Version 4.1.3을 사용하였고, 모델링에서는 에이전트 정의, 에이전트 행동특성 정의, 에이전트 관계 정의의 세단계로 진행하였다. 첫째, 에이전트 정의에서는 에이전트가 될 대상을 선정하고, 에이전트가 가진 속성과 변수들을 정의하였다. 둘째, 행동특성 정의에서는 각 에이전트의 행동계획 및 자원할당을 설정하였고, 셋째, 관계정의 단계에서는 상태변화에 따른 행동 규칙을 설정하였다. 또한 프로세스 혁신의 목적에 맞는 성과를 측정하기 위하여 혁신 효과평가항목을 선정하였고, 데이터는 조달청의 협조를 통해 DB 데이터와 설문데이터를 활용하였다. 이를 통해 프로세스 전체 및 프로세스별 절감시간과 업무량의 절감율을 측정하였다. 실험결과 전체 프로세스의 효율성이 증대되었으며 '평균 업무처리 건수'의 절감율이 92.7%, '평균 업무처리 시간'의 절감율이 95.4%로 나타났다. 즉 공공조달분야는 G2B 시스템 도입을 통해 프로세스 혁신을 추진한 결과 매우 높은 효율성이 제고된 것으로 분석되었다. 또한 본 연구를 통해 '계약'과 관련한 업무프로세스에서 추가적인 개선이 이루어질 경우 프로세스 혁신효과가 더욱 향상될 수 있는 것으로 분석되었다. 본 연구는 MAS를 이용하여 프로세스 개선효과에 대한 평가모델을 제시하고 분석했다는데 의의가 있다.

IPTV환경에서 온톨로지와 k-medoids기법을 이용한 개인화 시스템 (Personalized Recommendation System for IPTV using Ontology and K-medoids)

  • 윤병대;김종우;조용석;강상길
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.147-161
    • /
    • 2010
  • 최근 방송과 통신의 융합으로 TV에 통신이라는 기술이 접목되면서, TV 시청 형태에 많은 변화를 가져왔다. 이러한 형태의 TV 시청 변화는 서비스 선택의 폭을 넓혀주지만 프로그램을 선택을 위해 많은 시간을 투자해야 한다. 이러한 단점을 개선하기 위해서 본 논문에서는 IPTV환경에서 사용자의 다양한 콘텐츠를 제공하는 방송 환경에서 고객의 시청 정보를 바탕으로 고객 사용정보 온톨로지를 구축하고 그에 따라 고객을 k-medoids 방법을 이용해서 클러스터링 한다. 이를 바탕으로 고객이 선호하는 콘텐츠를 추천 하는 방법을 제안하였다. 실험부분에서 본 제안방법의 우수성을 기존의 방법과 비교하여 보여준다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.