• 제목/요약/키워드: Data Mining Technique

검색결과 637건 처리시간 0.022초

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.

토픽모델링을 활용한 국내 문헌정보학 연구동향 분석 (A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling)

  • 박자현;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.7-32
    • /
    • 2013
  • 본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관 정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교 분석한 결과, '정보학'영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, '도서관 서비스'영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, '문헌정보학 기초'영역의 도서관과 사회, 전문성, '자료조직'영역의 분류, 편목, 메타데이터, '도서관 경영'영역의 도서관 평가, 장서개발/관리, '서지학'영역의 고서지, '도서관 체제'영역의 도서관 및 정보정책, '출판'영역의 도서/출판, '기록관리학'영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교 분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관 정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

비즈니스 인텔리전스 시스템의 활용 방안에 관한 연구: 설명 기능을 중심으로 (A study on the use of a Business Intelligence system : the role of explanations)

  • 권영옥
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.155-169
    • /
    • 2014
  • 다양한 빅데이터 기술이 발전함에 따라, 기업의 전략결정에 있어서 과거에는 의사결정자의 직관이나 경험에 의존하는 경향이 있었다면, 현재는 데이터를 활용한 과학적이고 분석적인 접근이 이루어지고 있다. 이에 많은 기업들이 경영정보시스템 중의 하나인 비즈니스 인텔리전스 (Business Intelligence) 시스템의 예측분석 기능을 활용하고 있다. 하지만, 이러한 시스템이 미래의 경영환경 변화를 예측하고 기업의 의사결정을 돕는 조언자 (Advisor)로서 역할을 한다고 가정할 때, 시스템에서 제공하는 분석결과가 의사결정자에게 도움을 주는 조언 (Advice) 의 역할을 하지 못하는 경우가 많은 실정이다. 따라서, 본 연구에서는 미래예측의 문제에 있어 의사결정자가 시스템의 조언을 따르는데 영향을 미치는 요소들과 영향력에 대해 분석하고, 그 결과를 바탕으로 데이터 기반의 의사결정을 보다 적극적으로 지원하는 시스템 환경을 제시하고자 한다. 좀 더 구체적으로는 예측 과정에 대한 자세한 설명이나 근거 제시가 시스템의 예측결과에 대한 의사결정자의 수용정도에 미치는 영향을 연구하였다. 이를 위하여 193명의 실험자를 대상으로 영화의 개봉 주 매출액을 예측하는 업무를 수행하고, 예측에 대한 설명의 길이와 조언자의 유형(사람과 시스템의 조언 비교)뿐 아니라 의사결정자의 개인 특성이 의사결정자의 조언 수용정도에 미치는 영향을 분석하였다. 시스템에서 제공하는 조언 내용인 예측결과와 설명에 대해 의사결정가가 느끼는 유용성, 신뢰성, 만족도가 조언의 수용에 미치는 영향도 분석하였다. 본 연구는 시스템의 분석결과를 조언으로 보고 조언자와 조언에 관한 의사결정학 분야의 선행연구를 접목시켜 경영정보시스템 연구 분야를 확장하였다는 점에서 연구의 의의가 있고, 실무적으로도 데이터 기반의 의사결정을 보다 적극적으로 지원할 수 있는 시스템 환경을 만들기 위해서 고려해야 할 점들을 제시함으로써 시스템 활용을 위한 정책결정에도 도움을 줄 수 있을 것으로 본다.

블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가 (Evaluation of Preference by Bukhansan Dulegil Course Using Sentiment Analysis of Blog Data)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제49권3호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 탐방객이 자유롭게 서술한 블로그 텍스트 데이터를 자연어 처리 기술 중 하나인 감성분석을 활용하여 북한산둘레길의 선호도를 평가하고, 선호 요인과 비선호 요인을 도출하는 것을 목적으로 하였다. 이에 2019년 1년 동안 작성된 블로그를 수집하고 21개 둘레길 구간별 텍스트에 나타난 긍정 및 부정 감성 단어 도출을 통해 감성점수를 산출하였다. 이후 내용분석을 통해 탐방객이 어떤 요소로 인해 구간을 선호하거나 선호하지 않는지 파악하였다. 북한산둘레길에 대해 작성된 블로그에서는 긍정적인 단어가 평균적으로 약 73% 출현하고 있었고, 각 구간별 게시물의 감성 극성 비율에서도 긍정적인 문서의 비율이 부정적인 문서의 비율보다 높았다. 이를 통해 탐방객은 북한산둘레길에 대하여 대체로 긍정적으로 인식하고 있는 것으로 나타났다. 그럼에도 감성점수를 도출한 결과, 21개 둘레길 구간에서는 선호하는 구간과 선호하지 않는 구간이 존재하고 있었다. 선호 구간과 비선호 구간에 대해 탐방객은 난이도가 낮고 부담 없이 걸을 수 있는 구간을 선호하고 있었고, 경관에 대한 여러 요소(시각, 청각, 후각 등)가 조화롭고 계절감이 뚜렷해 다양한 경관이 연출되는 곳, 경관 시퀀스의 변화가 존재하는 구간을 선호하는 것으로 나타났다. 또한 탐방객은 전망대, 조망점 등의 뷰포인트 유무를 둘레길에서의 주요 요소로 인식하고 있었고, 접근성이 우수하고 안내판 등 정보 제공이 원활하게 이뤄지는 구간에 대해 선호도가 더 높은 것을 알 수 있다. 반면, 도로와 인접함에 따라 발생되는 주변 소음과 과도한 시가지 비율, 구간별 난이도 불균형 등으로 인한 둘레길 동선 불만족이 비선호 요인으로 크게 작용하고 있었으며, 경관 단절 및 구간에 대한 정보 부족 등이 선호도를 떨어트리는 원인으로 나타났다. 본 연구의 결과는 국립공원뿐만 아니라 근교 산림 녹지 관리에 있어서 둘레길 정비 및 개선방안 마련에 활용될 수 있으며, 연구에 활용된 감성분석은 자연지역에 대한 실제 이용자들의 반응을 지속적으로 모니터링 할 수 있다는 점에 의의가 있다. 다만 사전에 정의된 감성사전을 기반으로 평가하였기에 지속적인 사전 업데이트가 필요하다. 또한 소셜미디어 특성상 부정적인 견해보다는 긍정적인 내용을 공유하는 경향이 존재하기 때문에, 현장 설문조사 등의 분석 결과와 비교, 검토하는 작업이 필요하다.

협업 필터링 및 하이브리드 필터링을 이용한 동종 브랜드 판매 매장간(間) 취급 SKU 추천 시스템 (SKU recommender system for retail stores that carry identical brands using collaborative filtering and hybrid filtering)

  • 조용민;남기환
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.77-110
    • /
    • 2017
  • 최근 인터넷 기반의 웹 및 모바일 기기를 통한 소비 패턴의 다양화와 개성화가 급진전됨에 따라 전통적 유통채널인 오프라인 매장의 효율적 운영이 더욱 중요해졌다. 매장의 매출과 수익 모두를 제고하기 위해 매장은 소비자에게 가장 매력적인 상품을 적시에 공급-판매 해야 하는데 많은 상품들 중에서 어떤 SKU를 취급하는 것이 판매 확률을 높이고 재고 비용을 낮출 수 있는지에 대한 연구가 부족한 실정이다. 특히, 여러 지역에 걸쳐 다수의 오프라인 매장을 통해 상품을 판매하는 기업의 경우 고객에게 매력적인 적절한 SKU를 추천 받아 취급할 수 있다면 매장의 매출 및 수익률 제고에 도움이 될 것이다. 본 연구에서는 개인화 추천에 이용되어 왔던 협업 필터링과 하이브리드 필터링 등의 추천 시스템(Recommender System)을 국가별, 지역별로 복수의 판매 매장을 통해 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하였다. 각 매장의 취급 품목별 구매 데이터를 활용하여 각 매장 별 유사성(Similarity)을 계산하고 각 매장의 SKU별 판매 이력에 따라 협업 필터링을 하여 최종적으로 매장에 개별 SKU를 추천하였다. 또한 매장 프로파일 데이터를 활용하여 주변수 분석 (PCA : Principal Component Analysis) 및 군집 분석(Clustering)을 통하여 매장을 4개의 군집으로 분류한 뒤 각 군집 내에서 협업 필터링을 적용한 하이브리드 필터링 방식으로 추천 시스템을 구현하고 실제 판매 데이터를 바탕으로 두 방식의 성능을 측정하였다. 현존하는 대부분의 추천 시스템은 사용자에게 영화, 음악 등의 아이템을 추천하는 방식으로 연구가 진행되어 왔고 실제로 산업계에서의 적용 또한 개인화 추천 시스템이 주류를 이루고 있다. 그 동안 개인화 서비스 영역에서 주로 다루어져 왔던 이러한 추천 시스템을 동종 브랜드를 취급하는 유통 기업의 매장 단위에 적용하여 각 매장의 취급 SKU를 추천하는 방식에 대한 연구는 거의 이루어지지 않고 있는 실정이다. 기존 추천 방법론의 추천 적용 대상이 '개인의 영역이었다면 본 연구에서는 국가별, 지역별로 복수의 판매 매장을 통해 개인의 영역을 넘어 매장의 영역으로 확대하여 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하고 있다. 또한 기존의 추천시스템은 온라인에 한정되었다면 이를 오프라인으로 활용 범위를 넓히고, 기존 개인을 기반으로 분석을 하는 것보다 매장영역으로 확대 적용하기에 적합한 알고리즘을 개발하기 위해 데이터마이닝 기법을 적용하여 추천 방법을 제안한다. 본 연구의 결과가 갖는 의의는 개인화 추천 알고리즘을 동일 브랜드를 취급하는 복수의 판매 매장에 적용하여 의미 있는 결과를 도출하고 실제 기업을 대상으로 시스템으로 구축하여 활용할 수 있는 구체적 방법론을 제시했다는 데에 있다. 개인화 영역을 위주로 이루어졌던 기존의 추천 시스템과 관련한 학계의 연구 영역을 동종 브랜드를 취급하는 기업의 판매 매장으로 확장시킨 첫 시도라는 데에도 의미가 있다. 2014년 03주차 ~ 05주차 전(全) 매장 판매 수량 실적 Top 100개 SKU로 추천의 대상을 한정하여 협업 필터링과 하이브리드 필터링 방식으로 52개 매장 별로 취급 SKU를 추천하고, 추천 받은 SKU에 대한 2014년 06주차 매장별 판매 실적을 집계하여 두 추천 방식의 성과를 비교하였다. 두 추천 방식을 비교한 이유는 본 연구의 추천 방법이 기존 추천 방식 보다 높은 성과를 입증하기 위해 단순히 오프라인에 협업필터링을 적용한 것을 기준 모델로 정의하였다. 이 기준 모델에 오프라인 매장 관점의 특성을 잘 반영한 본 연구 모델인 하이브리드 필터링 방법과 비교 함으로써 성과를 입증한다. 연구에서 제안한 방식은 기존 추천 방식보다 높은 성과를 나타냈으며, 이는 국내 대기업 의류업체의 실제 판매데이터를 활용하여 입증하였다. 본 연구는 개인 수준의 추천시스템을 그룹수준으로 확장하여 효율적으로 접근하는 방법을 이론적인 프레임 워크를 만들었을 뿐 아니라 실제 데이터를 기반으로 분석하여 봄으로써 실제 기업들이 적용해 볼 수 있다는 점에서 연구의 가치가 크다.