• 제목/요약/키워드: 연관 규칙 알고리즘

검색결과 200건 처리시간 0.024초

FP-Tree 및 DRFP 의 성능 개선 기법 (Technique for Improving performance of FP-Tree and DRFP)

  • 조경수;정재호;김영희;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.844-847
    • /
    • 2010
  • FP-tree는 연관성 규칙 알고리즘 전체의 성능을 향상 시키며 DB 스캔을 단 2회로 줄였다. 하지만 빈발 항목과 모든 트랜잭션의 tree 정보를 메모리에 상주 시키면서 많은 메모리 공간을 요구했다. 그래서 나온 DRFP알고리즘은 메모리 요구 문제를 저장장치에 저장함으로 해결 하였으나 FP-tree와는 달리 시간 성능에서의 문제점을 가졌다. 그래서 우리는 이러한 문제점을 보완할 NRFP-tree(Nare disc-Resident Frequent pattern Tree)를 제안한다.

이공계 대학 연구과제 특성 별 운영 형태 현황 (An analysis of operation status depending on the characteristics of R&D projects in Sciences and Engineering universities)

  • 이상숙;유인혁;김진희
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.93-100
    • /
    • 2022
  • 본 연구는 이공계 대학 연구과제 특성(단계 및 성격)별 R&D 운영 현황을 파악하여 향후 대학 R&D 지원 체계와 연구정책에 시사점을 제공하고자 하였다. 이에 본 연구는 2021년 10월 4일부터 약 5주간 국내 이공계 대학 R&D 수령인을 대상으로 온라인 설문을 진행한 후, Apriori 알고리즘을 활용하여 445명의 유효데이터를 분석하였다. 그 결과, 기초(원천)단계 연구 10개(일반적인 연구 6개, 도전적인 연구 4개), 응용단계 연구 6개(일반적인 연구 5개, 도전적인 연구 1개) 등 총 16개의 연관규칙이 도출되었다. 또한, 이공계 대학 R&D는 연구과제의 특성과 무관하게 정부(발주처) 혹은 공공기관(연구비결정권) 등의 주도로 운영되는 공통점이 나타났으며, 특히 응용연구의 특징(단계 및 성격)과 높은 연관성이 있었다. 기초(원천)단계연구의 경우, 연구자에게 연구주제에 대한 자율성을 제공하였으나 3년 차라는 짧은 연구 기간과 3년 이상의 단위로 연구가 평가되는 특징이 있었다. 이러한 연구 결과는 이공계 대학 연구과제 특성에 따른 운영 형태를 다양한 변인 간의 연관성을 드러내는 실증적 근거로써 활용될 수 있다. 아울러, 본 연구는 향후 이공계 대학 R&D 운영 지원을 위한 정책적·재정적·운영적 지원의 개선 방향을 제시하였다.

SNS 대화 분석을 통한 주제별 적합 광고 시간대 도출 (When is the best time to run SNS AD per topic?: through conversation data analysis)

  • 이지민;전예림;이지선;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.335-336
    • /
    • 2022
  • 본 논문에서는 시간대와 대화 주제를 활용하여 카테고리별로 적절한 SNS 광고 시간대 예측 방법을 제시한다. 위의 분석으로 광고주들에게 적절한 광고시간을 제안할 수 있다. 연관규칙분석 알고리즘인 apriori를 사용하였다. 주제는 상거래(쇼핑), 미용과 건강, 시사/교육, 식음료, 여가생활로 추려서 분석하였다. 연관분석 결과, 미용과 건강이 18시, 17시, 16시에 가장 활발히 대화를 나누었다. 상거래(쇼핑)이 14시, 16시, 17시 순으로 가장 활발히 대화를 나누었으며, 시사/교육이 15시, 17시, 16시 순으로 많은 대화를 나누었으며, 식음료가 18시, 17시, 19시 순으로 대화를 많이 나눈 것을 확인했다. 마지막으로, 여가생활은 22시, 23시, 21시 순으로 각각의 대화 주제별로 가장 많이 대화를 나눈 시간대가 달라지는 것을 확인할 수 있었다. 이를 통해 소비자 입장에서는 알맞은 광고를 적절한 시간대에 추천받을 수 있다.

  • PDF

개인화 추천 시스템에서 연관 관계 군집에 의한 아이템 기반의 협력적 필터링 기술 (An Item-based Collaborative Filtering Technique by Associative Relation Clustering in Personalized Recommender Systems)

  • 정경용;김진현;정헌만;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.467-477
    • /
    • 2004
  • 추천 시스템은 예전에는 몇몇 혁신적인 전자상거래(E-commerce) 사이트에서만 사용되어 왔으나 현재는 전자상거래를 새롭게 재구성하는 필수적인 비즈니스 도구가 되어가고 있다. 그리고 협력적 필터링은 이론과 실무 분야 모두에서 가장 성공적으로 평가받은 추천 기법 중 하나이다. 그러나 개인화 추천 시스템을 구축하기 위해서는 두 가지 문제를 동시에 고려해야 한다. 즉 초기 평가 문제와 희박성 문제이다. 본 논문에서는 연관 관계 군집과 연관 규칙의 향상도를 이용하여 이러한 문제를 해결하고자 한다. 사용자의 평가 데이타를 사용하여 아이템간의 향상도를 산출하고, a-cut에 의한 임계값을 아이템들간의 연관성에 적용한다. 연관 관계 군집의 효율성을 높이기 위해서 기존의 Hypergraph Clique Clustering 알고리즘과 본 연구에서 제안하는 Split Cluster Method를 이용하였다. 군집이 완성되면, 각 군집 내부에서 아이템간의 유사도를 산출하고 빠른 액세스를 위해 인덱스를 데이터베이스에 저장한다. 새로운 아이템들의 선호도 예측 시에 생성한 인덱스를 적용시킨다. 성능을 평가하기 위해서 기존의 협력적 필터링 기술과 비교 평가하였다. 그 결과 기존의 협력적 필터링 기술의 문제점을 해결하여 예측의 정확도를 높이는데 효과적임을 확인하였다.

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.

관세 정형 빅데이터를 활용한 우범공급망 거래패턴 선별 (Transaction Pattern Discrimination of Malicious Supply Chain using Tariff-Structured Big Data)

  • 김성찬;송사광;조민희;신수현
    • 한국콘텐츠학회논문지
    • /
    • 제21권2호
    • /
    • pp.121-129
    • /
    • 2021
  • 본 연구에서는 데이터마이닝(Data Mining) 기법 중 하나인 연관관계분석(Association Rule Mining)을 적용하여 위험화물 선별모델을 구축함으로써 관세위험을 최소화하고자 한다. 이를 위해 관세청 수입신고서 빅데이터를 활용하여 연관관계분석 알고리즘인 어프라이어리 알고리즘(Apriori Algorithm)을 적용하고 공급망 간의 위험정도를 계산한다. 대규모의 수입신고 데이터로부터 해외공급자와 수입업체 간의 세율관련(과세가격, 품목, 중수량 등), 원산지표시 위반 등에 관련한 적발결과 관한 규칙셋(Rule Set)과 이 규칙들의 신뢰도(Confidence)을 확보하여 우범공급망 간의 거래패턴을 예측할 수 있는 선별모델을 구축한다. 총 2년 6개월 치의 수입신고 데이터를 활용하여 5-겹 교차검증(5-fold cross validation)을 수행한 결과 16.6%의 Precision과 33.8%의 Recall을 보였다. 이는 빈도기반 방법보다 Precision 기준 약 3.4배 Recall 기준 약 1.5배 높은 결과이다. 이로써 논문에서 제안하고 있는 방법이 관세위험을 줄일 수 있는 효과적인 방법임을 확인하였다.

기계학습 기반 경쟁자 자동추출 방법 (Competitor Extraction based on Machine Learning Methods)

  • 이충희;김현진;류법모;김현기;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

이산 속성 컨텍스트를 위한 시퀀스 매칭 기반 컨텍스트 예측 (Context Prediction based on Sequence Matching for Contexts with Discrete Attribute)

  • 최영환;이상용
    • 한국지능시스템학회논문지
    • /
    • 제21권4호
    • /
    • pp.463-468
    • /
    • 2011
  • 지금까지 컨텍스트 예측 방법들은 이산 속성 컨텍스트를 대상으로 예측을 수행한 경우와 연속 속성 컨텍스트를 대상으로 예측을 수행한 경우로 나뉘어서 발전되어 왔다. 대부분의 예측 방법들은 컨텍스트의 획득 환경이나 특성에 맞게 특정 도메인에서 각각 예측 알고리즘을 작성하여 사용하여 왔기 때문에, 다양한 환경과 특성을 갖는 사용자의 컨텍스트를 대상으로 예측을 수행하기가 어렵다. 본 논문에서는 특정 도메인이나 컨텍스트의 특성에 국한되지 않고 이산 속성이나 연속 속성 컨텍스트들에 모두 적용 가능한 컨텍스트 예측 방법을 제안한다. 이를 위해 컨텍스트 속성간의 연관규칙을 고려하여 컨텍스트를 시퀀스로 생성하고, 컨텍스트 속성별 가변 가중치를 적용시켜 시퀀스 매칭 기반의 컨텍스트 예측을 수행한다. 제안한 방법을 평가하기 위해 이산 속성 컨텍스트와 연속 속성 컨텍스트에 각각 시뮬레이션한 결과 이산 속성 컨텍스트에서 80.12%, 연속 속성 컨텍스트에서 81.43%의 예측 정확도로 기존 예측방법들과 비슷한 성능을 보였다.

인적재난사고사례기반의 새로운 재난전조정보 등급판정 연구 (Developing an Intelligent System for the Analysis of Signs Of Disaster)

  • 이영재
    • 한국재난관리표준학회지
    • /
    • 제4권2호
    • /
    • pp.29-40
    • /
    • 2011
  • 본 연구는 인적재난 분야에 다양한 재난전조자료를 수집 분석하여 재난 위험등급을 결정하는 의사결정체계를 구축할 목적으로 재난전조 정의, 재난전조정보를 분석하기 위한 분류체계, 재난전조정보 위험등급을 판단하기 위한 논리적 알고리즘, 대응 조치사항을 포함한 권고사항 등을 연구하였다. 본 연구에서 의사결정체계를 위해 적용된 온톨로지 기법은 기본요소들의 분류 및 3계층 속성 분류만을 도입하였고, 텍스트 마이닝 기법에서는 용어의 빈도수 분석 및 신뢰도 계산 부분을 도입하여 연관성 규칙의 기본구조를 밝혀냈다. 이 기본구조에 과거 재난사례를 적용하여 연관성 규칙을 생성하였으며, 새로운 재난전조정보와 비교하여 위험등급을 추론하는 사례기반추론 기법을 사용하였다. 본 연구에서 제시된 지능형 의사결정체계는 의사결정자가 재난전조정보를 바탕으로 위험등급을 결정하여 사전예방조치를 할 수 있도록 도와주며, 궁극적으로 재난발생 가능성을 줄일 수 있다.

  • PDF

데이터마이닝 기법 적용을 위한 공용 XML 구조 추출 알고리즘 (Common XML Structure Extracting Algorithm for Applying Data Mining Techniques)

  • 장민석;방현진
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.1072-1076
    • /
    • 2005
  • 현재 구조화된 데이터 표현의 표준으로 XML 언어가 일반화되고 있는 경향으로 인해 데이터 마이닝 대상으로서의 XML의 중요성이 점증하고 있는 실정이다. 특히 XML 문서에 연관규칙(association rule)을 적용함으로써 원하는 정보를 추출하는 연구가 진행되어 왔다. 하지만 마이너가 유사한 XML 문서들로부터 효율적으로 정보를 얻어내는 방법에 대한 문제에 대해서는 별 진전이 없었다. 본 연구에서는 다양한 XML Schema를 적용하는 유사한 XML 문서들로부터 공용 XML 구조를 추출하는 방법을 제안하고자 한다. 이러한 공용 XML Schema는 다양한 XML 구조를 단일화함으로써 우리가 원하는 정보를 정확하고 효율적으로 얻어낼 수 있도록 도와주는 데이터 마이닝의 사전 작업으로서 중요하다고 판단된다. 본 논문에서는 다양한 XML Schema를 적용하는 유사한 XML 문서들로부터 공용 XML 구조를 추출하는 방법을 제시한다.

  • PDF