• 제목/요약/키워드: apriori

검색결과 144건 처리시간 0.022초

심근허혈 심전도 신호의 자동화된 예측을 위한 출현 패턴 마이닝 기반의 분류 방법 (An Emerging Pattern Mining based Classification Method for Automated Prediction of Myocardial Ischemia ECG Signals)

  • 이헌규;박명호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.19-22
    • /
    • 2008
  • 최근 서구화된 식생활 패턴과 흡연, 비만 등의 원인으로 인해 심근경색, 협심증과 같은 심근허혈(myocardial ischemia) 질환이 급증하고 있다. 이 논문에서는 심전도 신호로부터 허혈성 심장 질환 진단을 위해 출현 패턴 마이닝을 이용하여 심근경색 및 협심증의 진단 신호인 ischemia beat를 분류 하였다. 또한 기존의 출현 패턴 마이닝에 빠른 패턴 탐사와 저장 공간의 효율성을 고려하여 Apriori-T 빈발 패턴 탐사 알고리즘을 출현 패턴 생성이 가능하도록 확장하였다. PhysioNet의 ST-T 데이터베이스로부터 138개의 대조군(정상)과 ischemia beat 데이터에 제안된 분류 알고리즘을 실험한 결과 최소 75% 및 최대 95%의 예측 정확도를 보였다.

희소 데이터 집합에서 효율적인 빈발 항목집합 탐사 기법 (Efficient Mining of Frequent Itemsets in a Sparse Data Set)

  • 박인창;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권6호
    • /
    • pp.817-828
    • /
    • 2005
  • 빈발 항목집합 마이닝 분야의 주된 연구 주제는 수행과정에서의 메모리 사용량을 줄이고 짧은 수행 시간에 마이닝 결과 집합을 얻는 것으로서, 빈발항목 탐색을 위한 다수의 방법들은 Apriori 알고리즘에 기반을 둔 다중 탐색 방법들이다. 또한 최대 빈발 패턴의 길이가 길어질수록 마이닝 수행 시간이 급격히 증가되는 단점을 가진다. 이를 극복하기 위해서 이전의 연구에서 마이닝 수행 시간을 단축하기 위한 다양한 방법들이 제안되었다. 하지만, 다수의 이들 방법들은 희소 데이터 집합에서는 다소 비효율적인 성능을 나타낸다. 본 논문에서도 효율적인 빈발항목 탐색 방법을 제안하였다. 먼저 빈발항목 탐색을 위한 새로운 트리 구조인 $L_2$-tree 구조를 제안하였으며, 더불어 $L_2$-tree를 이용하여 빈발 항목집합을 탐색하는 $L_2$-traverse 알고리즘을 제안하였다. $L_2$-traverse 구조는 길이가 2인 빈발 항목집합 $L_2$에 기반하여 생성되는 것으로서 크기가 매우 작으며, 이를 활용한 $L_2$-traverse 알고리즘은 $L_2$-tree를 단순히 한번 탐색함으로써 전체 빈발 항목집합을 빠른 시간에 구한다. 또한 수행 시간을 보다 단축할 수 있는 방법으로 길이가 3인 빈발 항목집합 $L_3$가 될 수 없는 $L_2$ 패턴들을 미리 제거하는 $C_3$-traverse 알고리즘도 제안하였다. 다양한 실험을 통해 제안된 방법들은 특히 $L_2$가 상대적으로 적은 희소 데이터 집합 환경일 때 기존의 다른 방법들보다 우수함을 검증하였다.

RFID 데이터 스트림에서 이동궤적 패턴의 탐사 (Mining Frequent Trajectory Patterns in RFID Data Streams)

  • 서성보;이용미;이준욱;남광우;류근호;박진수
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권1호
    • /
    • pp.127-136
    • /
    • 2009
  • 이 논문은 RFID 데이터 스트림의 변화 특성을 고려하면서 단일 패스로 이동궤적 패턴을 실시간 추출하는 새로운 기법을 제안한다. RFID, 센서와 무선 네트워크 기술의 발달로 인해 현실 세계에서 실시간으로 데이터를 수집하고 유용한 패턴을 탐사하는 연구에 많은 관심이 집중되고 있다. 스트림 데이터에서 순차 패턴 또는 이동궤적 패턴을 탐사하는 기존의 연구 기법들은 반복적으로 데이터베이스 또는 트리를 탐색하는 고비용 문제점과 시간의 변화에 따르는 동적 특성을 실시간으로 패턴에 반영하지 못하는 단점이 있다. 제안하는 기법은 시간에 따라 RFID 데이터 스트림의 변화를 정확히 반영하기 위해 시간진화 그래프를 이용하여 이진 시간관계 테이블에 빈발한 2-길이 항목간 정보를 유지한다. 또한 다중 패스의 문제점을 해결하기 위해 t 시점에 이진 시간관계 테이블을 이용하여 k-길이의 후보 이동궤적 패턴을 추론하고, t+1 시점에서 후보 패턴을 검증하는 과정을 통해 k-길이 이동궤적 패턴을 단일 패스로 추출한다. 실험결과 제안하는 기법은 기존의 Apriori-계열 기법들과 비교하여 약 7% 정도 후보 패턴의 비율이 적게 생성되어 시간 및 공간 복잡도 측면에서 우수한 성능을 보였다.

  • PDF

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

웹로그를 활용한 고속 하이브리드 해외여행 상품 추천시스템 (Rapid Hybrid Recommender System with Web Log for Outbound Leisure Products)

  • 이규식;윤지원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권12호
    • /
    • pp.646-653
    • /
    • 2016
  • 해외여행시장은 매년 가파르게 성장하고 있는 산업중 하나이며 2016년 11조의 시장을 형성하고 있다. 거대한 시장형성과는 달리 해외여행상품 추천에 대한 국내연구는 전무한 상태이다. 많은 상품 추천 방법들이(협업적 필터링, 내용기반 필터링) 기존 구매 내역을 대상으로 하거나 혹은 상품의 유사성을 이용한 연구들이 주를 이루고 있다. 이러한 연구들은 연산할 데이터의 양이 많아질 경우 속도의 저하와 데이터가 충분히 확보되지 못한 상황 하에서는 좋은 성능을 보여주지 못하고 있다. 해외 여행상품의 특성상 1-2년에 한번정도의 구매패턴과 상품들의 가격대가 상대적으로 높으며, 동일 상품의 구매가 거의 없는 특징이 있기 때문에 일반적인 상품추천 시스템의 고객 프로파일링 방법으로는 적용에 한계가 있다. 이에 웹사용성(Web Usage Mining)을 통한 고객 프로파일링 기법, 데이터의 희소성 문제를 해결하기 위한 연관규칙 알고리즘과 규칙 기반 알고리즘을 결합하여 고속의 상품 추천시스템 방법을 제안한다. 본 논문에서는 연관규칙 방법에서 가장 많이 사용되어지는 Apriori 방법, 규칙기반 방법(Rule Base) 과 실제 여행사의 웹로그를 사용하여 46%라는 높은 추천 성능의 결과를 검증하였으며, 상품의 개수와 고객의 수가 상품추천 처리 속도에 영향을 주지 않으며, 실제 커머셜한 환경 하에서도 1초이내에 상품을 추천해줄 수 있는 결과를 보여준다.

다차원 학습경로 패턴 분석 시스템의 설계 및 구현 (Design and Implementation of Multi-dimensional Learning Path Pattern Analysis System)

  • 백장현;김영식
    • 정보처리학회논문지A
    • /
    • 제12A권5호
    • /
    • pp.461-470
    • /
    • 2005
  • 학습자 스스로 학습내용, 학습방법, 학습순서 등을 결정하고 재구조화할 수 있는 학습자 통제 환경에서는 학습자의 특성을 고려한 개별화 학습이 가능하다. 본 연구에서는 웹 기반 교수 학습 과정에서 중요시되고 있는 학습자 특성 변인 중에서 학습자의 학습경로 패턴을 Apriori 알고리즘을 이용하여 분석하고, 유사한 학습경로 패턴을 갖는 학습자들로 그룹화하였다. 이를 기반으로 학습자 개인에게 학습경로, 학습내용. 학습매체, 보조학습콘텐츠, 자료제시유형 등을 다차원적으로 제공하기 위한 다차원 학습경로 패턴 분석 시스템을 설계하고 구현하였다. 개발된 시스템에 대하여 만족도 검사를 실시한 결과 보조학습콘텐츠에 대한 만족도가 "매우 만족" $24.5\%$, "만족" $35.17\%$로 가장 높게 나타났다. 학습자 수준별로는 하위수준의 학습자에 대한 만족도가 "매우 만족" $20.2\%$, "만족" $31.2\%$로 상위수준의 학습자 "매우 만족" $18.4\%$, "만족" $28.54\%$ 보다 높게 나타났다. 개발된 시스템은 드릴-업, 드릴-다운 등의 OLAP 기술을 이용하여 학습자들에게 다양한 각도로 다차원적으로 의미 있는 정보를 제공할 것으로 기대된다.

웹 사용 정보 마이닝 기반의 동적 사용자 프로파일 생성 (Generator of Dynamic User Profiles Based on Web Usage Mining)

  • 안계순;고세진;정준;이필규
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.389-390
    • /
    • 2002
  • 동적 웹 컨텐츠 제공에서 고객을 위한 추천서비스에 이르는 인터넷 기반의 전자상거래 애플리케이션에서는 고객이 어떤 성향을 가지고 있는가에 대한 정보를 획득하는 것이 중요하다. 웹 개인화의 대표적인 기술인 협력적 석과는 사용자의 정보를 정적인 프로파일 형태로 저장하여 사용자의 성향 변화를 빨리 획득할 수 없다. 또한 사용자의 명시적 평가 의존성, 확장성 부족, 다차원 공간 데이터에 대한 적용 어려움 둥의 문제점을 가지고 있다. 이와 같은 단점을 해결하기 위한 해결 방안으로 웹 사용 정보 마이닝(web usage mining)이 쓰이고 있다. 웹 사용 정보 마이닝은 서버에 축적된 웹 사용 데이터(web usage data)를 이용하여 패턴을 발견하는 기술이다. 특히 연관 규칙 생성 알고리즘으로 웹 사용 패턴(web usage pattern)을 찾고 패턴을 클러스터링하는 기술이 사용되고 있다. 그러나 연관 규칙 생성 알고리즘은 많은 수의 패턴들을 찾고 또 유용하지 못한 패턴을 발견하는 단점이 있다. 본 논문에서는 검증된 웹 사용 패턴을 이용한 동적 사용자 프로파일 생성 방법을 제안한다. 먼저 패턴 발견을 위해 연관 규칙 생성 알고리즘인 Apriori를 이용하고 사용자 프로파일을 위한 클러스터를 생성하기 위해 ARHP를 채택하였다. 클러스터를 생성하기 전에 Dempster-Shafer 이론을 이용하여 유용하지 못한 패턴을 제거하는 패턴 검증 과정을 수행한다. 검증된 패턴을 이용하여 클러스터를 생성하고 사용자의 현재 활성화된 세션에 따라 동적으로 사용자 프로파일이 생성된다

IRFP-tree(Intersection Rule Based FP-tree): 메모리 효율성을 향상시키기 위해 교집합 규칙 기반의 패러다임을 적용한 FP-tree (IRFP-tree: Intersection Rule Based FP-tree)

  • 이정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.155-164
    • /
    • 2016
  • 대용량 데이터베이스의 빈도패턴 분석을 위해 기존의 Apriori 방식의 단점을 보완할 수 있는 새로운 트리 기반의 빈도 패턴 분석 알고리즘이 최근 다양하게 연구되고 있다. 그 중 FP-tree는 이러한 빈도 패턴을 분석하기 위해 빈도 패턴을 표현하는 트리 구조로 단 두 번의 전체 데이터베이스 스캔을 통해 빠르게 트리를 구성할 수 있으며 FP-grwoth를 통해 빈도 패턴을 분석할 수 있다. 이처럼 빈도 패턴 트리의 노드 수는 트리 자체의 메모리 할당량과도 연관이 있지만 그 후 growth의 메모리 자원 소비 및 처리 속도에도 영향을 미치게 된다. 따라서 빈도 패턴 트리의 노드 수의 감소는 트리 자체뿐만 아니라 빈도 패턴 분석에 있어서도 매우 중요하다. 하지만 FP-tree는 전체 아이템 수 라는 고정된 기준 문제로 인해 충분한 노드 수의 압축률을 갖지 못하고 있다. 본 논문에서는 이러한 FP-tree의 문제를 보완하여 좀 더 노드 수를 감소시킬 수 있도록 교집합 규칙이라는 새로운 패러다임을 적용한 빈도 패턴 트리인 IRFP-tree를 제시하고 실험을 통해 그 성능에 대해 증명하였다.

빅데이터 플랫폼을 위한 SON알고리즘 기반의 효과적인 연관 룰 마이닝 (Efficient Association Rule Mining based SON Algorithm for a Bigdata Platform)

  • 뉘엔양쯔엉;뉘엔반퀴엣;뉘엔신응억;김경백
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권8호
    • /
    • pp.1593-1601
    • /
    • 2017
  • 빅데이터 플랫폼에서, 연관 룰 마이닝 응용프로그램은 여러 가치를 창출할 수 있다. 예를 들어, 농업 빅데이터 플랫폼에서 농가 소득을 높일 수 있는 농작물들을 농업인들에게 추천할 수 있다. 이 연관 룰 마이닝의 주요 절차는 빈발 아이템셋 마이닝으로, 이는 동시에 나타나는 아이템의 셋을 찾는 작업이다. Apriori를 비롯한 이전 연구에서는 대규모의 가능한 아이템 셋에 의한 메모리 오버로드의 이유로 만족할 만한 성능을 보일 수 없었다. 이를 개선하고자, 아이템 셋을 작은 크기로 분할하여 순차적으로 계산하도록 하는 SON 알고리즘이 제안되었다. 하지만, 단일 머신에서 SON 알고리즘을 돌릴 경우 많은 시간이 소요된다. 이 논문에서는 하둡기반의 빅데이터 플랫폼에서 SON 알고리즘 병렬처리 방식을 이용한 연관룰 탐색 기법을 소개한다. 연관 룰 마이닝을 위한 전처리, SON 알고리즘 기반 빈발 아이템셋 마이닝, 그리고 연관룰 검출 절차를 Hadoop기반의 빅데이터 플랫폼에 구현하였다. 실제 데이터를 활용한 실험을 통해 제안된 연관 룰 마이닝 기법은 Brute Force 기법의 성능을 압도하는 것을 확인하였다.

연관관계 규칙을 이용한 학생 유지율 관리 방안 연구 (A Study on Management of Student Retention Rate Using Association Rule Mining)

  • 김종만;이동철
    • 한국산업정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.67-77
    • /
    • 2018
  • 최근 학령인구 감소에 따라 많은 문제점들이 나타나고 있다. 우리나라는 인구대비 가장 많은 대학을 보유하고 있기 때문에 각 대학의 생존에 필요한 최소한의 학생 유지율 관리가 점점 더 중요해 지고 있다. 따라서 본 연구는 계속되는 학력인구의 감소에 따라 각 대학들이 생존 방안으로 학생 유지율의 적절한 관리 방안을 모색한다. 이를 위하여 특정 대학에 입학한 학생들을 대상으로 성별, 출신고, 출신지역, 성적, 졸업여부 등의 데이타를 분석하여, 학생들이 입학에서 졸업에 이르기까지 지속적으로 유지될 수 있는 학생 유지율을 관리하기 위한 기본적인 방향이 어떤 것인지 알아본다. 또한, 최적의 입력 변수를 파악하고, 최적의 입력 파라메터를 기초로 apriori 알고리즘을 이용하여 연관 분석을 실행하여 유지율 관리에 가장 적합한 자료를 수집할 수 있도록 한다. 이를 바탕으로 각 대학들이 학생들을 모집하고 유지하는데 도움이 되도록 가장 효율이 높은 딥러닝(Deep Learning) 모듈을 개발하기 위한 기초 자료로 만들고자 한다. 의사결정트리를 활용하여 졸업여부를 측정한 결과는 딥러닝의 정확도 보다 낮은 75%로 나타났다. 의사결정트리에서 졸업여부를 결정하는 요인은 일반고를 졸업하고, 도시지역에 거주하면서 여성이면서 성적이 높은 학생들이 졸업확율이 높은 것으로 나타났으며 결과적으로 의사결정트리 보다는 개발된 딥러닝듈이 더 효율적으로 학생들의 졸업여부를 평가할 수 있는 모델로 나타났다.