• 제목/요약/키워드: Frequent Itemsets

검색결과 57건 처리시간 0.026초

전략적 중요도를 고려한 연관규칙 탐사 (Association Rule Mining Considering Strategic Importance)

  • 최덕원;신진규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2007
  • A new association rule mining algorithm, which reflects the strategic importance of associative relationships between items, was developed and presented in this paper. This algorithm exploits the basic framework of Apriori procedures and TSAA(transitive support association Apriori) procedure developed by Hyun and Choi in evaluating non-frequent itemsets. The algorithm considers the strategic importance(weight) of feature variables in the association rule mining process. Sample feature variables of strategic importance include: profitability, marketing value, customer satisfaction, and frequency. A database with 730 transaction data set of a large scale discount store was used to compare and verify the performance of the presented algorithm against the existing Apriori and TSAA algorithms. The result clearly indicated that the new algorithm produced substantially different association itemsets according to the weights assigned to the strategic feature variables.

목표 속성을 고려한 연관규칙과 분류 기법 (Directed Association Rules Mining and Classification)

  • 한경록;김재련
    • 산업경영시스템학회지
    • /
    • 제24권63호
    • /
    • pp.23-31
    • /
    • 2001
  • Data mining can be either directed or undirected. One way of thinking about it is that we use undirected data mining to recognize relationship in the data and directed data mining to explain those relationships once they have been found. Several data mining techniques have received considerable research attention. In this paper, we propose an algorithm for discovering association rules as directed data mining and applying them to classification. In the first phase, we find frequent closed itemsets and association rules. After this phase, we construct the decision trees using discovered association rules. The algorithm can be applicable to customer relationship management.

  • PDF

데이터 스트림에서 빈발항목 탐색을 위한 메모리 사용량 최적화 (Memory Adaptation in Finding Frequent Itemsets over Data Streams)

  • 김민정;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2003
  • 컴퓨팅 환경의 발달로 방대한 양의 정보들이 매우 빠른 속도로 생성되고 있다. 구성 요소가 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 마이닝 방법은 이들 정보로부터 중요한 지식을 효과적으로 얻을 수 있는 방법으로 최근 들어 다양한 방법들이 활발히 제안되고 있다. 이러한 마이닝 방법에서는 지속적으로 확장되는 데이터 스트림의 특성으로 수행과정에서 메모리 사용량을 가용 범위 내로 제한하는 것이 중요한 고려 사항이 되고 있다. 본 논문에서는 데이터 스트림에서 빈발 항목을 탐색하는데 있어서 가용 메모리 범위에서 최적의 메모리를 사용하여 최상의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량 최적화 방법을 제시한다.

  • PDF

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF

데이터 스트림 시스템에서 이상 이벤트에 대한 연관 규칙 마이닝 (Mining Association Rule for the Abnormal Event in Data Stream Systems)

  • 김대인;박준;황부현
    • 정보처리학회논문지D
    • /
    • 제14D권5호
    • /
    • pp.483-490
    • /
    • 2007
  • 최근에 데이터 스트림을 분석하여 잠재되어 있는 지식을 발견하기 위한 마이닝 방법에 대한 연구가 진행되고 있다. 그러나 대부분의 지지도 기반의 마이닝 방법들은 일정 주기 동안에 미리 정의된 지지도 이상의 발생 빈도를 갖는 이벤트만을 고려함으로써 발생 빈도에 비하여 중요도가 높은 이벤트를 간과하는 문제점을 가지고 있다. 본 논문에서는 이상 이벤트에 대한 연관 규칙을 탐사할 수 있는 SM-AF 방법을 제안한다. SM-AF 방법은 이상 이벤트가 감지된 윈도우만 고려하여 연관 정보를 탐사함으로써 자주 발생하지 않더라도 중요도가 높은 이벤트에 대한 연관 정보를 탐사할 수 있다. 또한 SM-AF 방법은 이상 이벤트에 대한 의미 있는 희소 항목 집합과 주기적인 이벤트 집합도 탐사한다. 그리고 다양한 실험을 통하여 SM-AF 방법이 기존의 연관 규칙 방법들에 비하여 우수함을 확인하였다.

한 번의 데이터베이스 탐색에 의한 빈발항목집합 탐색 (Frequent Patterns Mining using only one-time Database Scan)

  • 채덕진;김룡;이용미;황부현;류근호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.15-22
    • /
    • 2008
  • 본 논문에서는 한 번의 데이터베이스 스캔으로 빈발항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 제안하는 알고리즘은 빈발 항목과 그 빈발항목을 포함하고 있는 트랜잭션과의 관계를 나타내는 이분할 그래프(bipartite graph)를 생성한다. 그리고 생성된 이분할 그래프를 이용하여 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 추출할 수 있다. 이분할 그래프는 빈발항목들을 추출하기위해 대용량의 트랜잭션 데이터베이스를 스캔할 때 생성된다. 이분할 그래프는 빈발항목들과 그들이 속한 트랜잭션들 간의 관계를 엣지(edge)로 연결한 그래프이다. 즉, 본 논문에서의 이분할 그래프는 대용량의 데이터베이스에서 쉽게 발견할 수 없는 빈발항목과 트랜잭션의 관계를 검색하기 쉽게 색인(index)화한 그래프이다. 본 논문에서 제안하는 방법은 한 번의 데이터베이스 스캔만을 수행하고 후보 항목집합들을 생성하지 않기 때문에 기존의 방법들보다 빠른 시간에 빈발 항목집합들을 찾을 수 있다.

High Utility Itemset Mining by Using Binary PSO Algorithm with V-shaped Transfer Function and Nonlinear Acceleration Coefficient Strategy

  • Tao, Bodong;Shin, Ok Keun;Park, Hyu Chan
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.103-112
    • /
    • 2022
  • The goal of pattern mining is to identify novel patterns in a database. High utility itemset mining (HUIM) is a research direction for pattern mining. This is different from frequent itemset mining (FIM), which additionally considers the quantity and profit of the commodity. Several algorithms have been used to mine high utility itemsets (HUIs). The original BPSO algorithm lacks local search capabilities in the subsequent stage, resulting in insufficient HUIs to be mined. Compared to the transfer function used in the original PSO algorithm, the V-shaped transfer function more sufficiently reflects the probability between the velocity and position change of the particles. Considering the influence of the acceleration factor on the particle motion mode and trajectory, a nonlinear acceleration strategy was used to enhance the search ability of the particles. Experiments show that the number of mined HUIs is 73% higher than that of the original BPSO algorithm, which indicates better performance of the proposed algorithm.

FP-tree와 DHP 연관 규칙 탐사 알고리즘의 실험적 성능 비교 (Performance Evaluation of the FP-tree and the DHP Algorithms for Association Rule Mining)

  • 이형봉;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권3호
    • /
    • pp.199-207
    • /
    • 2008
  • FP-tree(Frequency Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었고, 따라서 다른 기법에 기반하는 알고리즘보다 성능이 매우 우수한 것으로 알려져 있다. 그러나, FP-tree 알고리즘은 기본적으로 DB에 저장된 거래 내용 중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템 환경에서 FP-tree 알고리즘을 구현하여 소요 메모리와 실행시간 등 두 가지 성능 관점에서 해시 트리 및 직접 해시 테이블을 사용하는 DHP(Direct Hashing and Pruning) 알고리즘과 비교한다. 그 결과로서 알려진 바와는 크게 다르게 시스템 메모리가 충분한 상황에서도 대형 편의점 수준의 규모에 적용 가능한 거래 건수 100K, 전체 항목 개수 $1K{\sim}7K$, 평균 거래 길이 $5{\sim}10$, 평균 빈발 항목 집합 크기 $2{\sim}12$인 데이타에 대해서 FP-tree 알고리즘이 DHP 알고리즘보다 열등한 경우가 존재함을 보인다.

다차원 스트림 데이터의 연관 규칙 탐사 기법 (Mining Association Rules in Multidimensional Stream Data)

  • 김대인;박준;김홍기;황부현
    • 정보처리학회논문지D
    • /
    • 제13D권6호
    • /
    • pp.765-774
    • /
    • 2006
  • 연관 규칙 탐사는 데이터베이스를 분석하여 잠재되어 있는 지식을 발견하기 위한 기법으로 스트림 데이터 시스템에서 연관 규칙 탐사에 대한 연구가 활발하게 진행되고 있다. 그러나 대부분의 연구들은 센서에서 수집되는 단일 스트림 데이터에 관한 것이며 다차원 스트림 데이터간의 연관 정보는 간과하고 있다. 본 논문에서는 다차원 스트림 데이터간의 연관 규칙을 탐사할 수 있는 AR-MS 방법을 제안한다. AR-MS 방법은 한 번의 데이터 스캔으로 연관 규칙 탐사에 필요한 요약 정보를 구축함으로써 스트림 데이터의 특성을 반영하며, 자주 발생하지는 않지만 특정 이벤트와 빈번하게 발생하는 의미 있는 희소 항목 집합에 대한 연관 규칙을 탐사할 수 있다. 또한 AR-MS 방법은 구축된 요약 정보를 사용하여 다차원 스트림 데이터간의 최대 빈발 항목 집합에 대한 연관 규칙도 탐사한다. 그리고 다양한 실험을 통하여 제안하는 방법이 기존의 방법들에 비하여 우수함을 확인하였다.

데이터 스트림 빈발항목 마이닝의 프라이버시 보호를 위한 더미 데이터 삽입 기법 (Dummy Data Insert Scheme for Privacy Preserving Frequent Itemset Mining in Data Stream)

  • 정재열;김기성;정익래
    • 정보보호학회논문지
    • /
    • 제23권3호
    • /
    • pp.383-393
    • /
    • 2013
  • 데이터 스트림 마이닝 기술은 실시간으로 발생하는 데이터를 분석하여 유용한 정보를 얻는 기술이다. 데이터 스트림 마이닝 기술 중에서 빈발항목 마이닝은 전송되는 데이터들 중에서 어떤 항목이 빈발한지 찾는 기술이며, 찾은 빈발항목들은 다양한 분야에서 패턴분석이나 마케팅의 목적으로 사용된다. 기존에 제안된 데이터 스트림 빈발항목 마이닝은 악의적인 공격자가 전송되는 데이터를 스니핑할 경우 데이터 제공자의 실시간 정보가 노출되는 문제점을 가지고 있다. 이러한 문제는 전송되는 데이터에서 원본 데이터를 구별 못하게 하는 더미 데이터 삽입 기법을 통해 해결가능하다. 본 논문에서는 더미 데이터 삽입 기법을 이용한 프라이버시 보존 데이터 스트림 빈발항목 마이닝 기법을 제안한다. 또한, 제안하는 기법은 암호화 기법이나 다른 수학적 연산이 요구되지 않아 연산량 측면에서 효과적이다.