• 제목/요약/키워드: Frequent itemsets

검색결과 57건 처리시간 0.018초

Mining Frequent Itemsets with Normalized Weight in Continuous Data Streams

  • Kim, Young-Hee;Kim, Won-Young;Kim, Ung-Mo
    • Journal of Information Processing Systems
    • /
    • 제6권1호
    • /
    • pp.79-90
    • /
    • 2010
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. The continuous characteristic of streaming data necessitates the use of algorithms that require only one scan over the stream for knowledge discovery. Data mining over data streams should support the flexible trade-off between processing time and mining accuracy. In many application areas, mining frequent itemsets has been suggested to find important frequent itemsets by considering the weight of itemsets. In this paper, we present an efficient algorithm WSFI (Weighted Support Frequent Itemsets)-Mine with normalized weight over data streams. Moreover, we propose a novel tree structure, called the Weighted Support FP-Tree (WSFP-Tree), that stores compressed crucial information about frequent itemsets. Empirical results show that our algorithm outperforms comparative algorithms under the windowed streaming model.

연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법 (Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application)

  • 한갑수
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.475-484
    • /
    • 2008
  • 최근에는 데이터를 획득 및 처리하는 방법의 향상으로 인하여 연속적이고 실시간으로 발생되는 데이터를 처리하는 응용이 증가하고 있다. 그러한 응용에서 연관규칙을 추출하기 위해서는 새로운 방식을 사용하여 빈발항목집합을 찾아내야 한다. 기존의 빈발항목을 발견하는 방식에서는 전체 데이터베이스를 반복적으로 읽으면서 처리해야 한다. 그러나 실시간이고 연속적으로 발생하는 데이터를 처리하는 응용에서는 반복적으로 여러 번 데이터를 읽을 수 없기 때문에 일정 구간의 데이터를 한 번만 읽고 처리해야 한다. 따라서 본 논문에서는 입력되는 데이터 구간을 한 번만 읽고 최대 빈발항목 집합의 크기와 해당 빈발항목을 추정함으로써 필요한 연관규칙탐사를 가능하게 하는 빈발항목 추정 기법을 제안한다.

트랜잭션 연결 구조를 이용한 빈발 Closed 항목집합 마이닝 알고리즘 (An Efficient Algorithm for Mining Frequent Closed Itemsets Using Transaction Link Structure)

  • 한경록;김재련
    • 대한산업공학회지
    • /
    • 제32권3호
    • /
    • pp.242-252
    • /
    • 2006
  • Data mining is the exploration and analysis of huge amounts of data to discover meaningful patterns. One of the most important data mining problems is association rule mining. Recent studies of mining association rules have proposed a closure mechanism. It is no longer necessary to mine the set of all of the frequent itemsets and their association rules. Rather, it is sufficient to mine the frequent closed itemsets and their corresponding rules. In the past, a number of algorithms for mining frequent closed itemsets have been based on items. In this paper, we use the transaction itself for mining frequent closed itemsets. An efficient algorithm is proposed that is based on a link structure between transactions. Our experimental results show that our algorithm is faster than previously proposed methods. Furthermore, our approach is significantly more efficient for dense databases.

TID 리스트 테이블을 이용한 연관 규칙 탐사 (Association Rule Discovery using TID List Table)

  • 채덕진;황부현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.219-227
    • /
    • 2005
  • 본 논문에서는 데이타베이스를 단 한번 스캔하여 빈발 항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 빈발 항목집합은 어떤 트랜잭션이 접근하는 항목 집합의 부분집합이다. 각 항목에 대하여 그 항목을 접근하는 트랜잭션들에 관한 정보를 가지고 있다면, 동일한 트랜잭션 식별자를 갖는 항목들만을 추출함으로써 빈발 항목집합들을 생성할 수 있다 본 논문에서 제안하는 방법은 한 번의 데이타베이스 스캔으로 각 항목마다 접근하는 트랜잭션 식별자를 저장할 수 있는 자료 구조를 생성하며, 동시에 해쉬 기법을 이용하여 2-빈발 항목집합들을 생성한다. 3-빈발 항목집합부터는 이 자료 구조와 각 항목에 대한 트랜잭션 식별자를 비교함으로써 간단히 빈발 항목집합들을 찾아낼 수 있다. 제안하는 알고리즘은 한 번의 데이타베이스 스캔만으로 빈발 항목집합들을 효율적으로 생성할 수 있다.

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법 (An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams)

  • 김영희;김원영;김응모
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1998-2004
    • /
    • 2009
  • 다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

Hiding Sensitive Frequent Itemsets by a Border-Based Approach

  • Sun, Xingzhi;Yu, Philip S.
    • Journal of Computing Science and Engineering
    • /
    • 제1권1호
    • /
    • pp.74-94
    • /
    • 2007
  • Nowadays, sharing data among organizations is often required during the business collaboration. Data mining technology has enabled efficient extraction of knowledge from large databases. This, however, increases risks of disclosing the sensitive knowledge when the database is released to other parties. To address this privacy issue, one may sanitize the original database so that the sensitive knowledge is hidden. The challenge is to minimize the side effect on the quality of the sanitized database so that non-sensitive knowledge can still be mined. In this paper, we study such a problem in the context of hiding sensitive frequent itemsets by judiciously modifying the transactions in the database. Unlike previous work, we consider the quality of the sanitized database especially on preserving the non-sensitive frequent itemsets. To preserve the non-sensitive frequent itemsets, we propose a border-based approach to efficiently evaluate the impact of any modification to the database during the hiding process. The quality of database can be well maintained by greedily selecting the modifications with minimal side effect. Experiments results are also reported to show the effectiveness of the proposed approach.

LSI 유사도를 이용한 효율적인 빈발항목 탐색 알고리즘 (Frequent Itemset Search Using LSI Similarity)

  • 고윤희;김현철;이원규
    • 컴퓨터교육학회논문지
    • /
    • 제6권1호
    • /
    • pp.1-8
    • /
    • 2003
  • 본 논문에서는 frequent itemset을 빠르게 발견해내기 위한 효율적인 vertical 마이닝 알고리즘을 제안한다. 본 알고리즘은 frequent itemset을 구하기 위해 아이템들을 Least Support Itemset(LSI) 과의 유사도에 의해 올림차순으로 정렬하여 탐색 트리를 구축하여 보다 빠르고 효율적으로 frequent itemset을 찾아낸다. 또한, 트리를 탐색 시, 2가지의 휴리스틱 방법을 사용하여 탐색의 초기에 많은 후보 아이템들을 탐색 트리로부터 제거함으로써 탐색 공간을 크게 줄인다. 본 논문에서 제안하는 알고리즘은 이전의 알고리즘들과 비교해, long pattern을 가지는 데이터 베이스에서 보다 빠르게 frequent itemset을 발견해 냄을 실험을 통해 발견하였다.

  • PDF

데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색 (Finding the time sensitive frequent itemsets based on data mining technique in data streams)

  • 박태수;전석주;이주홍;강윤희;최범기
    • 정보교육학회논문지
    • /
    • 제9권3호
    • /
    • pp.453-462
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터에 내재되어 있는 정보를 빠른시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘으로 한정적인 메모리를 고려하여 빈발항목과 부분 빈발항목만을 저장하고 시간의 흐름에 따른 빈발항목의 갱신방법에 관하여 제안하였다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다. 제안된 방법은 웹 코스웨어로 학습하는 학생들의 행동패턴을 시간대별로 파악하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습효과 증진 및 지도 방향을 설정하는데 활용할 수 있다.

  • PDF

희소 데이터 집합에서 효율적인 빈발 항목집합 탐사 기법 (Efficient Mining of Frequent Itemsets in a Sparse Data Set)

  • 박인창;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권6호
    • /
    • pp.817-828
    • /
    • 2005
  • 빈발 항목집합 마이닝 분야의 주된 연구 주제는 수행과정에서의 메모리 사용량을 줄이고 짧은 수행 시간에 마이닝 결과 집합을 얻는 것으로서, 빈발항목 탐색을 위한 다수의 방법들은 Apriori 알고리즘에 기반을 둔 다중 탐색 방법들이다. 또한 최대 빈발 패턴의 길이가 길어질수록 마이닝 수행 시간이 급격히 증가되는 단점을 가진다. 이를 극복하기 위해서 이전의 연구에서 마이닝 수행 시간을 단축하기 위한 다양한 방법들이 제안되었다. 하지만, 다수의 이들 방법들은 희소 데이터 집합에서는 다소 비효율적인 성능을 나타낸다. 본 논문에서도 효율적인 빈발항목 탐색 방법을 제안하였다. 먼저 빈발항목 탐색을 위한 새로운 트리 구조인 $L_2$-tree 구조를 제안하였으며, 더불어 $L_2$-tree를 이용하여 빈발 항목집합을 탐색하는 $L_2$-traverse 알고리즘을 제안하였다. $L_2$-traverse 구조는 길이가 2인 빈발 항목집합 $L_2$에 기반하여 생성되는 것으로서 크기가 매우 작으며, 이를 활용한 $L_2$-traverse 알고리즘은 $L_2$-tree를 단순히 한번 탐색함으로써 전체 빈발 항목집합을 빠른 시간에 구한다. 또한 수행 시간을 보다 단축할 수 있는 방법으로 길이가 3인 빈발 항목집합 $L_3$가 될 수 없는 $L_2$ 패턴들을 미리 제거하는 $C_3$-traverse 알고리즘도 제안하였다. 다양한 실험을 통해 제안된 방법들은 특히 $L_2$가 상대적으로 적은 희소 데이터 집합 환경일 때 기존의 다른 방법들보다 우수함을 검증하였다.

민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘 (Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1323-1334
    • /
    • 2011
  • 민감한 정보 숨기기 알고리즘은 민감한 정보를 보호하기 위하여 트랜잭션 데이터베이스를 삭제한다. 데이터 변경은 삭제 접근 방법들 중 하나이다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 서로 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 감소시키는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 경계기반의 HSFI(Hiding Sensitive Frequent Itemsets) 알고리즘을 제안한다. 본 알고리즘에서 FP-Tree의 노드 정보는 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 줄이기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 HSFI를 적용한 결과, 손실 항목을 크게 감소시킴으로써 기존 방법들에 비해 효과적임을 증명하였고, 보다 개선된 데이터베이스의 품질을 유지할 수가 있었다.