Algorithm for Extraction of Large itemsets

빈발 항목집합 추출을 위한 알고리즘

  • Chai, Duck-Jin (Dept. of Computer Science, Chonnam National University) ;
  • Hwang, Bu-Hyun (Dept. of Computer Science, Chonnam National University)
  • Published : 2000.10.13

Abstract

데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

Keywords