• 제목/요약/키워드: 연관 규칙 알고리즘

검색결과 200건 처리시간 0.026초

완전해싱을 위한 DHP 연관 규칙 탐사 알고리즘의 개선 방안 (Improvement of DHP Association Rules Algorithm for Perfect Hashing)

  • 이형봉
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.91-98
    • /
    • 2004
  • DHP 연관 규칙 탐사 알고리즘은 후보 빈발 항목 집합들에 대한 계수를 유지하기 위한 해쉬트리의 크기를 가능한 한 줄이기 위하여, 독립된 직접 해쉬 테이블을 미리 준비해 놓았다가 후보 빈발 항목 집합을 생성할 때 적용함으로써 전지 효과를 얻는다. 이 때 직접 해쉬 테이블의 크기가 클수록 전지효과는 커지며, 특히 길이 2인 후보 빈발 항목 집합을 생성하는 단계에서의 전지 효과는 알고리즘 전체의 성능을 좌우할 만큼 큰 영향을 발휘한다. 따라서 급속도로 보편화되고 있는 대용량 주기억장치 시스템 추세에 따라 단계 2에서의 직접 해쉬 테이블 크기의 극단적인 증가에 대한 시도가 이루어지고 있으며, 이러한 것 중의 하나가 완전 해쉬 테이블이다. 그러나 단계 2에서의 완전 해쉬 테이블을 사용할 경우, 이를 단순히 기존 DHP 알고리즘에 적용하여 버켓 크기(|H$_2$|)만을 재 설정하는 것 보다, DHP 알고리즘 자체를 조금 변경했을 때 약 20% 이상의 추가 성능 이득을 얻을 수 있음이 밝혀졌다. 이 논문에서는 단계 2에서의 완전 해쉬 테이블의 타당성을 조명해 본 후, 그 특성을 충분히 활용하도록 DHP를 개선한 PHP 알고리즘을 제안하며 그 결과를 실험적 환경에서 검증한다.

데이타마이닝 기법을 이용한 문서 자동 분류 모델 (An Automatic Text Classification Model using Association Rules)

  • 김영인;이진용;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.101-108
    • /
    • 2000
  • 기업에서 보유한 전문 지식 정보가 급속도로 증가함에 따라 대량의 문서에 저장된 지식 정보를 효과적으로 탐색하여 기업 경영에 활용하기 위한 지식경영시스템 도입이 확산되고 있다. 이러한 지식경영시스템에서 핵심적인 구성 요소는 전문 분야의 지식 정보를 체계적으로 분류하고 효율적으로 검색하기 위한 지식 탐사 기법이다. 본 논문에서는 데이타마이닝 기법을 이용하여 문서를 자동적으로 분류하기 위한 새로운 모델을 제안하였다. 연관 규칙 탐사 알고리즘을 이용하여 학습용 문서 집합으로부터 세부 분야를 대표하는 색인어 집합을 구성하였다. 세부 분야별 색인어 집합에 대하여 전체 문서에 대한 비중에 따라 가중치 배열을 구성하여 문서를 자동으로 분류하기 위한 기준으로 삼았다. 임의의 문서를 자동적으로 분류하는 실험을 통하여 제안된 방법의 효율성을 검정하였다.

  • PDF

트리 데이터에서 연관규칙 추출을 위한 서브트리 마이닝 (Subtree Mining to extract Association rules from Tree Data)

  • 강우준;신준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.317-320
    • /
    • 2006
  • XML 트리 데이터들로부터 빈번 서브 트리들을 추출하는 기존 방법들은 복잡하고 다수의 입력데이터 스캐닝을 필요로 할 뿐만 아니라 빈번 서브 트리를 구하기 위해 에지 하나하나의 조인 작업을 필요로 하였다. 이는 결과적으로 많은 수행 시간을 요한다. 본 논문에서는 트리데이터를 레벨 별로 나누고 이를 마치 채로 거르듯이 필터링하여 특정 수치 이상의 출현 횟수를 가지는 노드들만을 남겨 빠르게 빈번한 서브 트리를 찾고, 이를 이용하여 XML 연관규칙들을 생성하는 방법을 제시한다. 제시된 방법을 위해서 PairSet 이라는 새로운 자료구조를 도입하였으며, 이를 이용하는 크로스필터링 알고리즘을 개발하여 제시하였다.

  • PDF

반도체 생산 성능 향상 및 다양한 이송패턴을 수행할 수 있는 범용 스케줄러 알고리즘에 관한 연구 (A study of Cluster Tool Scheduler Algorithm which is Support Various Transfer Patterns and Improved Productivity)

  • 송민기;정찬호;지승도
    • 한국시뮬레이션학회논문지
    • /
    • 제19권4호
    • /
    • pp.99-109
    • /
    • 2010
  • 기존의 반도체 생산 공장에서 운용되는 공정설비의 자동화된 웨이퍼 이송을 위한 스케줄링 운용전략에 대한 연구는 일반적으로 특정 공정 환경과 시스템 형태에서 운용되는 이송패턴에 최적화시킨 규칙기반으로 진행되어 왔다. 그러나 이러한 방식은 시스템이나 공정이 달라지면 새로운 규칙이 필요하거나 전체 운용 전략을 변경해야 하는 문제가 발생할 수 있다. 또한, 규칙이 추가될수록 확장, 유지 보수 시에 추가된 규칙들의 상호 연관 작용에 대한 고려가 부족한 경우 예기치 않은 문제를 유발할 시킬 수 있는 위험성을 내포하고 있다. 따라서 본 논문에서는 이러한 문제점을 개선하기 위해 이송패턴이나 설비의 형태에 일반적으로 적용 가능한 동적 우선순위 기반의 기본 이송작업 선택 알고리즘을 제시하였다. 또한 특수한 요구 사항에 대해서는 범용성을 저하시키지 않는 범위 내에서의 최소한의 규칙 처리부를 별도로 관리하는 방식으로 운용 환경 변화에 일관된 스케줄링 정책을 유지하고 확장 시의 안정성 저하를 최소화하여 생산성 향상을 이끌 수 있는 범용 스케줄링 알고리즘을 제안하였다. 이에 대한 검증을 위하여 트윈 슬롯 형태의 반도체 공정설비를 대상으로 모델링 및 시뮬레이션 환경을 구축하였고, 시뮬레이션을 통해 타당성을 검증하였다.

트리밍 방식 수정을 통한 연관규칙 마이닝 개선 (Improved Association Rule Mining by Modified Trimming)

  • 황원태;김동승
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.15-21
    • /
    • 2008
  • 본 논문은 2단 샘플링을 통해 정확도는 줄지만 신속하게 연관규칙을 추출하는 새로운 마이닝 알고리즘을 제안한다. 직전 연구인 FAST(Finding Association by Sampling Technique) 기법은 빈발1항목만 최적샘플 형성과정에 적용하여 빈발2항목 및 그이상의 빈발항목을 샘플 추출에 반영하지 못하였다. 이 논문은 그러한 약점을 보완하여 트리밍 과정에서 손실항목과 오류항목의 비중을 동시에 고려하여 다수 빈발항목에 대한 마이닝의 정확성을 높였다. 대표적인 데이터 세트를 써서 실험한 결과 이전연구와 비교해서 동일한 품질하에서 새 알고리즘의 정확도가 향상됨을 확인하였다.

심장 질환 진단을 위한 데이터 마이닝 기법 (Data Mining Approach for Diagnosing Heart Disease)

  • 노기용;류근호;이헌규
    • 감성과학
    • /
    • 제10권2호
    • /
    • pp.147-154
    • /
    • 2007
  • 심장의 활동을 기록한 심전도는 심장의 상태에 대한 가치 있는 임상 정보를 제공한다. 지금까지 심전도를 이용한 심장 질환 진단 알고리즘에 대한 많은 연구가 진행되어 왔으나, 심장 질환에 대한 국내 진단 결과의 부정확성 때문에 외국의 진단 알고리즘을 사용하고 있다. 이 논문에서는 원시 심전도 데이터로부터 심장 질환 진단의 파라미터인 ST-segment 추출 방법을 제안한다. ST-segment는 관상동맥 질환 예측에 활용되므로 데이터마이닝의 분류기법을 적용하여 질환을 예측한다. 또한 연관규칙 마이닝을 통해 환자들의 임상 데이터로부터 심장 질환자들의 임상적 특징을 예측한다.

  • PDF

TID 리스트 테이블을 이용한 연관 규칙 탐사 (Association Rule Discovery using TID List Table)

  • 채덕진;황부현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.219-227
    • /
    • 2005
  • 본 논문에서는 데이타베이스를 단 한번 스캔하여 빈발 항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 빈발 항목집합은 어떤 트랜잭션이 접근하는 항목 집합의 부분집합이다. 각 항목에 대하여 그 항목을 접근하는 트랜잭션들에 관한 정보를 가지고 있다면, 동일한 트랜잭션 식별자를 갖는 항목들만을 추출함으로써 빈발 항목집합들을 생성할 수 있다 본 논문에서 제안하는 방법은 한 번의 데이타베이스 스캔으로 각 항목마다 접근하는 트랜잭션 식별자를 저장할 수 있는 자료 구조를 생성하며, 동시에 해쉬 기법을 이용하여 2-빈발 항목집합들을 생성한다. 3-빈발 항목집합부터는 이 자료 구조와 각 항목에 대한 트랜잭션 식별자를 비교함으로써 간단히 빈발 항목집합들을 찾아낼 수 있다. 제안하는 알고리즘은 한 번의 데이타베이스 스캔만으로 빈발 항목집합들을 효율적으로 생성할 수 있다.

의미있는 정보 검색을 위한 개인화된 다중 전략 학습 모듈의 설계 및 구현 (Design and Implementation of PMSL for Information Retrieval)

  • 유수경;김교정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.208-210
    • /
    • 2004
  • 오늘날 인터넷상에서 존재하는 않은 정보들은 다양한 사용자의 개인 특성에 안게 새로운 정보의 지식으로 제공되어지기를 원한다. 기존의 연구는 단일 학술 기법을 통해 정보를 추출했으나 사용자에게 보다 의미 있는 정보를 제공하기 위해 다중 전략 학습 기법인 PMSL(Personalized Multi-Strategy Learning) 모듈 시스템을 제안하고자 한다. PMSL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시킴으로 결과의 효율성을 높이고자 하였으며, 연관규칙의 문제점을 보완하기 위해 가중치 기법인 TF*IDF 학습 기법을 적용시켰다. PMSL 모듈을 실행한 결과 기존 학습 기법에 비해 보다 더 의미 있는 연관 지식을 추출하게 되었다.

  • PDF

TID List를 이용한 빈발항목의 효율적인 탐색 알고리즘 (An efficient algorithm to search frequent itemsets using TID Lists)

  • 고윤희;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.136-139
    • /
    • 2002
  • 연관규칙 마이닝과정에서의 빈발항목 탐색의 대표적인 방법으로 알려진 Apriori 알고리즘의 성능을 향상시키기 위한 많은 연구가 진행되어 왔다. 본 논문에서는 트랜잭션 데이터베이스(TDB)에서 생성되는 각 패스의 k-itemset들에 대해 각각 트랜잭션 ID List(TIDist)를 유지하고 이를 이용해 (k+1)-itemset을 효율적으로 찾아내는 방법을 제안한다. 이 방법은 frequent (k+1)-itemset(k>0)의 빈도수 및 TIDList를 TDB 에 대한 스캔이 전혀 없이 k-itemset의 TIDList로부터 직접 구한다. 이는 빈발항목집합을 찾기 위한 탐색 complexity는 크게 줄여줄 뿐 아니라 시간 변화에 따른 빈발항목집합의 분포 정보를 제공해 준다.

  • PDF

다중외적연관성규칙을 이용한 불필요한 입력변수 제거에 관한 연구 (A study on removal of unnecessary input variables using multiple external association rule)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.877-884
    • /
    • 2011
  • 의사결정나무는 데이터마이닝의 대표적인 알고리즘으로서, 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. 일반적으로 의사결정나무의 모형 생성 시, 입력 변수의 수가 많을 경우 생성된 의사결정모형은 복잡한 형태가 될 수 있고, 모형 탐색 및 분석에 있어 어려움을 겪기도 한다. 이때 입력변수들 간의 내재적인 관련성은 없으나, 외적 변수에 의하여 각 변수가 우연히 어떤 다른 변수와 연결됨으로써 관련성이 있는 것으로 나타나는 것을 종종 볼 수 있다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 외적 관계를 파악할 수 있는 다중외적연관성규칙을 이용하여 의사결정나무 생성에 불필요한 입력변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.