• 제목/요약/키워드: apriori algorithm

검색결과 108건 처리시간 0.023초

XOnto-Apriori: 확장된 온톨로지 추론 기반의 연관 규칙 마이닝 알고리즘 (XOnto-Apriori: An eXtended Ontology Reasoning-based Association Rule Mining Algorithm)

  • 이종현;김장원;정동원;이석훈;백두권
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.423-432
    • /
    • 2011
  • 이 논문에서는 연관 규칙 마이닝 알고리즘의 정확도를 향상시키기 위하여 기존 Onto-Apriori 알고리즘을 확장한 XOnto-Apriori 알고리즘을 제안한다. 기존 알고리즘은 트랜잭션 항목의 식별자만을 비교하여 지지도를 계산하기 때문에 유사한 속성을 가진 항목들간의 관계를 분석하지 못하는 문제점을 지닌다. 이러한 문제점을 해결하기 위해 제안 알고리즘은 온톨로지 추론 기반의 속성 비교를 통해 같은 식별자를 지니지 않는 항목들간의 관계성도 지지도 계산에 반영할 수 있도록 한다. 제안 알고리즘의 규칙 생성 과정을 명확히 서술하기 위해 스마트폰 어플리케이션 추천 시스템을 설계하였으며 이 시스템은 기존 알고리즘 기반의 시스템에 비해 보다 나은 속도와 정확도를 보였다.

아이템 사용시간을 고려한 Apriori알고리즘 (A Time-based Apriori Algorithm)

  • 강형창;양근탁;김철수;이윤정;이봉규
    • 전기학회논문지
    • /
    • 제59권7호
    • /
    • pp.1327-1331
    • /
    • 2010
  • Association rules are very useful and interesting patterns for discovering preferences of each person in digital-content services. The Apriori algorithm is an influential algorithm for mining frequent itemsets for association rules. However, since this algorithm does not take into account reference times of each content as an important support factor, it cannot be used to extract associations among time-based data. This paper proposes an augmented Apriori algorithm discovers association rules using both frequencies and usage times of each item.

웹 로그에서의 Apriori 알고리즘 기반 사용자 액세스 패턴 발견 (User Access Patterns Discovery based on Apriori Algorithm under Web Logs)

  • 염종림;정석태
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.681-689
    • /
    • 2019
  • 웹 사용 패턴 발견은 웹 로그 데이터를 사용하는 고급 수단이며 웹 로그 데이터 마이닝에 데이터 마이닝 기술을 적용한 특정 응용이다. 교육 분야에서 데이터 마이닝 (DM)은 데이터 마이닝 기술을 교육 데이터 (대학의 웹 로그, e-러닝, 적응형 하이퍼미디어 및 지능형 튜터링시스템 등)에 적용한다. 따라서 교육 연구 문제를 해결하기 위해 이러한 유형의 데이터를 분석하는 것이 목표이다. 본 논문에서는 대학의 웹 로그 데이터가 데이터 마이닝의 연구 대상으로 사용되어 진다. 데이터베이스 OLAP 기술을 사용하여 웹 로그 데이터가 데이터 마이닝에 사용될 수 있는 데이터 형식으로 사전 처리되고 그 처리 결과가 MSSQL에 저장된다. 동시에 처리 된 웹 로그 레코드를 기반으로 기본 데이터 통계 및 분석이 완료된다. 또한 웹 사용 패턴 마이닝의 Apriori Algorithm 및 구현 프로세스를 소개하고 Python 개발 환경에서 Apriori Algorithm 프로그램을 개발했다. 그런 다음 Apriori Algorithm의 성능을 보이고 웹 사용자 액세스 패턴의 마이닝을 실현했다. 이 연구 결과는 교육 시스템 개발에 패턴을 적용하는데 중요한 이론적 의미를 갖는다. 다음 연구로는 분산 컴퓨팅 환경에서 Apriori Algorithm의 성능 향상을 연구하는 것이다.

데이터 마이닝을 통한 네트워크 이벤트 감사 모듈 개발 (Development of Network Event Audit Module Using Data Mining)

  • 한석재;소우영
    • 융합보안논문지
    • /
    • 제5권2호
    • /
    • pp.1-8
    • /
    • 2005
  • 최근 새로운 공격기법에 대한 대응방법의 하나로 네트워크 상황 즉, 네트워크 사용량을 분석을 통한 외부 공격 예방기법이 연구되고 있다. 이를 위한 네트워크 분석을 데이터 마이닝 기법을 통하여 네트워크 이벤트에 대한 연관 규칙을 주어 외부뿐만 아니라 내부 네트워크를 분석할 수 있는 기법이 제안되었다. 대표적인 데이터 마이닝 알고리즘인 Apriori 알고리즘을 이용한 네트워크 트래픽 분석은 과도한 CPU 사용시간과 메모리 요구로 인하여 효율성이 떨어진다. 본 논문에서는 이를 해결하기 위해서 새로운 연관 규칙 알고리즘을 제시하고 이를 이용하여 네트워크 이벤트 감사 모듈을 개발하였다. 새로운 알고리즘을 적용한 결과, Apriori 알고리즘을 적용한 시스템에 비해 CPU 사용시간과 메모리의 사용량에 있어 큰 향상을 보였다.

  • PDF

트리 구조를 이용한 연관규칙의 효율적 탐색 (An Efficient Tree Structure Method for Mining Association Rules)

  • 김창오;안광일;김성집;김재련
    • 대한산업공학회지
    • /
    • 제27권1호
    • /
    • pp.30-36
    • /
    • 2001
  • We present a new algorithm for mining association rules in the large database. Association rules are the relationships of items in the same transaction. These rules provide useful information for marketing. Since Apriori algorithm was introduced in 1994, many researchers have worked to improve Apriori algorithm. However, the drawback of Apriori-based algorithm is that it scans the transaction database repeatedly. The algorithm which we propose scans the database twice. The first scanning of the database collects frequent length l-itemsets. And then, the algorithm scans the database one more time to construct the data structure Common-Item Tree which stores the information about frequent itemsets. To find all frequent itemsets, the algorithm scans Common-Item Tree instead of the database. As scanning Common-Item Tree takes less time than scanning the database, the algorithm proposed is more efficient than Apriori-based algorithm.

  • PDF

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.

텍스트 마이닝 기법을 이용한 연관용어 선정에 관한 실험적 연구 (An Experimental Study on Selecting Association Terms Using Text Mining Techniques)

  • 김수연;정영미
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.147-165
    • /
    • 2006
  • 이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘 (Effective User Clustering Algorithm for Collaborative Filtering System)

  • 고수정;임기욱;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권2호
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF

Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류 (Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm)

  • 고수정;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권3호
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.