• 제목/요약/키워드: 연관규칙

검색결과 717건 처리시간 0.021초

퍼지 개념 계층을 도입한 일반화된 연관 규칙 마이닝 (Mining Generalized Association Rules Using Fuzzy Concept Hierarchy)

  • 손봉기;김동호;이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.84-86
    • /
    • 2000
  • 연관 규칙 마이닝 과정에 참조되는 일반 개념 계층은 개념간의 명확한 관계만을 표현한다. 실제로는 개념 사이의 관계가 애매한 경우가 많다. 이 논문에서는 개념간의 애매한 관계까지 반영할 수 있는 퍼지 개념 계층을 이용하여 일반화된 연관 규칙을 마이닝하는 방법을 제안한다. 퍼지 개념 계층에서의 하위 개념을 상위 개념으로 적절하게 반영하는 방법과 마이닝된 연관 규칙에서 중복되는 규칙의 가지치기(pruning)에 사용되는 측도를 소개한다. 또한 퍼지 개념 계층을 이용한 일반화된 연관 규칙 마이닝 방법의 응용성을 보이기 위해 실험 과정과 결과를 보인다.

  • PDF

XML 문서 클러스터링을 이용한 개선된 연관규칙 (Advanced Association Rules using XML Document Clustering)

  • 김의찬;이재민;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.181-183
    • /
    • 2004
  • 기존의 연관규칙을 생성하는 알고리즘의 문제점을 개선하기 위해 본 논문에서는 XML 문서 클러스터링을 이용하였다. XML 문서 클러스터링을 이용하여 데이터베이스 탐색 횟수 일 조인 개수를 줄여서 수행 속도를 향상시키고, 또한 클러스터링을 통해 얻은 클러스터에서 규칙을 찾기 때문에 기존의 연관규칙 생성 방법에서는 찾지 못했던 규칙들도 찾아낼 수 있다 본 논문에서 사용하는 클러스터링 방법은 XML문서 검색을 위한 3차원 비트맵 인덱싱인 xPlaneb를 사용하여 구현하였다.

  • PDF

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

주변 조건부 변수에 의한 연관성 규칙 생성에 관한 연구 (A study on association rule creation by marginally conditional variables)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.121-129
    • /
    • 2012
  • 연관성규칙은 대용량 데이터베이스에서 각 항목들 간의 관련성을 찾아내는 기법이다. 현재 연관성규칙의 효율성을 개선하기 위하여 많은 연구자들에 의하여 제약 기반 연관성규칙의 연구가 활발하게 진행되고 있다. 연관성규칙 생성 시, 종종 많은 규칙들을 발견할 수 있다. 이들 규칙 중에서 변수들 간에 우연히 관련성이 높게 나타나는 경우가 존재할 수 있고 주변 조건부 변수 (매개변수, 외적변수)에 의하여 직접적인 관련성이 없는 규칙을 발견할 수도 있으며, 그 규칙은 간접적 해석만 가능하므로 의미가 없는 것으로 판단 할 수 있다. 이에 본 연구에서는 연관성 규칙에서 주변 조건부 변수를 고려한 연관성 규칙 생성에 관하여 연구하고자 하며, 이를 실례를 통하여 고찰하였다. 본 연구의 결과를 적용함으로써 연관성 규칙에서 의미 없는 규칙을 찾을 수 있으며, 변수들 간의 관련성을 보다 정확하고 명확하게 이해할 수 있을 것이다.

음의 순수 연관성 규칙 평가 기준의 제안 (Proposition of negatively pure association rule threshold)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.179-188
    • /
    • 2011
  • 연관성 규칙은 방대한 데이터베이스에서 항목간의 관계를 명확히 수치화 함으로써 그들간의 관련성을 표시해주는 기법으로 데이터 마이닝 기법들 중에서 가장 많이 활용되고 있다. 어느 항목이 발생하면 다른 항목도 발생한다는 규칙을 발견하기 위한 기법이 연관성 규칙이라면 음의 연관성 규칙 마이닝은 어느 항목이 발생하면 다른 항목도 발생하지 않는다는 규칙을 찾아내는 기법이다. 기존의 연관성 규칙에 음의 연관성 규칙을 추가하게 되면 어떤 제품을 판매하기 위해서는 그 제품만 마케팅 하는 것 뿐 만 아니라 더 나아가 그 제품이 아닌 어느 제품을 마케팅 하는 것이 필요한지를 판단할 수 있다. 본 논문에서는 음의 연관성 규칙의 단점을 보완할 수 있는 음의 순수 연관성 규칙의 측도들을 제시하고 흥미도 측도가 가져야 할 조건들을 조사하였으며, 예제 데이터를 활용하여 음의 순수 연관성 규칙의 유용성에 대해 살펴보았다.

멀티미디어 데이타의 재발생 항목 마이닝을 위한 연관규칙 연구 (A Study on Association-Rules for Recurrent Items Mining of Multimedia Data)

  • 김진옥;황대준
    • 한국멀티미디어학회논문지
    • /
    • 제5권3호
    • /
    • pp.281-289
    • /
    • 2002
  • 컴퓨터 처리기술과 저장기술 그리고 인터넷 등의 영향으로 멀티미디어 데이터의 양은 급속하게 증가하지만 체계적으로 멀티미디어 데이터간의 연관규칙을 마이닝하는 연구는 초기 단계이다. 본 논문은 이미지 프로세싱 분야 및 내용기반 이미지 검색에 대한 기존 연구를 바탕으로 대형 영상 데이터 저장소에 저장된 이미지 데이터에서 재발생하는 항목간의 연관규칙을 찾으며 공간적 관계로 내용기반의 연관규칙을 마이닝하는 알고리즘을 제안한다. 제안된 연관규칙 탐색 알고리즘은 이미지의 색상, 질감, 모양 등 내용기반의 영상속성을 오브젝트 항목으로 하여 오브젝트가 이미지에서 재발생될 때를 이용, 이미지간의 연관규칙을 찾고 오브젝트들이 이미지에서 차지하고 있는 공간적 위치관계를 통해 드러나지 않는 이미지간의 연관규칙을 마이닝한다. 본 논문의 재발생 항목을 고려한 연관규칙 알고리즘은 Apriori 알고리즘보다 빈번한 항목 집합을 찾아내는데 더 높은 성능을 보인다는 것을 실험 을 통하여 제시한다. 제 안된 알고리즘은 동일한 정보원으로부터 받은 멀티미디어 데이터간의 연관성을 탐색하는데 특히 효과적이며 다양한 관련 응용분야에 적용할 수 있다.

  • PDF

내용 기반의 멀티미디어 데이터 연관규칙 마이닝에 대한 연구 (A Study on Data Association-Rules Mining of Content-Based Multimedia)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.57-64
    • /
    • 2002
  • 컴퓨터 처리기술과 저장기술 그리고 인터넷 등의 영향으로 멀티미디어 데이터의 양은 급속하게 증가하지만 체계적인 멀티미디어 데이터간의 연관규칙을 마이닝하는 연구는 초기 단계이다. 본 논문은 이미지 프로세싱 분야 및 내용기반 이미지 검색에 대한 기존 연구를 바탕으로 대형 영상 데이터 저장소에 저장된 이미지 데이터에서 재생성되는 항목간의 연관규칙을 찾으며 공간적 관계로 내용기반의 연관규칙을 마이닝하는 알고리즘을 제안한다. 제안된 연관규칙 탐색 알고리즘은 이미지의 색상, 질감, 모양 등 내용기반의 영상속성을 오브젝트 항목으로 하고 오브젝트가 이미지에서 재생성될 때를 이용하여 이미지간의 연관규칙을 찾고 오브젝트들이 이미지에서 차지하고 있는 공간적 위치관계를 통해 드러나지 않는 이미지간의 연관규칙을 마이닝한다. 본 논문의 재생성 항목을 고려한 연관규칙 알고리즘은 Apriori 알고리즘보다 빈번한 항목 집합을 찾아내는데 더 높은 성능을 갖는다는 것을 실험을 통하여 보여준다. 제안된 알고리즘은 동일한 정보원으로부터 받은 멀티미디어 데이터간의 연관성을 탐색하는데 특히 효과적이며 다양한 관련 응용분야에 적용할 수 있다.

빅데이터 추천시스템을 위한 과립기반 연관규칙 마이닝 (Granule-based Association Rule Mining for Big Data Recommendation System)

  • 박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권3호
    • /
    • pp.67-72
    • /
    • 2021
  • 연관규칙 마이닝은 여러 테이블에 숨겨진 패턴들의 관계를 나타내주는 방법이다. 요즈음에는 연관규칙 마이닝에 보다 세부적인 의미를 추가하기 위하여 과립화 논리를 이용하고 있다. 또한 기존의 데이터를 이용하여 추천하는 기존의 시스템과는 달리 과립화 연관규칙에서는 신규 가입자나 신규상품에 대한 추천의 경우도 가능하다. 따라서 연관규칙의 과립화의 정성적인 크기를 결정하는 것이 추천 시스템의 성능을 좌우한다. 본 논문에서는 관람자가 평가한 영화에 대한 관계를 파악하기 위하여 퍼지논리와 샤논 엔트로피 개념을 이용하여 관람자와 영화데이터에 대한 과립화 방법을 제안한다. 연구는 관람자와 영화간의 연관규칙의 함의에 결정적인 역할을 하는 데이터의 과립화의 크기를 결정하는 부분과 이러한 과립화를 이용하여 관람자와 영화간의 연관규칙을 추출하는 두 번째 부분으로 구성되어 있으며 넷플릭스의 MovieLens데이터를 이용하여 분석하였다. 최종적으로 도출된 연관규칙의 의미와 추천의 정확도 및 고려해야하는 함의를 제시하였다.

클러스터링과 특성분석을 이용한 구간 데이터에서 다차원 연관 규칙 마이닝 (Mining of Multi-dimensional Association Rules over Interval Data using Clustering and Characterization)

  • 임승환;권용석;김상욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.60-64
    • /
    • 2010
  • 비 트랜잭션 데이터를 대상으로 연관 규칙을 도출하기 위해서, 데이터의 속성들을 구간화하는 기법들이 활발하게 연구되었다. 이러한 기존의 연구들은 구간화 단계에서 구간 범위의 변화에 따른 연관 규칙의 신뢰도 변화를 반영하지 않고, 구간화 단계와 연관 규칙을 도출하는 단계들을 독립적으로 수행하였다. 이로 인해 속성들의 구간이 부적절하게 설정되고, 이 결과 높은 신뢰도를 갖는 연관 규칙들이 최종 결과에서 누락된다. 따라서 본 논문에서는 속성들을 구간화하는 단계와 연관 규칙들을 도출하는 단계를 병합하여 동시에 수행함으로써, 가장 신뢰도가 높은 연관규칙들을 도출할 수 있는 구간을 설정하는 방안을 제안한다. 이를 위해서 연관 규칙의 우변의 속성들을 대상으로 계층적 클러스터링을 수행하고, 각 클러스터들에 대해서 특성 분석을 수행한다. 실험 결과, 제안하는 기법은 기존의 기법들에 비해서 높은 신뢰도를 갖는 연관 규칙들을 발견하는 것으로 나타났다.

상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝 (Mining Quantitative Association Rules using Commercial Data Mining Tools)

  • 강공미;문양세;최훈영;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.97-111
    • /
    • 2008
  • 상용 데이타 마이닝 도구에서는 기본적으로 이진 속성에 대한 연관규칙 마이닝만을 지원한다. 그러나, 일반적인 트랜잭션 데이타베이스는 이진 속성 뿐 아니라 정량적 속성을 포함한다. 이에 따라, 본 논문에서는 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 마이닝하는 체계적인 접근법을 제안한다. 이를 위해, 우선 상용 데이타 마이닝 도구를 사용하여 정량적 연관규칙을 찾아내기 위한 전체적인 프레임워크를 제안한다. 제안한 프레임워크는 정량적 속성을 이진 속성으로 변환하는 전처리 과정과 마이닝된 이진 연관규칙을 다시 정량적 연관규칙으로 변환하는 후처리 과정으로 구성된다. 다음으로, 전처리 과정을 위한 구간 분할의 개념을 제시하고, 기존의 평균 및 중앙치 기반 양분할 기법과 동일 너비 및 동일 깊이 기반 다분할 기법을 구간 분할의 개념으로 정형적으로 재정의한다. 그런데, 이들 기존 분할 기법은 속성 값의 분포를 고려하지 않은 문제점이 있다. 본 논문에서는 이를 해결하기 위하여 표준편차 최소화 기법을 제안한다. 표준편차 최소화 기법은 이웃한 속성 값의 표준편차 변화가 작다면 동일한 구간에 포함시키고, 표준편차 변화가 크다면 다른 구간으로 분할하는 매우 직관적인 분할 기법이다. 또한, 후처리 과정으로는 이진 연관규칙들을 통합하고 이를 다시 정량적 연관규칙으로 변환하는 방법을 제안한다. 마지막으로, 다양한 실험을 통하여 제안한 프레임워크가 바르게 동작함을 보이고, 표준편차 최소화 기법이 다른 기법에 비하여 우수함을 입증한다. 이 같은 결과를 볼 때, 제안한 프레임워크는 일반 사용자가 상용 데이타 마아닝 도구를 사용하여 정량적 연간규칙을 쉽게 마이닝 할 수 있는 매우 실용적인 접근법이라 생각한다.