• 제목/요약/키워드: 연관성규칙발견

검색결과 62건 처리시간 0.025초

인과적 확인 측도에 의한 연관성 규칙 탐색 (Proposition of causally confirmed measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.857-868
    • /
    • 2014
  • 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술인 데이터 마이닝 기법은 오늘날 빅 데이터 시대에 가장 대표적인 분석 기법이라고 할 수 있다. 이들 중에서도 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 흥미도 측도를 기반으로 하여 항목들 간의 관련성을 찾아내는 것이다. 그러나 기본적인 연관성 평가 기준만으로는 두 항목 간의 인과관계를 설명할 수 없을 뿐만 아니라 연관성의 방향도 파악할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 확인 연관성 평가 기준을 제안하는 동시에, 제안한 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 확인 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 확인 지지도와 인과적 확인 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 또한 예제를 통해 기본적인 연관성 평가 기준과 인과적 연관성 평가 기준, 그리고 인과적 확인 연관성 평가 기준을 비교해 본 결과, 본 논문에서 제안하는 인과적 확인 측도들이 다른 평가 기준에 비해 가장 바람직한 측도라는 사실을 파악하였다.

단백질 구조 예측을 위한 서열 연관 규칙 탐사 (Discovering Sequence Association Rules for Protein Structure Prediction)

  • 김정자;이도헌;백윤주
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.553-560
    • /
    • 2001
  • 바이오정보학(bioinformatic)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 유전체 연구의 다양한 접근 방식 중 단백체학(proteomics)는 유전체의 최종 산물인 단백질을 직접적으로 다룬다는 측면에서 그 효용성에 대해 많은 기대를 모으고 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 구조를 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에 타나나는 부서열간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열간의 연관성을 표현하기 위한 모델로서 서열 연관 규직을 정의한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 주어진 단백질 집단으로부터 유용한 서열 연관 규칙을 발견하기 위한 기법을 제안한다. 아울러, SWISS-PROT 단백질 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 성능을 평가한다.

  • PDF

빈발 항목집합 추출을 위한 알고리즘 (Algorithm for Extraction of Large itemsets)

  • 채덕진;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.117-120
    • /
    • 2000
  • 데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

트랜잭션이 없는 시계열 데이터로 부터 가상 트랜잭션을 이용한 데이터 마이닝 (Mining Time Series Data With Virtual Transaction)

  • 김민수;이준섭;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.31-34
    • /
    • 2001
  • 대용량의 데이터들로부터 사용자가 원하는 데이터를 찾기 위하여 많은 데이터 마이닝 기술들이 연구되어 실제 응용프로그램에서 많이 적용되고 있다. 이러한 데이터 마이닝의 기술 중 연관규칙은 항목들의 집합으로 표현되는 트랜잭션에서 각 항목간의 연관성을 찾는데 사용된다. 그러나 실세계에는 트랜잭션이 없이 일련의 이벤트만 시간에 따라서 발생하는 데이터들이 많이 존재한다. 이러한 시계열 이벤트 데이터들로부터 다양한 가상 트랜잭션을 생성하는 기법들을 제시한다. 이러한 가상 트랜잭션 데이터로 변환된 시계열 데이터에 연관규칙, 순차패턴, 주기패턴과 관련된 여러 가지 알고리즘을 바로 적용 함으로서 유용한 규칙들을 발견해 낼 수 있다.

  • PDF

한시적 연관규칙을 위한 데이타 주도 탐사 기법 (Data-Driven Exploration for Transient Association Rules)

  • 조일래;김종덕;이도헌
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.895-907
    • /
    • 1997
  • 연관규칙(asscociation rule) 탐사(mining)는 대용량 데이타베이스로부터 사건간의 동시 발생 경향을 발견하는 작업이다. 기존의 연관규칙은 전체 트랜잭션에 대하여 성립하는 사건 간의 연관 관계만을 고려하고 있다. 그러나 어떤 연관규칙은 비록 전체 시간구간에 대해서는 신뢰도가 그리 높지 않더라도 특징 기간에서 특별히 강한 신뢰도로 성립할 수 있고, 이러한 정보를 알 수 있다면 의사 결정에 매우 유용하리라고 생각한다. 본 논문 에서는 임의의 부분 시간구간에서 특별히 높은 신뢰도를 갖는 연관성을 한시적 연관규칙(transient assosiation rule)이라 정의하고, 대용량의 데이타베이스로부터 한시적 연관규칙이 성립하는 시간구간을 탐사하는 효율적인 알고리즘을 제안한다. 제안된 알고리즘은 불필요한 구간 검색을 배제할 수 있는 데이타 주도(data-driven) 검색 기법을 제시하고, 한 번의 데이타베이스 스캐닝(scaning)으로 다음 단계의 검색에 필요한 정보를 획득하여 주기억장치 상에 관리할 수 있도록 하는 효과적인 자료구조를 설계한다. 아울러 실험을 통해, 제안 알고리즘이 현장에 적용할 만한 시간 비용으로 수행됨을 보인다.

  • PDF

글의 응집성을 포착하기 위한 개연규칙 (Abductive Rules for Text Cohesion)

  • 김곤;양재군;김민찬;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.517-520
    • /
    • 2004
  • 본 논문에서는 글의 응집성을 포착하기 위하여 개연규칙을 활용한다. 개연규칙은 문장 구성성분들의 문장간 개연적 연결상황을 나타내고, 글의 인과 성향이나 담화작용을 반영한다. 글을 이해하기 위한 대표적인 속성에는 글에 긴밀성을 부여하는 응집성이 있다. 글의 응집성을 파악하기 위한 대표적인 언어학적 도구나 지식으로는 어휘사슬을 들 수 있다. 이에 본 논문에서는 주어진 예문의 어휘사슬을 개연규칙으로 찾아낸 개연사슬과 비교해 보았다. 그 결과, 중요도가 높은 어휘사슬과 대응하는 개연사슬을 발견할 수 있었다. 개연사슬은 종래의 어휘사슬의 기능을 포함할 뿐만 아니라, 줄거리 단위, 단서구 용법, 문장사이의 개연성 등을 감지하여 문장간의 의미적 연관성을 포착할 수 있다. 이는 개연규칙을 활용하여 글의 화제문을 효과적으로 선별할 수 있음을 보인다.

  • PDF

감사데이터 분석을 위한 마이닝 시스템 설계 및 구현 (Design and Implementation of Mining System for Audit Data Analysis)

  • 김은희;문호성;신문선;류근호;김기영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.4-6
    • /
    • 2002
  • 네트워크의 광역화와 새로운 공격 유형의 발생으로 침입 탐지 시스템에서 새로운 시퀀스의 추가나 침입탐지 모델 구축의 수동적인 접근부분이 문제가 되고 있다. 특히 기존의 침입탐지 시스템들은 대량의 네트워크 하부구조를 가진 네트워크 정보를 수집 및 분석하는데 있어 각각 전담 시스템들이 담당하고 있다. 따라서 침입탐지 시스템에서 증가하는 많은 양의 감사데이터를 분석하여 다양한 공격 유형들에 대해서 능동적으로 대처할 수 있도록 하는 것이 필요하다. 최근, 침입 탐지 시스템에 데이터 마이닝 기법을 적용하여 능동적인 침입탐지시스템을 구축하고자 하는 연구들이 활발히 이루어지고 있다. 이 논문에서는 대량의 감사 데이터를 정확하고 효율적으로 분석하기 위한 마이닝 시스템을 설계하고 구현한다. 감사데이터는 트랜잭션데이터베이스와는 다른 특성을 가지는 데이터이므로 이를 고려한 마이닝 시스템을 설계하였다. 구현된 마이닝 시스템은 연관규칙 기법을 이용하여 감사데이터 속성간의 연관성을 탐사하고, 빈발 에피소드 기법을 적용하여 주어진 시간 내에서 상호 연관성 있게 발생한 이벤트들을 모음으로써 연속적인 시간간격 내에서 빈번하게 발생하는 사건들의 발견과 알려진 사건에서 시퀀스의 행동을 예측하거나 기술할 수 있는 규칙을 생성한 수 있다. 감사데이터의 마이닝 결과 생성된 규칙들은 능동적인 보안정책을 구축하는데 활용필 수 있다. 또한 데이터양의 감소로 침입 탐지시간을 최소화하는데도 기여한 것이다.

  • PDF

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF

고객 구매행태의 지속적 변화 파악을 위한 재귀적 변화발견 방법 (A Recursive Procedure for Mining Continuous Change of Customer Purchase Behavior)

  • 김재경;채경희;최주철;송희석;조영빈
    • 경영정보학연구
    • /
    • 제8권2호
    • /
    • pp.119-138
    • /
    • 2006
  • 데이터 마이닝의 연관성규칙 분석 기법(Association Rule Mining)은 현실문제에의 많은 활용에도 불구하고 시간의 흐름에 대한 변화 파악 및 분석에서는 한계를 가지고 있다. 본 연구에서는 기존의 두 시점에서의 고객 행위 변화 파악 기법을 재귀적 방법을 통하여 다시점으로 확장하여 분석할 수 있는 방법론을 제시한다. 즉, 본 연구에서는 연관성규칙의 패턴 및 변화의 추세를 장기간에 걸쳐 지속적으로 관찰함으로써, 고객의 일시적인 변화보다는 지속적인 행위 변화를 관찰할 수 있도록 하는 방법론을 구성한다. 방법론을 검증하기 위해 L백화점의 4년간의 구매관련 데이터를 분석하여 그 결과를 제시하고 있다.

단계 선형 배치 트리를 이용한 순차 패턴 추출 (Mining Sequential Patterns Using Multi-level Linear Location Tree)

  • 최현화;이동하;이전영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.70-72
    • /
    • 2003
  • 대용량 데이터베이스로부터 순차 패턴을 발견하는 문제는 지식 발견 또는 데이터 마이닝(Data Mining) 분야에서 주요한 패턴 추출 문제이다. 순차 패턴은 추출 기법에 있어 연관 규칙의 Apriori 알고리즘과 비슷한 방식을 사용하며 그 과정에서 시퀀스는 해쉬 트리 구조를 통해 다루어 진다. 이러한 해쉬 트리 구조는 항목들의 정렬과 데이터 시퀀스의 지역성을 무시한 저장 구조로 단순 검색을 통한 다수의 복잡한 포인터 연산수행을 기반으로 한다. 본 논문에서는 이러한 해쉬 트리 구조의 단정을 보완한 다단게 선형 배치 트리(MLLT, Multi-level Linear Location Tree)를 제안하고, 다단계 선형 배치 트리를 이용한 효율적인 마이닝 메소드(MLLT-Join)를 소개한다.

  • PDF