• Title/Summary/Keyword: 규칙 생성

검색결과 1,200건 처리시간 0.023초

데이타 웨어하우스 환경에서의 설명기반 데이타 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1999년도 춘계공동학술대회: 지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이타들이 축적되고 있다. 이러한 데이타로부터 유용한 지식을 추출하기 위해 여러 가지 데이타 마이닝 기법들이 연구되어왔다. 특히 데이타 웨어하우스의 등장은 이러한 데이타 마이닝에 있어 필요한 데이타 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이타 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성이 없는(trivial, spurious and irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이타 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이타 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적은 이러한 데이타 마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이타 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이타 웨어하우스로부터 연관규칙을 검증하는 일련의 아키텍쳐(architecture)를 제시하고자 한다. 먼저 데이타 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이타 웨어하우스와 데이타 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이타 웨어하우스의 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현 방법으로 Relational predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사론 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이타 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 고메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이타 마이닝 접근을 제시하였다는데 있다.

  • PDF

데이터 웨어하우스 환경에서의 설명기반 데이터 마이닝 (Explanation-based Data Mining in Data Warehouse)

  • 김현수;이창호
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 1999년도 춘계공동학술대회-지식경영과 지식공학
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이터들이 축적되고 있다. 이러한 데이터로부터 유용한 지식을 추출하기 위해 여러 가지 데이터 마이닝 기법들이 연구되어왔다. 특히 데이터 웨어하우스의 등장은 이러한 데이터 마이닝에 있어 필요한 데이터 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이터 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성 없는(trivial, spurious and irrelevant)내용만 무수히 쏟아낼 수 있다. 그러므로 데이터 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라도 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이터 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문에서는 데이터 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이터 웨어하우스로부터 연관규칙을 검증하는 일련의 아텍쳐(architecture)를 제시하고다 한다. 먼저 데이터 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이터 웨어하우스와 데이터 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이터 웨어하우스으 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기위한 지식표현 방법으로 Relational Predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사를 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이터 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 도메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이터 마이닝 접근을 제시하였다는데 있다.

  • PDF

병렬확장을 활용한 규칙생성 기법 (A Rule Generation Technique Utilizing a Parallel Expansion Method)

  • 이기철;김진봉
    • 한국정보처리학회논문지
    • /
    • 제5권4호
    • /
    • pp.942-950
    • /
    • 1998
  • 가공되지 않은 데이터에서 직접 규칙 형태의 지식을 추출하는 문제는 자료의 홍수 속에서 정보의 부족을 느끼는 모순을 해결하기 위한 데이터 마이닝 분야에서 매우 중요하다. 논리 최적화 도구는 주어진 ON 집합과 DC 집합을 이용하여 최적화된 형태의 지식을 추출하는 도구인데, 본 논문에서는 논리 최적화 기법 중 병렬 확장 기법을 이용하여 초기 지식을 생성한 후 정렬, 축소, 규칙 확장 등의 방법을 이용하여 실 세계 데이터에 적용할 수 있는 규칙이 생성될 수 있음을 보였다. 이와 같은 새로운 접근 방법이 종래의 C4.5 등의 결정 트리 기법에 손색없는 규칙을 생성할 수 있음을 실험을 통해 입증하였다.

  • PDF

지능형 시스템기반의 침입탐지모델 (Intrusion Detection Model based on Intelligent System)

  • 김명준;양지흥;한명묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.243-248
    • /
    • 2002
  • 빠르게 변해 가는 정보화사회에서 침입 탐지 시스템은 정밀성과 적웅성, 그리고 확장성을 필요로 한다. 또한 복잡한 Network 환경에서 중요하고 기밀성이 유지되어야 할 리소스를 보호하기 위해, 더욱 구조적이고 지능적인 IDS(Intrusion Detection System)개발의 필요성이 요구되고 있다. 본 연구는 이를 위한, 지능적인 IDS를 위해 침입패턴을 생성하기 위한 모델을 도출함에 목적이 있다. 침입 패턴은 방대한 양의 데이터를 갖게 되고, 이를 정확하고 효율적으로 관리하기 위해서 데이터마이닝의 주요 2분야인 Link analysis와 Sequence analysis를 이용하여 정확하고 신뢰성 있는 침입규칙을 생성하기 위한 모델을 도출해낸다 이 모델은 "Time Based Traffic Model", "Host Based Traffic Model", "Content Model"로 각각 상이한 침입 패턴을 생성하게 된다. 이 모델을 이용하면 좀더 효율적이고 안정적으로 패턴을 생성 할 수 있다, 즉 지능형 시스템기반의 침입 탐지 모델을 구현할 수 있다. 이러한 모델로 생성한 규칙은 침입데이터를 대표하는 규칙이 되고, 이는 비정상 사용자와 정상 사용자를 분류하게 된다 모델에 사용된 데이터는 KDD컨테스트의 데이터를 이용하였다. 사용된 데이터는 KDD컨테스트의 데이터를 이용하였다.

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

러프집합을 이용한 퍼지 규칙의 효율적인 감축 (The Optimal Reduction of Fuzzy Rules using a Rough Set)

  • 노은영;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.261-264
    • /
    • 2007
  • 퍼지 추론은 애매한 지식을 효과적으로 처리할 수 있는 장점이 있다. 그러나 규칙의 연관속성은 규칙을 과다하게 생성하기 때문에 유용하고 중요한 규칙을 결정하는데 여러 가지 문제점이었다. 본 논문에서는 퍼지 규칙에서 규칙간의 상관성을 고려하여 불필요한 속성을 제거하고, 퍼지규칙의 상대농도를 이용하여 추론결과의 정확성을 유지하면서 규칙의 수를 최소화 하는 방법을 제안한다. 제안한 방법의 타당성을 검증하기 위하여 기존의 규칙 감축 방법에 따른 출론 결과와 비교 검증하였다.

  • PDF

분산 분할 방식의 퍼지 규칙 생성 및 추론 시스템 (Fuzzy Rules Generation and Inference System of Scatter Partition Method)

  • 박건준;장태수;김성훈;김용갑
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.35-36
    • /
    • 2012
  • 퍼지 모델링을 하기 위해서는 퍼지 규칙의 생성이 필연적이며, 일반적으로 차원이 증가할수록 규칙의 수가 지수적으로 증가하는 문제를 가지고 있다. 이를 해결하기 위해, 시스템 데이터를 이용하여 입력 공간을 분산 형태로 분할하는 FCM 클러스터링 알고리즘을 기반으로 하여 퍼지 규칙을 생성하고 추론하는 시스템을 소개한다. 퍼지 규칙의 전반부 파라미터는 FCM 클러스터링 알고리즘에 의한 소속행렬로 결정되며 퍼지 규칙의 후반부는 다항식 함수의 형태로 표현된다. 제안된 모델은 수치 데이터를 이용하여 평가한다.

  • PDF

연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구 (A Clustering Technique Using Association Rules for The Library and Information Science Terminology)

  • 승현우;박미영
    • 한국문헌정보학회지
    • /
    • 제37권2호
    • /
    • pp.89-105
    • /
    • 2003
  • 본 논문에서는 대량의 웹 문서로부터 연관된 지식정보를 검색하기 위한 전문 검색엔진을 개발하기 위하여 텍스트에서 추출된 전문 용어를 효율적으로 클러스터링하기 위한 방법을 제안하고자 한다. 즉, 일반적인 용어들간의 무의미한 연관 규칙이 양산되는 것을 방지하기 위하여 전문 용어로 구성된 지식베이스 테이블을 이용하여 의미 있는 용어들간의 연관 규칙을 생성한다. 연관 규칙은 하나의 논문에서 사용된 전문 용어들의 집합을 트랜잭션 단위로 구성하여 Apriori 알고리즘을 적용하여 생성된다. 하나의 용어로부터 생성된 연관 규칙 집합은 해당 전문 용어와 관련된 클러스터로 구성된다.

침입 탐지를 위한 효율적인 퍼지 분류 규칙 생성 (Generation of Efficient Fuzzy Classification Rules for Intrusion Detection)

  • 김성은;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권6호
    • /
    • pp.519-529
    • /
    • 2007
  • 본 논문에서는 효율적인 침입 탐지를 위해 퍼지 규칙을 이용하는 방법을 제안한다. 제안한 방법은 퍼지 의사결정 트리의 생성을 통해 침입 탐지를 위한 퍼지 규칙을 생성하고 진화 알고리즘을 사용하여 최적화한다. 진화 알고리즘의 효율적인 수행을 위해 지도 군집화를 사용하여 퍼지 규칙을 위한 초기 소속함수를 생성한다. 제안한 방법의 진화 알고리즘은 적합도 평가시 퍼지 규칙(퍼지 의사결정 트리)의 성능과 복잡성을 고려하여 평가한다. 또한 데이타 분할을 이용한 평가와 퍼지 의사결정 트리의 생성과 평가 시간을 줄이는 방법으로 소속정도 캐싱과 zero-pruning을 사용한다. 제안한 방법의 성능 평가를 위해 KDD'99 Cup의 침입 탐지 데이타로 실험하여 기존 방법보다 성능이 향상된 것을 확인하였다. 특히, KDD'99 Cup 우승자에 비해 정확도가 1.54% 향상되고 탐지 비용은 20.8% 절감되었다.

전역근사화 반응표면의 생성을 위한 퍼지모델링 및 퍼지규칙의 생성 (Fuzzy Modeling and Fuzzy Rule Generation in Global Approximate Response Surfaces)

  • 이종수;황정수
    • 한국지능시스템학회논문지
    • /
    • 제12권3호
    • /
    • pp.231-238
    • /
    • 2002
  • 진화퍼지모델링은 퍼지추론시스템과 진화연산의 장점을 결합한 모델링 방법으로써 전역근사최적화를 수행한다. 본 논문에서는 진화퍼지모델링의 가장 중요한 과정 중 하나인 퍼지규칙의 생성방법으로써 퍼지클러스터링을 제안한다. 퍼지클러스터링을 실험 혹은 시뮬레이션의 결과에 적용함으로써, 비선형성이 강하고 복잡한 설계문제를 적절하게 묘사할 수 있는 퍼지 규칙을 생성할 수 있다. 퍼지클러스터링의 결과로 얻어지는 클러스터에 대한 실험치의 소속정도를 활용하여 진화퍼지모델링의 효율을 향상시킬 수 있다. 제안된 방법의 유효성을 검증하기 위해 실제 자동차 내장재에 설계문제를 선정하여 전역근사화를 수행하였다. 클러스터 수와 퍼지규칙의 선택과 관련하여 여러 다양한 경우에 대해서 진화퍼지모델링을 수행하여 그 결과를 비교하였고 이를 통하여 제안된 방법이 시스템을 묘사하는 적절한 퍼지규칙을 생성하고 모델링의 오차를 만족할 만한 수준으로 유지하면서 계산시간을 줄일 수 있음을 확인하였다.