• Title/Summary/Keyword: 규칙 탐사

Search Result 192, Processing Time 0.023 seconds

Explanation-based Data Mining in Data Warehouse (데이타 웨어하우스 환경에서의 설명기반 데이타 마이닝)

  • 김현수;이창호
    • Proceedings of the Korea Database Society Conference
    • /
    • 1999.06a
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이타들이 축적되고 있다. 이러한 데이타로부터 유용한 지식을 추출하기 위해 여러 가지 데이타 마이닝 기법들이 연구되어왔다. 특히 데이타 웨어하우스의 등장은 이러한 데이타 마이닝에 있어 필요한 데이타 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이타 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성이 없는(trivial, spurious and irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이타 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이타 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적은 이러한 데이타 마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이타 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이타 웨어하우스로부터 연관규칙을 검증하는 일련의 아키텍쳐(architecture)를 제시하고자 한다. 먼저 데이타 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이타 웨어하우스와 데이타 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이타 웨어하우스의 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현 방법으로 Relational predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사론 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이타 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 고메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이타 마이닝 접근을 제시하였다는데 있다.

  • PDF

Discovering Temporal Relation Rules from Temporal Interval Data (시간간격을 고려한 시간관계 규칙 탐사 기법)

  • Lee, Yong-Joon;Seo, Sung-Bo;Ryu, Keun-Ho;Kim, Hye-Kyu
    • Journal of KIISE:Databases
    • /
    • v.28 no.3
    • /
    • pp.301-314
    • /
    • 2001
  • Data mining refers to a set of techniques for discovering implicit and useful knowledge from large database. Many studies on data mining have been pursued and some of them have involved issues of temporal data mining for discovering knowledge from temporal database, such as sequential pattern, similar time sequence, cyclic and temporal association rules, etc. However, all of the works treat problems for discovering temporal pattern from data which are stamped with time points and do not consider problems for discovering knowledge from temporal interval data. For example, there are many examples of temporal interval data that it can discover useful knowledge from. These include patient histories, purchaser histories, web log, and so on. Allen introduces relationships between intervals and operators for reasoning about relations between intervals. We present a new data mining technique that can discover temporal relation rules in temporal interval data by using the Allen's theory. In this paper, we present two new algorithms for discovering algorithm for generating temporal relation rules, discovers rules from temporal interval data. This technique can discover more useful knowledge in compared with conventional data mining techniques.

  • PDF

Level-based Data Mining System for Generalized Association Rules (일반화된 연관규칙 발견을 위한 Level-based Data Mining 시스템)

  • 김온실;박승수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.43-45
    • /
    • 2001
  • 데이터로부터 숨겨진 패턴을 추출하는 데이터마이닝 기법 중에서 연관규칙은 대용량의 데이터베이스에서 단위 트랜잭션 당 동시에 발생할 확률이 높은 항목들의 유형을 발견하는 기법이다. 연관규칙 탐사에서 개념계층(taxonomy)을 사용하여 보다 포괄적인 의미를 갖는 규칙을 찾아내는 연구가 일반화된 연관규칙이며 이를 통해 일반화 이전에는 간과될 수 있는 중요한 규칙을 발견할 수 있다. 일반화된 연관규칙에 관한 기존의 접근방법은 후보항목집합의 각 항목에 대한 개념계층상의 모든 조상들을 트랜잭션에 추가한 후 확장된 트랜잭션에 대해 지지도를 계산하는 방법이며. 이렇게 되면 연관규칙의 단점중의 하나인 계산량 문제가 더욱 두드러지게 된다. 이에 본 연구에서는 모든 개념계층 레벨이 아닌, 사용자가 관심 있는 레벨로 제한된 환경에서 연관규칙 탐사를 수행하여 규칙생성의 복잡도를 줄이는 시스템을 구현하였다. 그러나 모든 항목을 한 레벨로 일반화하는데는 무리가 따르기 때문에 관심있는 항목의 경우 일반화 레벨을 따로 명시할 수 있도록 하여 사용자가 원하는 규칙을 발견하도록 하였다.

  • PDF

Discovery of Association Rules Based on Data of Quantitative Attribute and Time Series (수량적 속성과 시계열 분석에 의한 연관규칙 탐사)

  • 양신모;정광호;김진수;최성용;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.175-177
    • /
    • 2003
  • 연관규칙은 데이터 안에 존재하는 항목들간의 종속 관계를 찾아내는 것이다. 기존의 연구에서는 연관규칙 탐사 과정에서 발견항목 자체에만 관심을 두고 연구되어 왔다. 즉, 연관규칙 생성을 위한 후보 항목은 수량을 배제한 항목 대 수량비가 1:1인 상태에서 규칙을 발견하는 연구였다. 이것은 항목의 구매 수량에 관계없이 같은 가중치로 규칙을 발견하는 문제점을 갖고 있다. 두 번째 문제점은 연관규칙은 시간적 연장선상에서 발견되는 규칙이라 할 수 있다. 즉, 규칙을 발견하는 과정에서 모든 자료를 동일한 시간적 가중치를 두어 취급하는 것이다. 본 논문에서는 각각의 아이템을 (아이템, 수량)의 묶음 단위로 후보항목을 만들어 수량적 속성이 포함된 아이템 대 수량 비 1:n의 관계에서 규칙을 발견하는 방법을 제안한다. 또한 과거의 자료들을 이용하여 예측할 때 모든 자료를 동일하게 취급하기보다는 최근의 자료에 더 큰 비중을 주는 예측법을 사용하여 연관규칙 발견의 신뢰성을 높인다. 성능평가는 기존의 알고리즘과 비교하여 제안한 알고리즘의 성능향상 및 타당성을 보인다.

  • PDF

Temporal Associative Classification based on Calendar Patterns (캘린더 패턴 기반의 시간 연관적 분류 기법)

  • Lee Heon Gyu;Noh Gi Young;Seo Sungbo;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.6
    • /
    • pp.567-584
    • /
    • 2005
  • Temporal data mining, the incorporation of temporal semantics to existing data mining techniques, refers to a set of techniques for discovering implicit and useful temporal knowledge from temporal data. Association rules and classification are applied to various applications which are the typical data mining problems. However, these approaches do not consider temporal attribute and have been pursued for discovering knowledge from static data although a large proportion of data contains temporal dimension. Also, data mining researches from temporal data treat problems for discovering knowledge from data stamped with time point and adding time constraint. Therefore, these do not consider temporal semantics and temporal relationships containing data. This paper suggests that temporal associative classification technique based on temporal class association rules. This temporal classification applies rules discovered by temporal class association rules which extends existing associative classification by containing temporal dimension for generating temporal classification rules. Therefore, this technique can discover more useful knowledge in compared with typical classification techniques.

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

An Efficient Terminology Clustering Method Using Datamining Technique (데이타마이닝 기법을 이용한 효율적인 전문 용어 클러스터링)

  • 이정화;남상엽;문현정;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.210-215
    • /
    • 2000
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 일반적인 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 대량의 문서로부터 유용한 지식 정보를 찾기 위하여 의미적으로 연관된 전문 용어들끼리 클러스터링 하기 위한 방법을 제안하였다. 학술 논문을 대상으로 전문 용어를 추출하여 관련된 용어들끼리 클러스터를 구성하는 실험을 통하여 제안된 방법의 효율성을 보였다.

  • PDF

Temporal Association Rule Mining on Electronic Commerce (전자상거래에 적용 가능한 시간 연관 규칙 탐사 기법)

  • 서성보;이준욱;김선철;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.370-372
    • /
    • 1999
  • 전자상거래가 활성화되었지만 현재의 쇼핑몰은 단순한 상품 구매 역할과 정보 제공, 그리고 정적인 웹 공간의 관리로 이를 통해 인터넷 쇼핑몰 상품의 효율적인 진열, 상품 연관성을 고려한 마케팅 전략, 고객관리와 웹 페이지간의 시간 연관성을 고려한 링크 정보 등과 같은 효율적인 마케팅 전략을 구사하기에는 한계가 있다. 이 논문에서는 전자상거래에 적용 가능한 시간 연관 규칙 탐사기법을 통해 구매 데이터를 기반으로 상품간의 시간 연관 규칙 탐사와, 웹 서버에서 수집된 웹로그 파일로부터 연관 규칙을 찾아내기 위한 모델을 제시한다. 또한 이를 통해 생성된 규칙을 해석하여 사용자에 따른 웹 공간 구성, 방문 페이지 간의 연관성을 고려한 마케팅 전략과 효율적인 광고 전략 등을 위한 방안을 제시한다.

  • PDF

An Active Candidate Set Management Model on Association Rule Discovery using Database Trigger and Incremental Update Technique (트리거와 점진적 갱신기법을 이용한 연관규칙 탐사의 능동적 후보항목 관리 모델)

  • Hwang, Jeong-Hui;Sin, Ye-Ho;Ryu, Geun-Ho
    • Journal of KIISE:Databases
    • /
    • v.29 no.1
    • /
    • pp.1-14
    • /
    • 2002
  • Association rule discovery is a method of mining for the associated item set on large databases based on support and confidence threshold. The discovered association rules can be applied to the marketing pattern analysis in E-commerce, large shopping mall and so on. The association rule discovery makes multiple scan over the database storing large transaction data, thus, the algorithm requiring very high overhead might not be useful in real-time association rule discovery in dynamic environment. Therefore this paper proposes an active candidate set management model based on trigger and incremental update mechanism to overcome non-realtime limitation of association rule discovery. In order to implement the proposed model, we not only describe an implementation model for incremental updating operation, but also evaluate the performance characteristics of this model through the experiment.

Association rule mining for intertransactions with considering fairly data semantics (데이터의 의미적 정보를 공정하게 반영한 인터트랜잭션들에 대한 연관규칙 탐사)

  • Ceong, Hyi-Thaek
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.9 no.3
    • /
    • pp.359-368
    • /
    • 2014
  • Recently, to reflect the context between transactions, the intertransaction association rule mining has been study. In this study, we present two problems that is within intertransaction association rule mining method and suggest the methods to solve this problems. First, we suggest an algorithm to reflect changes on data between transactions. Second, we propose the method to solve the unfairly considered frequency of data when intertransactions is generate with transactions. We make more meaningful rules than previous researches. We present the experiment result with measured data from the marine environment.