• Title/Summary/Keyword: 데이터 연관

Search Result 1,875, Processing Time 0.031 seconds

Discovery Of Cyclic Association Rule With Loose Cycle and Error Cycle over Loose Cycle (오차를 허용하는 주기적 연관규칙 탐사를 통한 오차의 경향성에 관한 연구)

  • 배수균;남도원;이동하;이전영
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.317-324
    • /
    • 2000
  • 주기적인 연관규칙은 타겟데이터베이스를 일정 단위시간으로 나누었을 때 연관규칙이 만족하는 구간이 일정한 주기마다 발생하는 패턴을 탐색하는 방법이다. 하지만, 이 방법은 엄격한 주기를 가지도록 하여 실제 데이터에 그대로 적용하기가 어려웠다. 예를 들이 편의점 데이터에서 매일 오전 7시-8시 사이에 주기적으로 발생하는 연관규칙을 발견할 때, 이러한 연관규칙을 주기적인 연관규칙이라고 한다. 하지만, 실제 데이터에서는 날씨와 같이 사람의 행동에 영향을 미치는 다른 요인 때문에 항상 일정한 주기를 가지는 연관규칙을 찾기는 어렵다. 본 논문에서는 주기가 일정하지 않은 연관규칙을 찾기 위해서 연관규칙의 주기성을 허용 오차를 포함하며 재정의하고, 오차를 허용하기 위한 탐색 알고리즘을 보완하였다. 반면에, 오차를 허용함으로써 오차를 허용하지 않는 경우보다 더 많은 주기성을 찾을 수 있을 뿐만 아니라, 동일한 주기를 가지지만 오프셋이 다른 여러 개의 비슷한 주기가지 찾게 되어 사용자가 의미 있는 연관규칙을 찾는데 방해가 된다. 본 논문에서는 이를 해결하기 위해서 오차를 허용하는 주기적 연관규칙의 오차의 정도를 측정하기 위한 단위로 집중도(intensity)와 경향성(tendency)을 제안한다. 주기적 연관규칙이 매 주기마다 정확한 세그먼트에 나타나는 정도를 나타내는 집중도와, 최소 평균오차를 의미하는 경향성을 이용하여 유사한 주기들 중에서 대표주기만을 찾을 수 있도록 한다. 또한, 오차를 허용하는 주기적 연관규칙에서 오차가 주로 발생하는 패턴을 분석함으로써 고객들의 수요 경향성을 더 잘 파악할 수 있다. 예를 들어, 평소에는 매일 오진 7시∼8시에 나타나던 연관성이 지각하는 사람들이 같은 월요일에는 1시간 늦은 8시∼9시에 나타난다는 오타 정보까지 파악할 수 있다. 이러한 월요일마다 1시간 늦게 나타나는 오차의 경향성을 나타내는 오차 주기(error cyc1e)를 이용함으로써 고객들의 수요의 경향성을 좀 더 세밀한 부분까지 파악할 수 있게 해 준다.

  • PDF

A Method Mining RFID Data Using Generation Meta-Rules (메타 규칙 생성에 의한 RFID 데이터 마이닝 기법)

  • Kim, Young-Hee;Lee, Chang-Yeol;Kang, En-Young;Kim, Ung-Mo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.145-148
    • /
    • 2006
  • RFID 데이터에 대한 연관 규칙을 효율적으로 생성하기 위해서는 단일 개념 레벨에서 연관 규칙을 찾는 방법과는 달리 다단계 개념 레벨에서 의미 있는 정보를 발견할 수 있다. 이로부터 연관 규칙을 생성하게 되면 최상위 레벨의 정보를 통해 하위 레벨의 객체 이동 정보나 위치 정보, 상태 정보를 빠르게 획득 가능하다. 또한, 다차원 레벨을 갖는 연관 규칙 마이닝을 수행할 때 메타 규칙의 생성은 제한적이고 유용한 규칙만을 효율적으로 생성 가능하도록 할 수 있다. 따라서, 생성된 메타 규칙을 이용하여 많은 양의 데이터에서 질의를 효과적으로 수행 할 수 있을 뿐만 아니라, 데이터베이스의 저장 효율을 높이고, 객체간의 숨겨진 연관 관계를 발견하는데 있어 효율적인 방법이다.

  • PDF

Intelligent Query Analysis using Fuzzy Association Rule (퍼지 연관규칙을 이용한 지능적 질의해석)

  • Kim, Mi-Hye
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.6
    • /
    • pp.2214-2218
    • /
    • 2010
  • Association rule is one of meaning and useful extraction methods from large amounts of data, and furnish useful information to user for data describing a pattern or similarity among attributes in database. Association rule have been studied about existence and nonexistence rule in boolean database. In this paper, we propose an intelligent query system using fuzzy association rule by extraction association rule changing a quantitative attribute data to a nominal attribute value.

Association Rules Mining of Image Data using Spatial Factor (공간 분할 지수를 이용한 이미지 데이터 연관 규칙 마이닝)

  • Song ImYoung;Kim K.C.;Suk S.K.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.82-84
    • /
    • 2005
  • 본 논문에서는 기존의 멀티미디어 연관 규칙 알고리즘인 Max occur 알고리즘에서 추출한 빈발 항목 집합의 결과들에 대하여 빈발 항목 집합들끼리의 공간적인 연관 관계를 고려하기 위챈 공간 데이터 마이닝의 대표적인 공간 분할 방법인 그리드 셀 기반으로 곰간 분할 지수(spatial facotr)인 SF를 이용한 이미지 공간 연관 규칙 마이닝 방법을 제시한다. 또한 최소 공간 지지도를 적용하여 이미지 데이터에서 반복적으로 발생하는 항목과 항목간의 공간 관계를 통해 이미지 연관 규칙을 마이닝 하는데 보다 유효한 알고리즘을 제안한다.

  • PDF

A Rule-Based Data Mining Method among the Unrelated DataBase Table (비연계 DB 테이블상에서의 데이터 추출을 위한 규칙 기반의 데이터 마이닝 기법)

  • 김찬일;조대호
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.11a
    • /
    • pp.220-224
    • /
    • 2000
  • 데이터 마이닝란 대량의 실제 데이터에서 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업이다. 본 논문에서 서로 관계가 정의되지 않은 데이터베이스의 각 테이블간에서 필요한 정보를 추출 또는 가공하기 위해 데이터 마이닝 기법을 사용한다. 마이닝 기법인 연관 규칙은 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미하는 것이고, 제시된 규칙 기반의 데이터 마이닝 기법은 연관 규칙의 한 분야로서 데이터를 규칙 맞게 분류하는 기법이다. 이런 마이닝 기법을 구현하기 위해 인공지능 분야의 규칙 기반의 전문가 시스템을 사용하였고, 실 시스템인 GDS(Grating automatic Drawing System)에 적용하였다.

  • PDF

Mining Interesting Rule in Non-Existed Transaction Database Using Time-Windows (트랜잭션이 존재하지 않는 데이터베이스 상의 타임 윈도우를 이용한 마이닝 기법)

  • Lee, Joon-Sub;Kim, Min-Soo;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.15-18
    • /
    • 2001
  • 기존의 Association Rule 의 적용은 각 사건들이 고유한 연관관계를 갖는 다는 전재 하에 이를 이용하여 Data Mining Association Rule(연관규칙)을 적용해 왔다. 만약 이러한 연관규칙이 포함하지 않는 데이터에 대해서는 기존의 Rule 을 이용하기 위해서는 현재의 데이터를 재구성해야만 하는 필요성이 존재를 해왔다. 본 논문에서는 위와 같은 데이터의 재 구성없이 연관규칙을 포함하지 않은 데이터로부터 새로운 알고리즘을 이용하여 기존의 Association Rule 을 적용하고자 한다.

  • PDF

Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application (연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법)

  • Han, Gab-Soo
    • The KIPS Transactions:PartD
    • /
    • v.15D no.4
    • /
    • pp.475-484
    • /
    • 2008
  • Nowadays, lots of data mining applications based on continuous and online real time are increasing by the rapid growth of the data processing technique. In order to do association rule mining in that application, we have to use new techniques to find the frequent itemsets. Most of the existing techniques to find the frequent itemsets should scan the total database repeatedly. But in the application based on the continuous and online real time, it is impossible to scan the total database repeatedly. We have to find the frequent itemsets with only one scan of the data interval for that kind of application. So in this paper we propose an approximation technique which finds the maximum size of the frequent itemsets and items included in the maximum size of the frequent itemsets for the processing of association rule mining.

How to Define a Data Leakage Scenario Based on Relationships Between Work Activities (업무 활동간 연관 관계를 이용한 데이터 유출 시나리오 정의 방법)

  • Seo, Min Ji;Kim, Myung Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.292-294
    • /
    • 2017
  • 기업에서 보유하는 기밀 정보가 내부 직원에 의해 유출되는 사고가 빈번하게 발생하고 있다. 기업에서 데이터를 유출하려는 내부 직원을 탐지하기 위하여 보안 로그를 분석해주는 보안 관제 시스템을 사용하고 있으나, 보안 관제 시스템은 관리자가 지정하는 기준에 대해 보안 로그를 분석하기 때문에 새로운 유형의 데이터 유출 사고가 발생하였을 때 제대로 데이터 유출을 탐지할 수 없는 문제점을 가진다. 따라서 본 논문에서는 내부 직원의 업무활동에서 발생하는 보안 로그 리스트에 연관 분석을 적용하여 새롭게 데이터 유출 탐지 시나리오를 작성하여 기존의 시스템이 가진 문제점을 해결할 수 있는 방법을 소개한다. 연관 분석을 활용하여 정의한 데이터 유출 탐지 시나리오를 활용한 결과, 결과적으로 데이터 유출 탐지 성능이 향상되었다.

Signed Hellinger measure for directional association (연관성 방향을 고려한 부호 헬링거 측도의 제안)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.2
    • /
    • pp.353-362
    • /
    • 2016
  • By Wikipedia, data mining is the process of discovering patterns in a big data set involving methods at the intersection of association rule, decision tree, clustering, artificial intelligence, machine learning. and database systems. Association rule is a method for discovering interesting relations between items in large transactions by interestingness measures. Association rule interestingness measures play a major role within a knowledge discovery process in databases, and have been developed by many researchers. Among them, the Hellinger measure is a good association threshold considering the information content and the generality of a rule. But it has the drawback that it can not determine the direction of the association. In this paper we proposed a signed Hellinger measure to be able to interpret operationally, and we checked three conditions of association threshold. Furthermore, we investigated some aspects through a few examples. The results showed that the signed Hellinger measure was better than the Hellinger measure because the signed one was able to estimate the right direction of association.

Analysis of drama viewership related words through unstructured data collection (비정형데이터 수집을 통한 드라마 시청률 연관어 분석)

  • Kang, Sun-Kyoung;Lee, Hyun-Chang;Shin, Seong-Yoon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.8
    • /
    • pp.1567-1574
    • /
    • 2017
  • In this paper, we analyzed the stereotyped and non - stereotyped data in order to analyze the drama 's ratings. The formalized data collection collected 19 items from the four areas of drama information, person information, broadcasting information, and audience rating information of each broadcasting company. Atypical data were collected from bulletin boards, pre - broadcast blogs and post - broadcast blogs operated by each broadcasting company using a crawling technique. As a result of comparing the differences according to the four areas for each broadcaster from the collected regular data, the results were similar to each other. And we derived seven related words by analyzing the correlation of occurrence frequencies from unstructured data collected from bulletin boards and blogs of each broadcasting company. The derived associations were obtained through reliability analysis.