• Title/Summary/Keyword: 트리 마이닝

Search Result 129, Processing Time 0.032 seconds

Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree (큐보이드 전위트리를 이용한 빙산질의 처리)

  • Han, Sang-Gil;Yang, Woo-Sock;Lee, Won-Suk
    • Journal of KIISE:Databases
    • /
    • v.36 no.3
    • /
    • pp.226-234
    • /
    • 2009
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. Due to the characteristics of a data stream, it is impossible to save all the data elements of a data stream. Therefore it is necessary to define a new synopsis structure to store the summary information of a data stream. For this purpose, this paper proposes a cuboid prefix tree that can be effectively employed in evaluating an iceberg query over data streams. A cuboid prefix tree only stores those itemsets that consist of grouping attributes used in GROUP BY query. In addition, a cuboid prefix tree can compute multiple iceberg queries simultaneously by sharing their common sub-expressions. A cuboid prefix tree evaluates an iceberg query over an infinitely generated data stream while efficiently reducing memory usage and processing time, which is verified by a series of experiments.

Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels (모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화)

  • Jung, Yong Gyu;Won, Jae Kang;Sihn, Sung Chul
    • Journal of Service Research and Studies
    • /
    • v.2 no.2
    • /
    • pp.35-43
    • /
    • 2012
  • Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and prediction. But some of the data sets contains many missing values in the variables and do not exist a large number of records in the data set. In this paper, missing values are handled in accordance with the model tree algorithm. Cholesterol value is applied for predicting. For the performance analysis, experiments are approached for each treatment. Through this, efficient alternative is presented to apply the missing data.

  • PDF

Definition of Relational Operators for Effective Extracting Data Mining Information from Relational Relational Database (관계형 데이터베이스에서 효과적 데이터 마이닝 정보 추출을 위한 관계 연산자의 정의)

  • 송지영
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.2
    • /
    • pp.123-130
    • /
    • 2001
  • As the growth of database volume, it has required a need and an opportunity of data analysis and extracting knowledge from database. Data mining method is the representative example. The size of most minable data set is huge, and stored in a database. To implement effective mining function, we must extract minable data set to be analyzed from existing relational database, and it must be managed with its generalized information. In this paper, the new mining operator is defined in a similar manner to the existing SQL operators and SQL is extended to extract data subset from relations and to generalize it using domain-oriented method. The background knowledge includes attribute values, which will be mind and generalized information, and it is managed as the same structure with a relation in relational database. These functions are implemented by defining some SQL - like operators and aggregated functions, and we describe the expressive powers of these new operators and functions through examples.

  • PDF

Sequence Mining based Manufacturing Process using Decision Model in Cognitive Factory (스마트 공장에서 의사결정 모델을 이용한 순차 마이닝 기반 제조공정)

  • Kim, Joo-Chang;Jung, Hoill;Yoo, Hyun;Chung, Kyungyong
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.3
    • /
    • pp.53-59
    • /
    • 2018
  • In this paper, we propose a sequence mining based manufacturing process using a decision model in cognitive factory. The proposed model is a method to increase the production efficiency by applying the sequence mining decision model in a small scale production process. The data appearing in the production process is composed of the input variables. And the output variable is composed the production rate and the defect rate per hour. We use the GSP algorithm and the REPTree algorithm to generate rules and models using the variables with high significance level through t-test. As a result, the defect rate are improved by 0.38% and the average hourly production rate was increased by 1.89. This has a meaning results for improving the production efficiency through data mining analysis in the small scale production of the cognitive factory.

Personalized Recommendation System using FP-tree Mining based on RFM (RFM기반 FP-tree 마이닝을 이용한 개인화 추천시스템)

  • Cho, Young-Sung;Ho, Ryu-Keun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.2
    • /
    • pp.197-206
    • /
    • 2012
  • A exisiting recommedation system using association rules has the problem, such as delay of processing speed from a cause of frequent scanning a large data, scalability and accuracy as well. In this paper, using a Implicit method which is not used user's profile for rating, we propose the personalized recommendation system which is a new method using the FP-tree mining based on RFM. It is necessary for us to keep the analysis of RFM method and FP-tree mining to be able to reflect attributes of customers and items based on the whole customers' data and purchased data in order to find the items with high purchasability. The proposed makes frequent items and creates association rule by using the FP-tree mining based on RFM without occurrence of candidate set. We can recommend the items with efficiency, are used to generate the recommendable item according to the basic threshold for association rules with support, confidence and lift. To estimate the performance, the proposed system is compared with existing system. As a result, it can be improved and evaluated according to the criteria of logicality through the experiment with dataset, collected in a cosmetic internet shopping mall.

Mining Frequent Contiguous Sequence Patterns in Biological Sequences (생물학적 서열들에서 빈발한 연속 서열 패턴 마이닝)

  • Kang, Tae-Ho;Yoo, Jae-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.27-31
    • /
    • 2007
  • 생물학적 서열 데이터는 크게 DNA 염기 서열과 단백질 아미노산 서열이 있다. 이들 서열은 일반적으로 많은 수의 항목들을 가지고 있어 그 길이가 매우 길다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 부분 연속 서열들이 존재하는데 이들 서열들을 찾아내는 것은 다양한 서열 분석에서 유용하게 사용될 수 있다. 이를 위해 초기에는 Apriori 알고리즘을 기반으로 하는 순차패턴 마이닝 알고리즘들을 활용하는 방법들이 많이 제시되었다. 그중 PrefixSpan 알고리즘은 Apriori기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로부터 서열 패턴을 확장해나가는 방식으로 길이가 긴 연속 서열을 포함하는 생물학적 데이터 서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 원본 데이터베이스보다 크기가 큰 별도의 프로젝션 데이터베이스를 사용함으로서 많은 비용부담이 발생하고 특히 길이가 긴 서열에 대해서는 더욱 효율적이지 못하다. 이에 본 논문에서 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색 성능이 우수함을 증명한다.

  • PDF

Ontology based Retrieval System for Shopping Sites Customer (온톨로지 기반의 쇼핑 사이트 고객을 위한 검색 시스템)

  • Gu Mi-Sug;Hwang Jeong-Hee;Ryu Keun-Ho
    • Annual Conference of KIPS
    • /
    • 2004.11a
    • /
    • pp.51-54
    • /
    • 2004
  • 시멘틱 웹은 기존의 웹과는 달리 정보의 의미가 정의되고, 이들 간의 의미적 연결을 지원한다는 특징이 있어서, 최근 차세대 웹으로 부각되고 있다. 이러한 의미적 연결을 위해서 시맨틱 웹의 기반인 온톨로지가 필요하다. 온톨로지는 리소스에 대한 메타데이터를 정의하여 의미적 연결이 가능하게 하므로 효율적인 정보 검색이 가능하다. 이 논문에서는 정보 검색의 효율을 증가시키기 위해서 시맨틱 웹의 핵심인 온톨로지 기반의 정보 검색 시스템을 제안한다. 쇼핑 사이트에서 효율적인 마케팅을 위해 사용자의 구매 패턴을 조사하여 고객에게 알맞은 정보 추천을 하기 위한 것을 목적으로 한다. 온톨로지의 구축은 XTM을 기반으로 토픽맵을 이용하였다. 그리고 온톨로지를 기반으로, 사용자의 구매패턴을 찾아서 정확한 정보 전달을 위해서 데이터 마이닝 기법을 이용하였다. 빈발패턴 트리 기법을 기반으로 하는 멀티 레벨 멀티 디멘션 빈발 패턴 마이닝 알고리즘을 이용하여 사용자 패턴을 분석하여 정보 검색에 효율을 기하였다.

  • PDF

Application of emerging patterns for multi-source data classification and analysis (멀티 소스 데이터 분류와 분석을 위한 이머징 패턴의 적용 방법)

  • Yoon Hye-Sung;Lee Sang-Ho;Kim Ju Han
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.244-246
    • /
    • 2005
  • 상호작용하는 구조들을 하나의 클래스로 표현하는 데이터 마이닝 툴로서 이머징 패턴(EP)이 최근에 제안되었다. 기존의 클러스터링 알고리즘과 패턴 마이닝 알고리즘은 고차원의 유전자 발현 데이터 흑은 같은 변수들(e.g. genes)을 가지고 실험한 멀티 소스 데이터 분석을 다루기에 부적절하고, 실험 결과를 이해하는 데에 어려움이 있다. 그러나 EP는 분류 트리의 형태로 표현 가능하기 때문에, 다양한 형식의 데이터를 분류하는 패턴들을 빠르고 간단하게 구성하여 데이터 분석이 가능하도록 돕는다. 본 논문에서는 멀티 소스 바이오 데이터에서 분류 절차의 작업을 향상시키기 위하여 EP를 사용하는 간단한 스킴을 제안한다.

  • PDF

Real-time Network Traffic Monitoring using Frequent Itemset Mining (빈발항목 탐색 기법을 이용한 실시간 네트워크 트래픽 모니터링 방법)

  • Lee, Jae-Woo;Lee, Won-Suk
    • Annual Conference of KIPS
    • /
    • 2008.05a
    • /
    • pp.193-196
    • /
    • 2008
  • 네트워크 인프라가 급속히 발전하면서 네트워크 상에서 발생되는 트래픽을 관리하기 위해 마이닝 기법을 적용하려는 여러 연구가 활발히 진행되고 있다. 그러나 기존의 방법들은 DBMS를 이용하여 개개의 플로우를 저장 후 분석하는 방식을 채택함으로써 엄청난 부하와 실시간 마이닝을 어렵게 하는 문제점이 있다. 본 논문에서는 제한된 크기의 메모리를 사용하여 실시간으로 발생하는 네트워크 플로우 데이터 중 빈발한 플로우를 추출하는 방법을 제안한다. 오직 빈발하게 발생하는 플오우만을 메모리에서 모니터링 트리를 사용하여 관리함으로써 메모리를 효율적으로 사용한다. 제안 된 방법은 기존의 방법들과 비교할 때 적은 시스템 부하를 주면서 초고대역폭의 트래픽을 실시간으로 모니터링 할 수 있다.

Analysis on the Enemy's Main Strike Direction Using Decision Tree (의사결정트리를 이용한 적 주타격 방향 분석)

  • Kim, Moo-Soo;Park, Gun-Woo;Lee, Sang-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.66-68
    • /
    • 2012
  • 적의 주타격 방향은 적 지휘관의 주요 결정사항 중에 하나이다. 이런 적의 주타격 방향에 영향을 미치는 요소들을 분석하여 예측할 수 있다면 전쟁에서 좀 더 유리한 여건을 조성할 수 있을 것이다. 그러나 현재 군에서는 과학적 분석방법이 아닌 분석관 및 지휘관의 경험에 의한 적 주타격 방향 분석이 주를 이루고 있다. 따라서 본 논문에서는 데이터 마이닝의 대표적 방법인 의사결정트리의 C4.5 알고리즘을 사용하여 북한군의 지휘관 결심지도를 분석하였다. 또한 도출된 분류 규칙을 통해 적 주타격 방향 영향요소를 식별하고 영향요소들 간의 관계 및 정도의 수준을 예측하였다. 분석결과 현재 군에서 사용하고 있는 정보와 유사하고 의미 있는 정보를 도출할 수 있었다.