• 제목/요약/키워드: Incremental Mining

검색결과 44건 처리시간 0.022초

Distributed Incremental Approximate Frequent Itemset Mining Using MapReduce

  • Mohsin Shaikh;Irfan Ali Tunio;Syed Muhammad Shehram Shah;Fareesa Khan Sohu;Abdul Aziz;Ahmad Ali
    • International Journal of Computer Science & Network Security
    • /
    • 제23권5호
    • /
    • pp.207-211
    • /
    • 2023
  • Traditional methods for datamining typically assume that the data is small, centralized, memory resident and static. But this assumption is no longer acceptable, because datasets are growing very fast hence becoming huge from time to time. There is fast growing need to manage data with efficient mining algorithms. In such a scenario it is inevitable to carry out data mining in a distributed environment and Frequent Itemset Mining (FIM) is no exception. Thus, the need of an efficient incremental mining algorithm arises. We propose the Distributed Incremental Approximate Frequent Itemset Mining (DIAFIM) which is an incremental FIM algorithm and works on the distributed parallel MapReduce environment. The key contribution of this research is devising an incremental mining algorithm that works on the distributed parallel MapReduce environment.

IMTAR: Incremental Mining of General Temporal Association Rules

  • Dafa-Alla, Anour F.A.;Shon, Ho-Sun;Saeed, Khalid E.K.;Piao, Minghao;Yun, Un-Il;Cheoi, Kyung-Joo;Ryu, Keun-Ho
    • Journal of Information Processing Systems
    • /
    • 제6권2호
    • /
    • pp.163-176
    • /
    • 2010
  • Nowadays due to the rapid advances in the field of information systems, transactional databases are being updated regularly and/or periodically. The knowledge discovered from these databases has to be maintained, and an incremental updating technique needs to be developed for maintaining the discovered association rules from these databases. The concept of Temporal Association Rules has been introduced to solve the problem of handling time series by including time expressions into association rules. In this paper we introduce a novel algorithm for Incremental Mining of General Temporal Association Rules (IMTAR) using an extended TFP-tree. The main benefits introduced by our algorithm are that it offers significant advantages in terms of storage and running time and it can handle the problem of mining general temporal association rules in incremental databases by building TFP-trees incrementally. It can be utilized and applied to real life application domains. We demonstrate our algorithm and its advantages in this paper.

An Online Response System for Anomaly Traffic by Incremental Mining with Genetic Optimization

  • Su, Ming-Yang;Yeh, Sheng-Cheng
    • Journal of Communications and Networks
    • /
    • 제12권4호
    • /
    • pp.375-381
    • /
    • 2010
  • A flooding attack, such as DoS or Worm, can be easily created or even downloaded from the Internet, thus, it is one of the main threats to servers on the Internet. This paper presents an online real-time network response system, which can determine whether a LAN is suffering from a flooding attack within a very short time unit. The detection engine of the system is based on the incremental mining of fuzzy association rules from network packets, in which membership functions of fuzzy variables are optimized by a genetic algorithm. The incremental mining approach makes the system suitable for detecting, and thus, responding to an attack in real-time. This system is evaluated by 47 flooding attacks, only one of which is missed, with no false positives occurring. The proposed online system belongs to anomaly detection, not misuse detection. Moreover, a mechanism for dynamic firewall updating is embedded in the proposed system for the function of eliminating suspicious connections when necessary.

전자상거래 추천을 위한 RFM기반의 점진적 빈발 패턴 마이닝 기법 (RFM based Incremental Frequent Patterns mining Method for Recommendation in e-Commerce)

  • 조영성;문송철;류근호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
    • /
    • pp.135-137
    • /
    • 2012
  • 기존의 연관규칙을 이용한 추천시스템은 점진적으로 증가하는 트랜잭션 데이터를 처리하기 위해서 기존에 처리한 데이터를 재처리하는 비효율성의 문제가 있다. 본 논문에서는 전자상거래에서 RFM(Recency, Frequency, Monetary)기반의 점진적 빈발 패턴 마이닝을 이용한 추천기법을 제안한다. 제안 방법은 새로운 트랜잭션 데이터가 추가 되었을 때 보다 빠른 시간 내에 연관규칙을 추출이 가능하다.

  • PDF

점진적 가중화 맥시멀 대표 패턴 마이닝의 최신 기법 분석, 유아들의 물품 패턴 분석 시나리오 및 성능 분석 (Recent Technique Analysis, Infant Commodity Pattern Analysis Scenario and Performance Analysis of Incremental Weighted Maximal Representative Pattern Mining)

  • 윤은일;윤은미
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.39-48
    • /
    • 2020
  • 데이터마이닝 기법들은 의미 있고 유용한 정보를 효율적으로 찾기 위해서 제안되어 왔다. 특별히, 빅 데이터 환경에서 데이터가 여러 응용들에서 축적되어짐에 따라, 관련된 패턴 마이닝 방법들이 제안되고 있다. 최근에는 파일이나 데이터베이스에 이미 저장되어 있는 정적 데이터를 분석하는 대신에 점진적으로 생성되는 동적 데이터를 마이닝 하는 것이 더 흥미 있는 연구영역으로 고려되고 있는데 동적데이터는 단지 한번만 스캔하여 읽을 수 있기 때문이다. 이와 같은 이유로, 어떻게 동적 데이터를 효율적으로 마이닝 하는지에 대한 연구들이 진행되고 있다. 더불어서, 마이닝 결과로 거대한 수의 패턴들이 생성되기 때문에, 맥시멀 패턴 마이닝과 같은 대표 패턴들을 마이닝하는 접근방법들도 제안되고 있다. 또 다른 이슈로, 실세계에서 더 의미있는 패턴들을 발견하기 위해, 가중화 패턴 마이닝에서 아이템들의 가중치가 사용되고 있다. 실제 상황에서 아이템의 이익이나 가격 등이 가중치로 사용 될 수 있다. 본 논문에서는 점진적으로 생성되는 데이터에 대한 가중화 맥시멀 패턴 마이닝, 맥시멀 대표 패턴 마이닝 그리고 점진적 패턴 마이닝 기법들에 대해 분석한다. 그리고 가중화 대표 패턴 마이닝을 적용하여서 유아들에게서 필요로 하는 물품 패턴들을 분석하기 위한 응용 시나리오를 제시한다. 추가로, 분석한 마이닝 알고리즘들에 대한 성능 평가를 수행한다. 결과적으로, 점진적 가중화 맥시멀 패턴 마이닝 기법이 점진적 가중화 패턴 마이닝과 가중화 패턴 마이닝 기법보다 좋은 성능을 가짐을 보인다.

Safe와 Non-safe 전력 부하 라인 분석을 위한 TFP트리 기반의 점진적 출현패턴 마이닝 (TFP tree-based Incremental Emerging Patterns Mining for Analysis of Safe and Non-safe Power Load Lines)

  • 이종범;박명호;류근호
    • Spatial Information Research
    • /
    • 제19권2호
    • /
    • pp.71-76
    • /
    • 2011
  • 본 논문에서는 특정 지역의 전력 소비 데이터를 이용하여 safe와 non-safe 전력 부하 라인의 차이를 분석하여 정의하고, 출현패턴을 사용하여 잠재되어 있는 non-safe라인을 식별하기 위하여 제한된 메모리에서 효율적으로 패턴을 찾을 수 있는 TFP-tree 기반의 점진적 출현패턴 마이닝 알고리즘을 제안한다. 특히, 두 개의 다른 최소 지지도 값을 사용하여 전력 소비 데이터와 같은 대용량 데이터에서의 마이닝 문제를 해결한다.

Framework for False Alarm Pattern Analysis of Intrusion Detection System using Incremental Association Rule Mining

  • Chon Won Yang;Kim Eun Hee;Shin Moon Sun;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.716-718
    • /
    • 2004
  • The false alarm data in intrusion detection systems are divided into false positive and false negative. The false positive makes bad effects on the performance of intrusion detection system. And the false negative makes bad effects on the efficiency of intrusion detection system. Recently, the most of works have been studied the data mining technique for analysis of alert data. However, the false alarm data not only increase data volume but also change patterns of alert data along the time line. Therefore, we need a tool that can analyze patterns that change characteristics when we look for new patterns. In this paper, we focus on the false positives and present a framework for analysis of false alarm pattern from the alert data. In this work, we also apply incremental data mining techniques to analyze patterns of false alarms among alert data that are incremental over the time. Finally, we achieved flexibility by using dynamic support threshold, because the volume of alert data as well as included false alarms increases irregular.

  • PDF

점진적인 웹 마이닝을 위한 효율적인 후보패턴 저장 트리구조 및 알고리즘 (An Efficient Candidate Pattern Storage Tree Structure and Algorithm for Incremental Web Mining)

  • 강희성;박병준
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.3-5
    • /
    • 2006
  • Recent advances in the internet infrastructure have resulted in a large number of huge Web sites and portals worldwide. These Web sites are being visited by various types of users in many different ways. Among all the web page access sequences from different users, some of them occur so frequently that may need an attention from those who are interested. We call them frequent access patterns and access sequences that can be frequent the candidate patterns. Since these candidate patterns play an important role in the incremental Web mining, it is important to efficiently generate, add, delete, and search for them. This thesis presents a novel tree structure that can efficiently store the candidate patterns and a related set of algorithms for generating the tree structure adding new patterns, deleting unnecessary patterns, and searching for the needed ones. The proposed tree structure has a kind of the 3 dimensional link structure and its nodes are layered.

  • PDF

점진적 마이닝 기법을 적용한 침입탐지 시스템의 오 경보 분석 프레임워크 설계 (A Design of false alarm analysis framework of intrusion detection system by using incremental mining method)

  • 김은희;류근호
    • 정보처리학회논문지C
    • /
    • 제13C권3호
    • /
    • pp.295-302
    • /
    • 2006
  • 침입탐지 시스템은 실시간으로 공격행위에 대하여 다량의 경보를 기록한다. 이들 경보 중에는 실제 공격 경보뿐만 아니라 공격으로 잘못 탐지하여 발생된 오 경보들도 있다. 오 경보는 침입탐지 시스템의 효율성을 저하시키는 주요요인이 되므로, 이 논문에서는 오경보 분석을 위한 프레임워크를 제안한다. 또한 지속적으로 증가하는 오 경보를 분석하기 위해 점진적 데이터 마이닝 기법을 적용한다. 제안한 오경보 분석 프레임워크는 GUI, DB Manager, Alert Preprocessor, False Alarm Analyzer로 구성되어 있다. 우리는 실험을 통해 증가하는 오경보를 분석하고, 분석된 오경보 규칙을 침입탐지 시스템에 적용하여 오 경보가 감소됨을 확인하였다.

Design and Implementation of Incremental Learning Technology for Big Data Mining

  • Min, Byung-Won;Oh, Yong-Sun
    • International Journal of Contents
    • /
    • 제15권3호
    • /
    • pp.32-38
    • /
    • 2019
  • We usually suffer from difficulties in treating or managing Big Data generated from various digital media and/or sensors using traditional mining techniques. Additionally, there are many problems relative to the lack of memory and the burden of the learning curve, etc. in an increasing capacity of large volumes of text when new data are continuously accumulated because we ineffectively analyze total data including data previously analyzed and collected. In this paper, we propose a general-purpose classifier and its structure to solve these problems. We depart from the current feature-reduction methods and introduce a new scheme that only adopts changed elements when new features are partially accumulated in this free-style learning environment. The incremental learning module built from a gradually progressive formation learns only changed parts of data without any re-processing of current accumulations while traditional methods re-learn total data for every adding or changing of data. Additionally, users can freely merge new data with previous data throughout the resource management procedure whenever re-learning is needed. At the end of this paper, we confirm a good performance of this method in data processing based on the Big Data environment throughout an analysis because of its learning efficiency. Also, comparing this algorithm with those of NB and SVM, we can achieve an accuracy of approximately 95% in all three models. We expect that our method will be a viable substitute for high performance and accuracy relative to large computing systems for Big Data analysis using a PC cluster environment.