• Title/Summary/Keyword: FP-tree

Search Result 48, Processing Time 0.024 seconds

Mining Frequent Itemsets with Normalized Weight in Continuous Data Streams

  • Kim, Young-Hee;Kim, Won-Young;Kim, Ung-Mo
    • Journal of Information Processing Systems
    • /
    • v.6 no.1
    • /
    • pp.79-90
    • /
    • 2010
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. The continuous characteristic of streaming data necessitates the use of algorithms that require only one scan over the stream for knowledge discovery. Data mining over data streams should support the flexible trade-off between processing time and mining accuracy. In many application areas, mining frequent itemsets has been suggested to find important frequent itemsets by considering the weight of itemsets. In this paper, we present an efficient algorithm WSFI (Weighted Support Frequent Itemsets)-Mine with normalized weight over data streams. Moreover, we propose a novel tree structure, called the Weighted Support FP-Tree (WSFP-Tree), that stores compressed crucial information about frequent itemsets. Empirical results show that our algorithm outperforms comparative algorithms under the windowed streaming model.

Text Assocation Pattern Extraction using NFP-tree Algorithm (NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출)

  • Yu, Soo-Kung;Kim, Kio-chung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

Roadmap of an application for attending the lecture by FP-tree (FP-tree를 이용한 효율적인 수강신청 로드맵 제시 기법)

  • Park, YoungWook;Lee, SeungCheol;Kim, Ung Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.243-246
    • /
    • 2007
  • 데이터베이스 시스템 사용이 거의 모든 분야에 걸쳐서 필수적인 요소가 되어가고 있다. 따라서 데이터베이스 내에 축적된 정보들의 양과 더불어 정보와 정보 사이의 연관성이 중요한 관심사로 대두되고 있다. 이를 충족하기 위한 구체적인 방안으로 데이터마이닝 기법이 개발되고 발전해나가고 있다. 현재 수강신청시 많은 학생들이 필수 로드맵이라는 단편적인 정보를 가지고 수업 시간표를 구성함으로써 개개인이 많은 시간을 허비하고 있다. 이에 본 논문에서는 관련성 있는 정보 추출에 용이한 FP-Growth 마이닝 기법을 이용하여 수강신청시 도움이 되는 수강신천 로드맵 기법을 제안한다.

Mining Search Keywords for Improving the Accuracy of Entity Search (엔터티 검색의 정확성을 높이기 위한 검색 키워드 마이닝)

  • Lee, Sun Ku;On, Byung-Won;Jung, Soo-Mok
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.9
    • /
    • pp.451-464
    • /
    • 2016
  • Nowadays, entity search such as Google Product Search and Yahoo Pipes has been in the spotlight. The entity search engines have been used to retrieve web pages relevant with a particular entity. However, if an entity (e.g., Chinatown movie) has various meanings (e.g., Chinatown movies, Chinatown restaurants, and Incheon Chinatown), then the accuracy of the search result will be decreased significantly. To address this problem, in this article, we propose a novel method that quantifies the importance of search queries and then offers the best query for the entity search, based on Frequent Pattern (FP)-Tree, considering the correlation between the entity relevance and the frequency of web pages. According to the experimental results presented in this paper, the proposed method (59% in the average precision) improved the accuracy five times, compared to the traditional query terms (less than 10% in the average precision).

An Adaptive Business Process Mining Algorithm based on Modified FP-Tree (변형된 FP-트리 기반의 적응형 비즈니스 프로세스 마이닝 알고리즘)

  • Kim, Gun-Woo;Lee, Seung-Hoon;Kim, Jae-Hyung;Seo, Hye-Myung;Son, Jin-Hyun
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.3
    • /
    • pp.301-315
    • /
    • 2010
  • Recently, competition between companies has intensified and so has the necessity of creating a new business value inventions has increased. A numbers of Business organizations are beginning to realize the importance of business process management. Processes however can often not go the way they were initially designed or non-efficient performance process model could be designed. This can be due to a lack of cooperation and understanding between business analysts and system developers. To solve this problem, business process mining which can be used as the basis of the business process re-engineering has been recognized to an important concept. Current process mining research has only focused their attention on extracting workflow-based process model from competed process logs. Thus there have a limitations in expressing various forms of business processes. The disadvantage in this method is process discovering time and log scanning time in itself take a considerable amount of time. This is due to the re-scanning of the process logs with each new update. In this paper, we will presents a modified FP-Tree algorithm for FP-Tree based business processes, which are used for association analysis in data mining. Our modified algorithm supports the discovery of the appropriate level of process model according to the user's need without re-scanning the entire process logs during updated.

DISCOVERY TEMPORAL FREQUENT PATTERNS USING TFP-TREE

  • Jin Long;Lee Yongmi;Seo Sungbo;Ryu Keun Ho
    • Proceedings of the KSRS Conference
    • /
    • 2005.10a
    • /
    • pp.454-457
    • /
    • 2005
  • Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. Most of the previous studies adopt an Apriori-like candidate set generation-and-test approach. However, candidate set generation is still costly, especially when there exist prolific patterns and/or long patterns. And calendar based on temporal association rules proposes the discovery of association rules along with their temporal patterns in terms of calendar schemas, but this approach is also adopt an Apriori-like candidate set generation. In this paper, we propose an efficient temporal frequent pattern mining using TFP-tree (Temporal Frequent Pattern tree). This approach has three advantages: (1) this method separates many partitions by according to maximum size domain and only scans the transaction once for reducing the I/O cost. (2) This method maintains all of transactions using FP-trees. (3) We only have the FP-trees of I-star pattern and other star pattern nodes only link them step by step for efficient mining and the saving memory. Our performance study shows that the TFP-tree is efficient and scalable for mining, and is about an order of magnitude faster than the Apriori algorithm and also faster than calendar based on temporal frequent pattern mining methods.

  • PDF

Assocate Object Extraction Using personalized user Learning (개인화된 사용자 학습을 위한 연관 객체 추출 설계 및 구현)

  • 유수경;김교정
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.636-639
    • /
    • 2004
  • 본 논문은 웹 도큐먼트를 기반으로 사용자에게 의미 있는 정보를 찾아주기 위한 연관 객체 추출 기법인 PMPL(Personalized Multi-Strategey Pattern Loaming) 시스템을 제안하고자 한다. PMPL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출 시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시켰으며, 연관규칙 탐색을 보완하기 위해 가중치 기법인 만유인력 기법을 적용시켰다. PMPL 시스템을 실행한 결과 개인화된 사용자 중심어 기초로 기존의 단일 학습 기법에 비해 더 많은 의미 있는 연관 지식을 추출한 결과가 보였다.

  • PDF

Usage of FP-tree for forecasting technique of the fishery (예측 FP-tree를 이용한 어종별 어장 기법)

  • Jeong, Hui-Yen;Cho, Kyung-Soo;Kim, Ung-Mo
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.424-427
    • /
    • 2010
  • 정보화 사회로의 진입이 본격화 되면서 사회의 전반적인 분야에 걸쳐 다양한 용도로 컴퓨터 시스템이 사용되고 있다. 그에 따라 데이터의 방대한 양적 팽창이 이루어졌고, 이러한 데이터를 유용한 정보와 지식으로 바꿔야 하는 필요성들이 생겨났다. 이에 데이터 마이닝이라는 개념이 등장했고 현재 점점 더 많은 분야에서 사용되고 있고 다양한 각도에서 활발한 연구가 진행되고 있다. 현재 어장의 예측 방법은 주관적인 경험에 대부분 의존하고 객관적인 신뢰성이 떨어진다. 이에 본 논문은 데이터 마이닝 기법을 적용하여 데이터베이스의 정보를 이용해 어종별로 가장 빈번하게 이용되어지는 어장을 선별해 주는 기법을 제안한다.

  • PDF

User Preference survey by FP-tree : Apply to fitness club (FP-tree를 이용한 사용자 선호도 조사 : 헬스클럽에 적용)

  • Hong, Ue-Chan;Kim, Won-Young;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.753-754
    • /
    • 2009
  • 오늘날 산업 전반에 걸쳐 데이터베이스 시스템이 사용되고 있다. 이에 따라 데이터베이스의 양은 점차 증가하고 방대한 양의 데이터에서 유용한 정보를 얻는 데이터 마이닝 기법이 중요한 기술로 발전해 나가고 있다. 최근 헬스클럽과 같은 개인의 취미와 여가를 위한 공간의 중요성이 대두되고 있는데 반해 사용자의 증가로 인한 불편이 문제가 되고 있다. 본 논문에서는 헬스클럽을 통해 사용자들의 선호도를 조사하여 불편을 줄이고 나아가 효율적인 시간 분배 방법을 제시해 보고자 한다.

Mining of Stocks Having Similar Pattern using FP-Tree (FP-tree를 이용한 유사 패턴 주식종목 추출)

  • Sim, Jong-Bo;Kim, Won-Young;kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.727-728
    • /
    • 2009
  • 최근 컴퓨터와 인터넷의 발달로 과거 창구거래를 이용하던 방법에서 HTS(Home Trading System)을 이용하여 거래하게 됨으로써 개인투자자들도 쉽게 주식투자를 할 수 있게 되었다. 그러나 개인들이 방대한 양의 과거 데이터를 분석하기에는 상당한 어려움이 있다. 본 논문에서는 주식 데이터베이스로부터 과거 특정 종목들 간 연관성을 추출하여 투자자들로 하여금 주식 선별에 참고가 될 수 있는 방안에 관하여 논의한다. 기존의 논문에서 제안된 과거 패턴을 이용하여 미래의 주가변화를 예측하는 것과 달리, 종목들 간에 연관성을 통하여 하나의 테마가 형성 되었을 때 주도주의 변화로 관련주의 변화를 파악하여 투자에 유익한 정보를 제공하는데 목적이 있다.