• 제목/요약/키워드: Frequent

검색결과 8,457건 처리시간 0.041초

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences

  • Kang, Tae-Ho;Yoo, Jae-Soo;Kim, Hak-Yong;Lee, Byoung-Yup
    • International Journal of Contents
    • /
    • 제3권2호
    • /
    • pp.18-24
    • /
    • 2007
  • Biological sequences such as DNA and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of more than hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological datasets with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with a fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. The experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

TID 리스트 테이블을 이용한 연관 규칙 탐사 (Association Rule Discovery using TID List Table)

  • 채덕진;황부현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.219-227
    • /
    • 2005
  • 본 논문에서는 데이타베이스를 단 한번 스캔하여 빈발 항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 빈발 항목집합은 어떤 트랜잭션이 접근하는 항목 집합의 부분집합이다. 각 항목에 대하여 그 항목을 접근하는 트랜잭션들에 관한 정보를 가지고 있다면, 동일한 트랜잭션 식별자를 갖는 항목들만을 추출함으로써 빈발 항목집합들을 생성할 수 있다 본 논문에서 제안하는 방법은 한 번의 데이타베이스 스캔으로 각 항목마다 접근하는 트랜잭션 식별자를 저장할 수 있는 자료 구조를 생성하며, 동시에 해쉬 기법을 이용하여 2-빈발 항목집합들을 생성한다. 3-빈발 항목집합부터는 이 자료 구조와 각 항목에 대한 트랜잭션 식별자를 비교함으로써 간단히 빈발 항목집합들을 찾아낼 수 있다. 제안하는 알고리즘은 한 번의 데이타베이스 스캔만으로 빈발 항목집합들을 효율적으로 생성할 수 있다.

연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법 (Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application)

  • 한갑수
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.475-484
    • /
    • 2008
  • 최근에는 데이터를 획득 및 처리하는 방법의 향상으로 인하여 연속적이고 실시간으로 발생되는 데이터를 처리하는 응용이 증가하고 있다. 그러한 응용에서 연관규칙을 추출하기 위해서는 새로운 방식을 사용하여 빈발항목집합을 찾아내야 한다. 기존의 빈발항목을 발견하는 방식에서는 전체 데이터베이스를 반복적으로 읽으면서 처리해야 한다. 그러나 실시간이고 연속적으로 발생하는 데이터를 처리하는 응용에서는 반복적으로 여러 번 데이터를 읽을 수 없기 때문에 일정 구간의 데이터를 한 번만 읽고 처리해야 한다. 따라서 본 논문에서는 입력되는 데이터 구간을 한 번만 읽고 최대 빈발항목 집합의 크기와 해당 빈발항목을 추정함으로써 필요한 연관규칙탐사를 가능하게 하는 빈발항목 추정 기법을 제안한다.

대표 패턴 마이닝에 활용되는 패턴 압축 기법들에 대한 분석 및 성능 평가 (Analysis and Performance Evaluation of Pattern Condensing Techniques used in Representative Pattern Mining)

  • 이강인;윤은일
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.77-83
    • /
    • 2015
  • 데이터 마이닝에서 활발히 연구되고 있는 주요 분야들 가운데 하나인 빈발 패턴 마이닝은 대규모의 데이터 집합 또는 데이터베이스로부터 숨겨진 유용한 패턴 정보를 추출하기 위한 방법이다. 또한 이 기법으로 얻을 수 있는 결과물을 통해 데이터베이스내의 다양하고 중요한 특징들을 더욱 손쉽게 자동적으로 분석할 수 있기 때문에 많은 응용영역에도 활발히 적용되고 있다. 하지만 이러한 데이터베이스로부터 단순히 사용자에 의해 설정된 최소 지지도 임계값만을 가지고 이를 만족하는 모든 패턴들을 추출하는 기존의 전통적인 빈발 패턴 마이닝 방식은 데이터베이스의 특성과 임계값 설정의 정도에 따라 극도로 많은 수의 결과 패턴을 생성하는 문제를 가지며, 이에 따른 시간 및 공간 자원의 낭비를 초래한다. 또한 과도하게 생성된 패턴에 대한 분석의 어려움 역시 심각한 문제가 된다. 기존의 빈발 패턴 마이닝 접근방법들이 직면한 이러한 문제를 해결하고자, 데이터베이스로부터 가능한 모든 빈발 패턴들을 마이닝하는 것이 아닌, 이들에 대한 대표 패턴들만은 선별적으로 추출할 수 있도록 하는 대표 패턴 마이닝의 개념과 다양한 관련 기법들이 제안되었다. 본 논문에서는 생성되는 각 패턴의 최대성 또는 폐쇄성을 고려하는 패턴 압축 기법들에 대한 특성들을 기술하고, 이에대한 비교 및 분석을 진행한다. 최대 빈발 패턴 혹은 닫힌 빈발 패턴들을 마이닝함으로써, 효과적인 패턴 압축이 가능하며, 더 적은 시공간 자원으로 마이닝 작업을 수행할 수 있다. 또한 압축된 패턴들은 필요시 다시 원래의 패턴 형태로 복구가 가능한 특징이 있으며, 특히 닫힌 패턴 접근 방법을 이용하면 패턴을 압축하고 다시 해제하는 과정에서 어떠한 정보의 손실도 일어나지 않는다. 본 논문에서는 같은 플랫폼 상에서 동일한 구현 수준의 알고리즘에 대해 실세계로부터 축적된 실 데이터셋들을 가지고 상기 기법들에 대한 성능평가를 진행함으로써, 각 기법이 패턴 생성, 수행 시간, 메모리 사용량과 같은 실제적인 마이닝 성능에 대해 어떠한 영향을 미치는지에 대한 심층적 분석결과를 보인다.

상품간 연관 규칙의 효율적 탐색 방법에 관한 연구 : 인터넷 쇼핑몰을 중심으로 (A Fast Algorithm for Mining Association Rules in Web Log Data)

  • 오은정;오상봉
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 추계공동학술대회
    • /
    • pp.621-626
    • /
    • 2003
  • Mining association rules in web log files can be divided into two steps: 1) discovering frequent item sets in web data; 2) extracting association rules from the frequent item sets found in the previous step. This paper suggests an algorithm for finding frequent item sets efficiently The essence of the proposed algorithm is to transform transaction data files into matrix format. Our experimental results show that the suggested algorithm outperforms the Apriori algorithm, which is widely used to discover frequent item sets, in terms of scan frequency and execution time.

  • PDF

데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색 (Finding the time sensitive frequent itemsets based on data mining technique in data streams)

  • 박태수;전석주;이주홍;강윤희;최범기
    • 정보교육학회논문지
    • /
    • 제9권3호
    • /
    • pp.453-462
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터에 내재되어 있는 정보를 빠른시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘으로 한정적인 메모리를 고려하여 빈발항목과 부분 빈발항목만을 저장하고 시간의 흐름에 따른 빈발항목의 갱신방법에 관하여 제안하였다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다. 제안된 방법은 웹 코스웨어로 학습하는 학생들의 행동패턴을 시간대별로 파악하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습효과 증진 및 지도 방향을 설정하는데 활용할 수 있다.

  • PDF

청주지역 일부 대학생의 편의점 편의식 섭취 빈도에 따른 식습관 및 식품첨가물 관련 인식 (Dietary Habits and Perception Toward Food Additives according to the Frequency of Consumption of Convenience Food at Convenience Stores among University Students in Cheongju)

  • 배문경
    • 대한지역사회영양학회지
    • /
    • 제21권2호
    • /
    • pp.140-151
    • /
    • 2016
  • Objectives: This study was performed to examine the consumption patterns of convenience food at convenience stores, dietary habits, and perception as well as knowledge of food additives among university students. Methods: Subjects were 352 university students in Cheongju, Korea, and data was collected by a self-administered questionnaire. They were divided into three groups according to the frequency of consumption of convenience food at convenience stores: 79 rare (${\leq}1$ time/month), 89 moderate (2-4 times/month) and 184 frequent (${\geq}2$ times/week). Results: More subjects from the frequent consumption group lived apart from parents (p<0.001) and possessed more pocket money (p<0.01). Frequent consumption group consumed noodles, Kimbab, and sandwich & burger significantly more often (p<0.001, respectively) than others. In addition, frequent consumption of convenience foods at convenience stores was associated with frequent breakfast skipping (p<0.05), irregular meal time (p<0.01), snacking (p<0.05), and eating late night meal (p<0.001). More from the rare consumption group had heard about food additives previously compared to the frequent consumption group (79.7% vs. 63.6%, p<0.01). Frequent consumption group showed significantly higher score than did the rare consumption group for the following questions: monosodium glutamate is harmful to your health (p<0.05), food additives are necessary for food manufacturing (p<0.005), food additives need to be labeled on products (p<0.05), there is no food additive at all if labeled as no preservatives, no coloring, and no added sugar (p<0.05). There was a significant difference in degrees of choosing products with less food additives depending on the consumption pattern. Conclusions: Our results provided a better understanding of the factors associated with frequent consumption of convenience foods at convenience stores among university students and will be useful to develop a nutrition education program for those who are more prone to consume convenience foods.

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구 (A Methodology for Searching Frequent Pattern Using Graph-Mining Technique)

  • 홍준석
    • Journal of Information Technology Applications and Management
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2019
  • As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

An Efficient Approach to Mining Maximal Contiguous Frequent Patterns from Large DNA Sequence Databases

  • Karim, Md. Rezaul;Rashid, Md. Mamunur;Jeong, Byeong-Soo;Choi, Ho-Jin
    • Genomics & Informatics
    • /
    • 제10권1호
    • /
    • pp.51-57
    • /
    • 2012
  • Mining interesting patterns from DNA sequences is one of the most challenging tasks in bioinformatics and computational biology. Maximal contiguous frequent patterns are preferable for expressing the function and structure of DNA sequences and hence can capture the common data characteristics among related sequences. Biologists are interested in finding frequent orderly arrangements of motifs that are responsible for similar expression of a group of genes. In order to reduce mining time and complexity, however, most existing sequence mining algorithms either focus on finding short DNA sequences or require explicit specification of sequence lengths in advance. The challenge is to find longer sequences without specifying sequence lengths in advance. In this paper, we propose an efficient approach to mining maximal contiguous frequent patterns from large DNA sequence datasets. The experimental results show that our proposed approach is memory-efficient and mines maximal contiguous frequent patterns within a reasonable time.

Study of the most frequent natural tooth colors in the Spanish population using spectrophotometry

  • Gomez-Polo, Cristina;Gomez-Polo, Miguel;Martinez Vazquez de Parga, Juan Antonio;Celemin Vinuela, Alicia
    • The Journal of Advanced Prosthodontics
    • /
    • 제7권6호
    • /
    • pp.413-422
    • /
    • 2015
  • PURPOSE. To identify the most frequent natural tooth colors using the Easyshade Compact (Vita -Zahnfabrik) spectrophotometer on a sample of the Spanish population according to the 3D Master System. MATERIALS AND METHODS. The middle third of the facial surface of natural maxillary central incisors was measured with an Easyshade Compact spectrophotometer (Vita Zahnfabrik) in 1361 Caucasian Spanish participants aged between 16 and 89 years. Natural tooth color was recorded using the 3D Master System nomenclature. The program used for the present descriptive statistical analysis of the results was SAS 9.1.3. RESULTS. The results show that the most frequent dental color in the total sample studied is 3M1 (7.05%), followed by the intermediate shade 1M1.5 (6.91%) and 2L1.5 (6.02%). CONCLUSION. According to the research methodology used, and taking into account the limitations of this study, it can be proposed that the most frequent color among the Spanish population is 3M1; the most common lightness group is 2; the most frequent hue group according to the 3D Master System is M and the most frequent chroma group is 1.5.