• 제목/요약/키워드: Sequential Usage Pattern

검색결과 11건 처리시간 0.026초

Tree-based Navigation Pattern Analysis

  • Choi, Hyun-Jip
    • Communications for Statistical Applications and Methods
    • /
    • 제8권1호
    • /
    • pp.271-279
    • /
    • 2001
  • Sequential pattern discovery is one of main interests in web usage mining. the technique of sequential pattern discovery attempts to find inter-session patterns such that the presence of a set of items is followed by another item in a time-ordered set of server sessions. In this paper, a tree-based sequential pattern finding method is proposed in order to discover navigation patterns in server sessions. At each learning process, the suggested method learns about the navigation patterns per server session and summarized into the modified Rymon's tree.

  • PDF

스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법 (A Sequential Pattern Mining based on Dynamic Weight in Data Stream)

  • 최필선;김환;김대인;황부현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.137-144
    • /
    • 2013
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 탐사하는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용 가능한 탐사 기법으로 동적인 가중치 변화를 탐색 과정에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터가 들어오는 스트림 환경에서 동적 가중치를 적용하여 빈발한 이벤트들을 탐사하는 새로운 순차 패턴 탐사 기법을 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여주고 해시 구조를 통한 데이터 입출력으로 빈발한 순차 패턴을 빠르게 탐사할 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다. 제안하는 기법은 다른 가중치 순차 패턴 탐사 기법과의 비교를 통해 동적 가중치 탐사 기법의 중요성을 보인다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

문맥 및 사용 패턴 정보를 이용한 음성인식의 성능 개선 (Performance Improvement of Speech Recognition Using Context and Usage Pattern Information)

  • 송원문;김명원
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.553-560
    • /
    • 2006
  • 최근 음성인식에서는 잡음환경에서 좀 더 신뢰성 있는 결과를 얻기 위해 인식 결과 도출 단계에서 여러 가지 정보의 내용들을 융합하거나 이전 인식 결과의 후처리를 통하여 성능을 향상시키는 방법들이 연구되고 있다. 본 논문에서는 잡음 환경에서의 인식률 하락을 보완하기 위해 개인 모바일 기기를 위한 음성 명령어 인식에서 사용자의 사용패턴과 문맥 정보를 사용하는 방법을 제안한다. 기본 인식 결과를 보정하기 위해서 현재 명령어를 발화하기 이전에 사용자가 사용한 순차적 명령어 패턴을 사용하였다. 또한 문맥 정보를 위해서는 사용중인 기기의 현재 기능과 발화된 명령어간의 연관성을 사용하였다. 실험을 통해 제안한 방법이 기본 인식 시스템에서 발생한 오인식의 약 50%를 수정하였음을 보였으며 이로써 제안한 방법의 타당성을 검증하였다.

순차 데이터 스트림에서 발생 간격 제한 조건을 활용한 빈발 순차 패턴 탐색 (Mining Frequent Sequential Patterns over Sequence Data Streams with a Gap-Constraint)

  • 장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권9호
    • /
    • pp.35-46
    • /
    • 2010
  • 순차 패턴 탐색은 데이터 마이닝의 주요 기법 중의 하나로서 웹기반 시스템, 전자상거래, 생물정보학 및 USN 환경 등과 같은 여러 컴퓨터 응용 분야에서 생성되는 데이터를 효율적으로 분석하기 위하여 널리 활용되고 있다. 한편 이들 응용 분야에서 생성되는 정보들은 근래들어 한정적인 데이터 집합이 아닌 구성요소가 지속적으로 생성되는 데이터 스트림 형태로 생성되고 있다. 이러한 상황을 고려하여 데이터 스트림에서 순차패턴 탐색에 대한 연구들도 활발히 진행되고 있다. 하지만 이전의 연구들은 주로 분석 대상 데이터 스트림에서 단순 순차패턴을 구하는 과정에서 마이닝 수행 시간이나 메모리 사용량 등을 줄이는데 초점을 맞추고 있으며, 따라서 해당 데이터 스트림의 특성을 효율적으로 표현할 수 있는 보다 중요하고 의미있는 패턴들을 탐색하기 위한 연구는 거의 진행되지 못하고 있다. 본 논문에서는 데이터 스트림에서 보다 의미있는 순차패턴을 탐색하기 위한 방법으로 구성요소의 발생 간격 제한 조건을 활용한 빈발 순차패턴 탐색 방법을 제안한다. 먼저 발생 간격 정의 기준 및 발생 간격제한 빈발 순차패턴의 개념을 제시하고, 이어서 데이터 스트림에서 발생 간격 제한 조건을 적용하여 빈발 순차패턴을 효율적으로 탐색할 수 있는 마이닝 방법을 제안한다.

웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색 (Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream)

  • 장중혁
    • 한국산업정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.19-29
    • /
    • 2011
  • 웹 관련 기술의 발달 및 스마트폰과 같은 지능형 모바일 서비스 기기의 사용 증가로 인해 오늘날 많은 분야에서 다양한 웹기반 서비스들이 널리 활용되고 있다 이러한 환정에서 개인화 및 지능화된 웹 서비스를 제공하기 위한 연구들이 활발히 진행되고 있으며, 웹 서비스 이용 기록으로부터 생성되는 웹 클릭 스트림에 대한 분석 기술은 관련 기술 중 핵심 기술의 하나이다. 본 논문에서는 순차정보 형태로 발생되는 웹 클릭 스트림에 대한 효율적 분석을 위해서 데이터 스트림 처리에 대한 기본적인 요구사항을 만족하면서 정제된 결과를 얻기 위한 순차패턴 마이닝 방법을 제시한다. 이를 위해서 먼저 순차패턴에 포함되는 단위항목들의 단순 발생 순서뿐만 아니라 발생 시간 정보를 추가로 활용하는 시간 간격 제한 관심 순차패턴을 정의하고, 이어서 웹 클릭 스트림과 같은 데이터 스트림에서 이를 효율적으로 탐색하기 위한 마이닝 방법을 제안한다. 해당 연구 결과는 웹 클릭 스트림뿐만 아니라 전자상거래, 생물정보학 및 USN 환경 등과 같이 데이터 스트림 형태로 정보를 발생시키는 여러 컴퓨터 용용 분야에서 유용하게 활용될 수 있을 것이다.

RSP-DS: 데이터 스트림에서의 실시간 순차 패턴 분석 (RSP-DS: Real Time Sequential Patterns Analysis in Data Streams)

  • 신재진;김호석;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1118-1130
    • /
    • 2006
  • 데이터 스트림에 대한 기존의 패턴 분석 알고리즘은 대부분 속도 향상과 효율적인 메모리 사용에 대하여 연구되어 왔다. 그러나 기존의 연구들은 새로운 패턴을 가진 데이터 스트림이 입력되었을 경우, 이 전에 분석된 패턴을 버리고 다시 패턴을 분석하여야 한다. 이러한 방법은 데이터의 실시간적인 패턴 분석을 필요로 하는 실제 환경에서는 많은 속도와 계산 비용이 소모된다. 본 논문에서는 끊임없이 입력되는 데이터 스트림의 패턴을 실시간으로 분석하는 방법을 제안한다. 이 것은 먼저 빠르게 패턴을 분석하고 그 다음부터는 이전에 분석된 패턴을 효율적으로 갱신하여 실시간적인 패턴을 얻어내는 방법이다. 데이터 스트림이 입력되면 시간 기반 윈도우로 나누어 여러 개의 순차들을 생성한다. 그리고 생성된 순차들의 정보는 해시 테이블에 입력되어 정해진 개수의 순차가 해시 테이블에 채워질 때마다 해시 테이블에서 패턴을 분석해 낸다. 이렇게 분석된 패턴은 패턴 트리를 형성하게 되고, 이 후에 새로 분석된 패턴들은 이 패턴 트리 안의 패턴 별로 갱신하여 현재 패턴을 유지하게 된다. 새로운 패턴 추가를 위해 패턴을 분석할 때 이전에 이미 발견된 패턴이 Suffix로 나올 수 있다. 그러면 패턴 트리에서 이 전 패턴으로의 포인터를 생성하여 중복되는 패턴 분석으로 인한 계산 시간의 낭비를 방지한다. 그리고 FIFO방법을 사용하여 오랫동안 입력이 안 된 패턴을 손쉽게 제거한다. 패턴이 조금씩 바뀌는 데이터 스트림 환경에서 RSP-DS가 기존의 알고리즘보다 우수하다는 것을 성능 평가를 통하여 증명하였다. 또한 패턴 분석을 수행할 데이터 순차의 개수와 자주 등장하는 데이터를 판별하는 기준을 조절하여 성능의 변화를 살펴보았다.

  • PDF

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천 (Discovery and Recommendation of User Search Patterns from Web Data)

  • 구흠모;양재영;홍광희;최중민
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.287-296
    • /
    • 2002
  • 웹 사용 마이닝은 데이터마이닝을 바탕으로 사용자의 로그 파일 정보를 이용하여 웹이 이용되는 패턴을 발견한다. 이를 이용하여 웹을 개선하여 사용자들이 보다 빨리 원하는 내용을 검색할 수 있도록 할 수 있으며 시스템 관리자에게는 효율적인 웹 구조를 인한 정보를 제공할 수 있다. 웹 사용 마이닝에서 사용하는 데이터는 성형화되어 있지 않으며 웹 사용 패턴을 분석하는데 방해가 되는 잡음 데이터까지 포함하고 있다. 이것은 기존에 개발된 여러 데이터마이닝 기법을 적용하는데 어려움으로 작용한다. 이러한 어려움을 해결하기 위해 본 논문에서는 새로운 방법을 도입한 SPMiner을 .제안한다. SPMiner는 웹의 구조를 이용하여 로그 파일의 전처리 과정을 줄이며 사용자의 탐색 패턴 분석을 효율적으로 수행 할 수 있는 시스템이다. SPMiner는 WebTree 에이전트를 이용하여 웹 사이트 구조를 분석하여 WebTree를 생성하고 사용자 로그 파일을 분석하여 각 웹 페이지의 사용빈도에 대한 정보를 추출한다. WebTree와 로그 파일에서 추출된 웹 페이지에 대한 정보는 SPMiner에 의해 패턴을 분석할 퍼 이용될 수 있는 형태인 WebTree$^{+}$로 병합된다 WebTree$^{+}$는 패턴 발견을 쉽게 해주며 사용자에게 추천할 정보나 웹 페이지를 능동적으로 추천할 수 있게 만들어 준다.

  • PDF

FP-Tree를 기반으로 한 웹 사용 패턴에 대한 순차적 연관성 탐색 기법 . (A Sequential Association Rules Searching Methods for Web-Usage Patterns Based On Frequent-Pattern Tree)

  • 김영희;강우준;김응모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.25-27
    • /
    • 2004
  • 대용량 웹 데이터베이스로부터 필요한 관련 정보를 탐색하고, 다양한 형태의 정보로부터 지식을 창출하는 일은 매우 어려운 일이다. 본 논문은 복잡하고 다양한 형태의 패턴이 존재하고, 연속된 입력을 갖는 웹 데이터베이스에서 발생되는 빈발 패턴들을 효과적으로 저장할 수 있는 FP-Tree를 기반으로 하여 변화된 정보들을 능동적으로 유지하고 새로운 정보들에 U해 FP-Tree를 재구성하여 웹 페이지에 대한 유용한 패턴 정보와 사용자의 웹 사용 패턴 분석을 용이하게 한다. 그 결과 새로이 발견된 웹 사용 패턴들을 통해 웹 페이지의 구조적 정보와 구조적 연판 정보를 효과적으로 얻을 수 있다.

  • PDF

엘만 순환 신경망을 사용한 전력 에너지 시계열의 예측 및 분석 (The Prediction and Analysis of the Power Energy Time Series by Using the Elman Recurrent Neural Network)

  • 이창용;김진호
    • 산업경영시스템학회지
    • /
    • 제41권1호
    • /
    • pp.84-93
    • /
    • 2018
  • In this paper, we propose an Elman recurrent neural network to predict and analyze a time series of power energy consumption. To this end, we consider the volatility of the time series and apply the sample variance and the detrended fluctuation analyses to the volatilities. We demonstrate that there exists a correlation in the time series of the volatilities, which suggests that the power consumption time series contain a non-negligible amount of the non-linear correlation. Based on this finding, we adopt the Elman recurrent neural network as the model for the prediction of the power consumption. As the simplest form of the recurrent network, the Elman network is designed to learn sequential or time-varying pattern and could predict learned series of values. The Elman network has a layer of "context units" in addition to a standard feedforward network. By adjusting two parameters in the model and performing the cross validation, we demonstrated that the proposed model predicts the power consumption with the relative errors and the average errors in the range of 2%~5% and 3kWh~8kWh, respectively. To further confirm the experimental results, we performed two types of the cross validations designed for the time series data. We also support the validity of the model by analyzing the multi-step forecasting. We found that the prediction errors tend to be saturated although they increase as the prediction time step increases. The results of this study can be used to the energy management system in terms of the effective control of the cross usage of the electric and the gas energies.