• 제목/요약/키워드: 스트림 데이터 마이닝

검색결과 61건 처리시간 0.029초

웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색 (Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream)

  • 장중혁
    • 한국산업정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.19-29
    • /
    • 2011
  • 웹 관련 기술의 발달 및 스마트폰과 같은 지능형 모바일 서비스 기기의 사용 증가로 인해 오늘날 많은 분야에서 다양한 웹기반 서비스들이 널리 활용되고 있다 이러한 환정에서 개인화 및 지능화된 웹 서비스를 제공하기 위한 연구들이 활발히 진행되고 있으며, 웹 서비스 이용 기록으로부터 생성되는 웹 클릭 스트림에 대한 분석 기술은 관련 기술 중 핵심 기술의 하나이다. 본 논문에서는 순차정보 형태로 발생되는 웹 클릭 스트림에 대한 효율적 분석을 위해서 데이터 스트림 처리에 대한 기본적인 요구사항을 만족하면서 정제된 결과를 얻기 위한 순차패턴 마이닝 방법을 제시한다. 이를 위해서 먼저 순차패턴에 포함되는 단위항목들의 단순 발생 순서뿐만 아니라 발생 시간 정보를 추가로 활용하는 시간 간격 제한 관심 순차패턴을 정의하고, 이어서 웹 클릭 스트림과 같은 데이터 스트림에서 이를 효율적으로 탐색하기 위한 마이닝 방법을 제안한다. 해당 연구 결과는 웹 클릭 스트림뿐만 아니라 전자상거래, 생물정보학 및 USN 환경 등과 같이 데이터 스트림 형태로 정보를 발생시키는 여러 컴퓨터 용용 분야에서 유용하게 활용될 수 있을 것이다.

데이터 스트림 시스템에서 이상 이벤트에 대한 연관 규칙 마이닝 (Mining Association Rule for the Abnormal Event in Data Stream Systems)

  • 김대인;박준;황부현
    • 정보처리학회논문지D
    • /
    • 제14D권5호
    • /
    • pp.483-490
    • /
    • 2007
  • 최근에 데이터 스트림을 분석하여 잠재되어 있는 지식을 발견하기 위한 마이닝 방법에 대한 연구가 진행되고 있다. 그러나 대부분의 지지도 기반의 마이닝 방법들은 일정 주기 동안에 미리 정의된 지지도 이상의 발생 빈도를 갖는 이벤트만을 고려함으로써 발생 빈도에 비하여 중요도가 높은 이벤트를 간과하는 문제점을 가지고 있다. 본 논문에서는 이상 이벤트에 대한 연관 규칙을 탐사할 수 있는 SM-AF 방법을 제안한다. SM-AF 방법은 이상 이벤트가 감지된 윈도우만 고려하여 연관 정보를 탐사함으로써 자주 발생하지 않더라도 중요도가 높은 이벤트에 대한 연관 정보를 탐사할 수 있다. 또한 SM-AF 방법은 이상 이벤트에 대한 의미 있는 희소 항목 집합과 주기적인 이벤트 집합도 탐사한다. 그리고 다양한 실험을 통하여 SM-AF 방법이 기존의 연관 규칙 방법들에 비하여 우수함을 확인하였다.

그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 인-메모리 압축 기법 (In-memory Compression Scheme Based on Incremental Frequent Patterns for Graph Streams)

  • 이현병;신보경;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.35-46
    • /
    • 2022
  • 최근 네트워크 기술 발전과 함께 IoT 및 소셜 네트워크 서비스의 활성화로 인해 많은 그래프 스트림 데이터가 생성되고 있다. 본 논문에서는 압축률 및 압축 시간에 대해 중점적으로 연구되던 기존의 압축 기법에 그래프 마이닝을 적용하여 스트림 그래프 환경을 함께 고려한 그래프 압축 기술을 제안한다. 또한, 최신 패턴을 유지하여 실시간으로 변화하는 스트림 그래프에서 압축 효율 및 처리속도를 향상시킨다. 본 논문에서는 그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 압축 기법을 제안하였다. 제안하는 기법의 우수성을 보이기 위해 압축률과 처리시간을 기존기법과 비교하여 성능평가를 수행한다. 제안하는 기법은 그래프 데이터의 크기가 커질 때 중복되는 데이터가 많아져 기존 기법보다 빠른 처리속도를 보인다. 따라서, 빠른 처리가 요구되는 스트림 환경에서 제안하는 기법을 활용할 수 있다.

지역적 컨셉트 적응형 IOLIN시스템을 사용한 데이터 스트림의 분류 (Data Streams classification using Local Concept-adapted IOLIN System)

  • 김재우;송재원;이주홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.37-44
    • /
    • 2008
  • 데이터 스트림은 시간이 경과함에 따라서 데이터의 패턴이 변화하는 특성이 있다. 데이터 스트림에 내재되어 있는 이러한 특성 (컨셉트 변화)은 분류 모델의 예측 성능을 감소시킨다. CVFDT와 IOLIN은 점진적인 분류모델의 갱신을 통해 컨셉트 변화를 해결하고자 하였다. 그러나 이러한 방법들은 작은 패턴의 변화가 전체 분류 결과에 영향을 주는 지역적 컨셉트 변화를 식별하지 못함으로써 모델을 재 구축하는 단점이 있다. 본 논문은 컨셉트변화 발생 시 지역적 컨셉트 변화를 찾음으로써 시스템의 예측성능을 향상시키는 적응형 IOLIN을 제안한다. 실험 결과는 제안 기법인 적응형 IOLIN기법이 IOLIN기법에 비해 정확률에서 약 2.8%, CVFDT기법보다 약 11.2%정도 우수하였다.

  • PDF

시간에 따른 가변성을 고려한 상대적인 빈발항목 탐색방법 (Search Method of the time sensitive frequent itemsets)

  • 박태수;이주홍;박선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.97-100
    • /
    • 2005
  • 최근 유비쿼터스 컴퓨팅 및 인터넷 서비스에 대한 관심이 증대되면서, 대용량의 데이터에 내재되어 있는 정보를 빠른 시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 데이터 마이닝 기법을 이용하여 데이터 스트림에서 빈발항목을 탐색하는 기존의 연구는 시간을 고려하지 않고 단순히 집계를 통하여 빈발항목을 탐색하기 때문에 정확성을 보장하지 못한다. 따라서 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘을 제안하고자 한다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다.

  • PDF

적응적 격자기반 다차원 데이터 스트림 클러스터링 방법 (An Adaptive Grid-based Clustering Algorithm over Multi-dimensional Data Streams)

  • 박남훈;이원석
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.733-742
    • /
    • 2007
  • 데이터 스트림이란, 빠른 속도로 지속적으로 생성되는 무한한 크기의 방대한 양의 데이터 집합으로 정의된다. 무한한 데이터 스트림에 비해 주어진 메모리 공간은 유한하게 한정되어 있어, 이러한 제약조건을 충족시키는 범위 내에서 일정 한도내의 정확도 오차를 허용하기도 한다. 또한, 변화하는 데이터 스트림 내의 최신 클러스터를 찾기 위해서는 데이터 객체의 저장없이 오래된 데이터 스트림 내의 정보들을 비중을 감소시킬 수 있어야 한다. 본 연구에서는 데이터 스트림 분석을 위한 데이터 스트림 격자 기반 클러스터링 기법을 제시한다. 주어진 초기 격자셀에 대해, 데이터 객체의 빈도가 높은 범위를 반복적으로 보다 작은 크기의 격자셀로 분할하여 최소 크기의 격자셀, 단위 격자셀을 생성한다. 격자 셀에서는 데이터 객체들의 분포에 대한 통계값만을 저장하여, 기존의 클러스터링 기법에 비해 데이터 객체에 대한 탐색없이 효율적으로 클러스터를 찾을 수 있다. 또한, 가용 메모리 공간에 따라 단위 격자셀의 크기를 조절하여 클러스터의 정확도를 최대화할 수 있어, 주어진 메모리 공간에 맞게 적응적으로 성능을 조절할 수 있다.

궤적 데이터 스트림에서 동반 그룹 탐색 기법 (A Technique for Detecting Companion Groups from Trajectory Data Streams)

  • 강수현;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권12호
    • /
    • pp.473-482
    • /
    • 2019
  • 이동 객체의 데이터 스트림으로부터 객체들의 궤적을 분석하는 연구는 이미 이루어진 바가 있다. 그 중 같이 움직이는 객체들의 그룹, 즉 동반 그룹을 찾는 연구도 이미 존재한다, 이들 대부분은 서로 가까이 존재하는 객체들의 그룹을 탐색하기 위해 기존의 클러스터링 기법을 사용한다. 하지만 클러스터링에 기반한 방법들은 정확한 클러스터의 수를 미리 알 수 없거나 클러스터의 모양이나 크기를 제어할 수 없기 때문에 정확한 동반 그룹을 찾기 어려운 경우가 많다. 본 논문은 실시간으로 유입되는 궤적 데이터 스트림에서 기존의 클러스터링 기법이 아니라 사용자가 지정한 거리를 기반으로 동반 그룹을 탐색하는 새로운 방법을 제안한다. 본 논문에서 제안하는 기법은 서로 가까이 존재하는 객체들의 그룹을 주기적으로 탐색하며, 이 때 사용자가 지정한 거리 내에 존재하는 객체들의 그룹을 매우 효율적으로 찾아내는 기법을 사용한다. 또한 동반 그룹 및 그의 궤적만을 반환하는 기존 방법과 달리 제안 방법은 동반 그룹의 생성 시간과 지속 시간도 같이 알려준다. 본 논문에서는 다양한 실험을 통해 제안 방법이 동반 그룹을 정확하고 매우 효율적으로 탐색할 수 있음을 보인다.

스냅샷을 가지는 다중 레벨 공간 DBMS를 기반으로 하는 센서 미들웨어 구조 설계 (Design of Sensor Middleware Architecture on Multi Level Spatial DBMS with Snapshot)

  • 오은석;김호석;김재홍;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권1호
    • /
    • pp.1-16
    • /
    • 2006
  • 최근 들어, 사용자가 주변 환경 및 요구 정보의 변화를 의식하지 않고 작업 환경과 수행하는 일에 집중하도록 배려하는 인간 중심 컴퓨팅 환경에 대한 연구 개발이 활발히 진행되고 있다. 그러나 이러한 컴퓨팅 환경에서 미들웨어는 사용자에게 RFID센서로부터 들어오는 대량의 정보에 대한 처리 부하를 줄이기 위하여 분석이 끝난 스트림 데이터를 삭제한다. 따라서 사용자의 데이터 웨어하우징이나 데이터마이닝에 필요한 확률, 통계 정보에 대한 요청, 또는 반복적이면서 동일한 데이터에 대한 요청을 처리할 수 없다는 문제점을 가진다. 본 논문에서는 기존의 미들웨어에서 문제가 되었던 과거 스트림 데이터 재사용 문제를 해결하기 위해, 사용자가 빈번하게 요구하는 데이터들을 스냅샷을 가지는 다중 레벨 공간 DBMS에서 관리하는 센서미들웨어 구조를 설계하였다. 본 시스템은 사용자가 요구하는 데이터 마이닝이나 데이터 웨어하우징과 같은 과거 스트림 정보를 사용한 서비스 요청을 위해, 미들웨어에서 필터링된 과거 스트림 데이터를 디스크 데이터베이스에서 관리한다. 그리고 디스크 데이터베이스에 저장된 스트림 데이터 중에서 사용자에 대한 높은 재사용 빈도를 가지는 데이터들을 스냅샷의 형태로 메모리 데이터베이스에 저장하고 이를 관리한다. 또한, 본 시스템은 메모리 데이터베이스에 저장된 스냅샷 데이터의 높은 데이터 재사용성과 신속한 서비스를 유지하기 위해서 주기적인 메모리 데이터베이스 관리 정책을 수행한다. 본 논문은 기존의 미들웨어에서의 스트림 데이터에 대한 반복적인 요청, 또는 과거 스트림 데이터를 이용한 정책 결정 서비스 요청에 대한 서비스를 제공할 수 없는 문제들을 해결하였다. 그리고 메모리에 저장된 데이터에 대한 높은 데이터 재사용성을 유지함으로서 사용자에게 지속적으로 다양하고 신속한 데이터 서비스를 제공한다.

  • PDF

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법 (An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams)

  • 김영희;김원영;김응모
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1998-2004
    • /
    • 2009
  • 다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색 (Finding the time sensitive frequent itemsets based on data mining technique in data streams)

  • 박태수;전석주;이주홍;강윤희;최범기
    • 정보교육학회논문지
    • /
    • 제9권3호
    • /
    • pp.453-462
    • /
    • 2005
  • 최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터에 내재되어 있는 정보를 빠른시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘으로 한정적인 메모리를 고려하여 빈발항목과 부분 빈발항목만을 저장하고 시간의 흐름에 따른 빈발항목의 갱신방법에 관하여 제안하였다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다. 제안된 방법은 웹 코스웨어로 학습하는 학생들의 행동패턴을 시간대별로 파악하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습효과 증진 및 지도 방향을 설정하는데 활용할 수 있다.

  • PDF