• 제목/요약/키워드: 스트림 데이터 마이닝

검색결과 61건 처리시간 0.031초

적응적 IOLIN시스템을 사용한 Concept Drift가 있는 데이터 스트림의 분류 (Concept-Drifting Data Streams classification using Adapted IOLIN System)

  • 김재우;이주홍;홍준식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.485-488
    • /
    • 2007
  • 스트림 데이터를 분류하는 문제는 데이터 스트림 마이닝 분야에서 가장 넓게 연구되고 있는 항목이다. 실세계에서의 데이터 스트림을 분류하는데 있어서 본질적인 문제점들이 있다 : 1)많은 양의 데이터가 불규칙적으로 빠르게 입력되는 것과, 2)유동적 컨셉트로 알려진, 데이터의 분류가 시간에 따라서 유동적으로 변하는 문제이다. 본 논문에서는 위와 같은 문제를 해결하기 위해서 적응적 OLIN시스템을 제안한다. 제안된 시스템은 지역적인 유동적 컨셉트뿐만 아니라 전역적인 유동적 컨셉트 문제까지 고려하여, 기존의 시스템보다 향상된 성능을 보였다.

능동적 슬라이딩 윈도우 기반 빈발구조 탐색 기법 (A Method of Frequent Structure Detection Based on Active Sliding Window)

  • 황정희
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권1호
    • /
    • pp.21-29
    • /
    • 2012
  • 최근 인터넷의 급격한 발전과 유비쿼터스 컴퓨팅 환경 그리고 센서 네트워크와 같은 많은 정보들의 교환이 이루어지는 환경에서 연속적으로 전송되는 데이터에 대한 처리가 요구되고 있다. 이와 관련하여 XML 스트림 데이터에 대한 빈발구조 추출 및 효율적인 질의처리를 위한 마이닝 방법들이 연구되고 있다. 본 논문에서는 연속적으로 빠르게 발생하는 스트림 데이터로부터 유용한 정보를 발견하기 위한 기반 연구로써 트리거를 이용한 슬라이딩 윈도우 기반의 XML 빈발구조 탐색 방법을 제안한다. 제안된 방법은 스트림 데이터에 대한 마이닝과 연속질의 처리등을 위해 트리거를 이용하여 데이터의 흐름을 자동으로 제어할 수 있는 기반이 된다.

다차원 스트림 데이터 환경에서 이벤트 가중치를 고려한 시간 관계 탐사 (Discovering Temporal Relation Considering the Weight of Events in Multidimensional Stream Data Environment)

  • 김재인;김대인;송명진;한대영;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.99-110
    • /
    • 2010
  • 이벤트는 환자의 증상과 같은 시간 속성을 갖는 흐름을 의미하며 센서를 통하여 수집된 스트림 데이터는 시작과 종료 시점을 갖는 인터벌 이벤트로 요약 가능하다. 그러나 대부분의 시간 마이닝 기법은 빈발 이벤트만을 고려하며, 빈발하지 않는 이벤트는 중요하더라도 제외되는 문제가 있다. 이 논문에서는 다차원 스트림 데이터 환경에서 인터벌 이벤트에 기초하여 의미있는 시간 관계에 대한 연관 규칙 마이닝 기법을 제안한다. 제안 방법은 이벤트 가중치와 이상 이벤트가 감지된 시점의 스트림 데이터만 고려하여 이벤트의 발생 횟수에 상관없이 의미있는 시간 관계에 대한 연관 규칙을 탐사한다. 그리고 성능 평가를 통하여 제안 방법이 기존의 방법에 비하여 보다 유용한 지식을 탐사함을 보인다.

USN 환경에서 의미 기반 트랜잭션 구조를 이용한 순차 패턴 탐사 기법 (Sequence Pattern Mining Using Meaning-based Transaction Structure for USN system)

  • 최필선;강동현;김환;김대인;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1105-1108
    • /
    • 2012
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 찾아내는 기법이다. USN 환경에서 발생하는 스트림 데이터는 시간 속성을 갖는 이벤트들의 집합으로 표현할 수 있으며 순차 패턴 탐사 기법을 이용하여 유용한 정보를 탐사할 수 있다. 그러나 스트림 데이터 환경에서는 데이터가 무한하고 연속적으로 발생하기 때문에 모든 데이터를 저장하여 패턴을 탐사하는 기법을 적용하는 데는 문제가 있다. 이 논문에서는 향상된 데이터 처리방식을 사용하여 순차패턴을 탐사하는 스트림 데이터 마이닝 기법에 대하여 제안한다. 제안하는 기법은 의미 단위의 가변적 윈도우를 사용하여 스트림 데이터로부터 트랜잭션을 생성하고 이 트랜잭션들의 집합을 해시와 슬라이딩 윈도우를 사용하여 스트림 데이터의 순차 패턴을 탐사한다. 이를 이용한 제안 기법은 실시간 시스템에 적합하게 데이터 저장 공간 사용의 효율성을 높이고 신속하게 유용한 패턴을 탐사할 수 있다.

데이터 스트림 시스템에서 인과관계 탐사를 위한 마이닝 방법 (A Mining Method for Exploration of Causality on Data Stream System)

  • 한대영;김대인;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.306-309
    • /
    • 2009
  • 일반적으로 이벤트는 발생 시점이라는 시간 속성을 갖는다. 그리고 고객 단위로 이벤트를 축적한 데이터베이스가 있다면 데이터 마이닝을 통하여 유용한 정보를 탐사할 수 있다. 특히 이벤트 발생의 원인과 결과에 대한 관계 규칙을 찾아낼 수 있다면 과거의 정보를 바탕으로 미래를 예측할 수 있는 예측 판단 정보로 사용할 수 있다. 본 연구에서는 데이터 스트림 시스템에서 시간 관계 규칙을 탐사하고 시간 관계 규칙을 구성하는 이벤트 간의 영향력을 측정하기 위한 SM-EC(data Stream Mining for Exploration of Causality)기법을 제안한다. 실험을 통하여 SM-EC가 제공하는 영향력 정보는 다양한 비상 상황에 대처하는 중요한 척도가 될 수 있음을 확인하였다.

다차원 스트림 데이터의 연관 규칙 탐사 기법 (Mining Association Rules in Multidimensional Stream Data)

  • 김대인;박준;김홍기;황부현
    • 정보처리학회논문지D
    • /
    • 제13D권6호
    • /
    • pp.765-774
    • /
    • 2006
  • 연관 규칙 탐사는 데이터베이스를 분석하여 잠재되어 있는 지식을 발견하기 위한 기법으로 스트림 데이터 시스템에서 연관 규칙 탐사에 대한 연구가 활발하게 진행되고 있다. 그러나 대부분의 연구들은 센서에서 수집되는 단일 스트림 데이터에 관한 것이며 다차원 스트림 데이터간의 연관 정보는 간과하고 있다. 본 논문에서는 다차원 스트림 데이터간의 연관 규칙을 탐사할 수 있는 AR-MS 방법을 제안한다. AR-MS 방법은 한 번의 데이터 스캔으로 연관 규칙 탐사에 필요한 요약 정보를 구축함으로써 스트림 데이터의 특성을 반영하며, 자주 발생하지는 않지만 특정 이벤트와 빈번하게 발생하는 의미 있는 희소 항목 집합에 대한 연관 규칙을 탐사할 수 있다. 또한 AR-MS 방법은 구축된 요약 정보를 사용하여 다차원 스트림 데이터간의 최대 빈발 항목 집합에 대한 연관 규칙도 탐사한다. 그리고 다양한 실험을 통하여 제안하는 방법이 기존의 방법들에 비하여 우수함을 확인하였다.

웹 이용 마이닝을 위한 데이터 전처리에서 사용자 구분에 관한 연구 (A Study of User Identification in Data Preprocessing for Web Usage Mining)

  • 최영환;이상용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.118-120
    • /
    • 2001
  • 웹 이용 마이닝은 거대만 웹 데이터 저장소의 로그들을 이용하여 웹 사용자의 사용 패턴을 분석하는 데이터 마이닝 기술이다. 마이닝 기술을 적용하기 위해서는 전처리 과정 중의 사용자와 세션을 정확하게 구분해야 하는데, 표준 웹 로그 형식의 웹 로그만으로는 사용자를 완전히 구분할 수 없다. 따라서 정확한 결과를 얻기 위해 사용자와 세션을 구분할 수 있는 모듈을 웹 서버에서 제공하거나, 각각의 페이지에 적당한 실행 필드를 삽입해야 한다. 사용자와 세션을 구분하는 데는 캐시 문제, 방화벽 문제. IP(ISP)문제, 프라이버시 문제, 쿠키 문제 등 많은 문제들이 있지만, 이 문제를 해결하기 위한 명확한 방법은 아직 없다. 이 논문은 참조 로그와 에이전트 로그, 그리고 액세스 로그 등 서버측 클릭스트림 데이터만을 이용하여 사용자와 세션을 구분하는 방법을 제안한다.

  • PDF

데이터 스트림 마이닝 기법을 적용한 개인/커뮤니티 맞춤형 Digital TV 시스템 (Customized Digital TV System for Individuals/Communities based on Data Stream Mining)

  • 신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제17D권6호
    • /
    • pp.453-462
    • /
    • 2010
  • 국내외 TV방송의 디지털 전환 프로젝트가 본격적으로 진행되고 있다. 디지털 방송 서비스는 다매체, 다채널을 통한 방송 프로그램의 증가와 양방향 TV방송 서비스로 인해 사용자에게 다양한 방송 프로그램의 선택과 개인/커뮤니티별 맞춤형 시청 기회를 제공함으로써 새로운 방송서비스 환경을 필요로 한다. 본 논문에서는 TV-Anytime 영상 메타데이터에 대한 데이터 스트림 마이닝 기법을 이용하여 사용자의 시청 상황을 포함한 시청 패턴을 분석함으로써 개인/커뮤니티 시청 패턴 프로파일 및 시청 선호도 연관규칙 생성 기법을 적용한 개인/커뮤니티 맞춤형 Digital TV 시스템 을 제안한다. 또한, 임베디드 시스템 기반의 사용자 인터페이스를 구현하여 개인/커뮤니티 사용자들에게 적절한 추천 프로그램을 제공하고, 시청 프로그램 정보에 따른 시청 상황을 자동으로 제어하는 기능을 포함한다. 또한, 스마트폰 기반의 채널 추천 시스템을 구현하여 프로파일의 활용도를 증가시켰으며, 실험을 통하여 본 논문에서 제안하는 방법의 효율성을 검증한다.

변형된 Support Vector Machine을 이용한 유비쿼터스 데이터 마이닝 (Ubiquitous Data Mining Using Hybrid Support Vector Machine)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제15권3호
    • /
    • pp.312-317
    • /
    • 2005
  • 유비쿼터스 컴퓨팅 환경은 정치, 경제, 사회, 문화, 교육 등 대부분의 분야에 많은 영향을 주고 있다. 인터넷에 비해 훨씬 거대한 유비쿼터스 네트워크 환경이 효과적으로 운영되기 위해서는 네트워크에 접속한 다양한 컴퓨터들이 스스로 지능을 가지고 주어진 상황에서 최적의 의사결정을 할 수 있어야 한다. 현재 많은 분야에서 데이터 마이닝은 지능형 시스템 구축을 위한 효과적인 분석도구로 사용되고 있다. 지능화된 유비쿼터스 컴퓨팅 환경의 구현을 위한 유비쿼터스 데이터 마이닝을 위하여 본 논문에서는 변형된 Support Vector Machine 기법을 제안하였다. 유비쿼터스 컴퓨팅 환경에서 상당 부분의 데이터가 센서를 통하여 수집된다. 센서 네트워크를 통하여 수집된 데이터는 상당부분 잡음을 포함한 데이터이다. 제안 기법은 특히 센서 네트워크를 통한 스트림 데이터의 잡음을 제거하는 데 목적을 두고 있다. 본 논문의 실험에서는 유비쿼터스 센서 네트워크를 나타내는 다양한 분포로부터 시뮬레이션 데이터를 생성하여 제안 방법의 성능 평가를 수행하였다.