• 제목/요약/키워드: 연속성 데이터 분석

검색결과 277건 처리시간 0.023초

패턴의 변화를 가지는 연속성 데이터를 위한 스트리밍 의사결정나무 (Streaming Decision Tree for Continuity Data with Changed Pattern)

  • 윤태복;심학준;이지형;최영미
    • 한국지능시스템학회논문지
    • /
    • 제20권1호
    • /
    • pp.94-100
    • /
    • 2010
  • 데이터 마이닝(Data Mining)은 환경으로부터 수집된 데이터에서 패턴을 추출하고 의미 있는 정보를 발견하기 위하여 주로 사용된다. 하지만, 기존의 방법은 데이터의 수집이 완료된 상태에서 분석하는 것을 기반으로 하고 있으며, 시간의 흐름에 따른 패턴의 변화를 반영하기 어렵다. 본 논문은 연속성(Continuity data), 대량성(Large scale) 그리고 패턴의 가변성(Changed pattern)과 같은 특성을 가지는 스트림 데이터(Stream Data)의 분석을 위한 스트리밍 의사결정 나무(Streaming Decision Tree : SDT) 방법을 소개한다. SDT는 연속적으로 발생하는 데이터를 블록으로 정의하고, 각 블록은 의사결정나무 학습 방법을 이용하여 규칙을 추출한다. 추출된 규칙은 발생 시간, 빈도 그리고 모순 등을 고려하여 결합하였다. 실험에서는 시계열 데이터를 이용하여 분석하였고, 적절한 결과를 확인하였다.

시간의 흐름과 위치 변화에 따른 멀티 블록 스트림 데이터의 의미 있는 패턴 추출 방법 (The Method for Extracting Meaningful Patterns Over the Time of Multi Blocks Stream Data)

  • 조경래;김기영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권10호
    • /
    • pp.377-382
    • /
    • 2014
  • 모바일 통신과 사물 인터넷(IoT) 환경에서 시간에 따른 데이터의 분석 기술은 주로 의미 있는 정보를 찾기 위해 수집 된 데이터에서 의미있는 패턴을 추출하기 위해 사용된다. 기존의 데이터 마이닝을 이용한 분석 방법은 데이터 수집이 어렵고 시간의 경과와 관련된 시계열 데이터의 변경을 반영하기 위해 완료 상태에 기초하여 해석되어야 한다. 이러한 패턴의 다양성, 대용량성, 연속성 등의 여러 가지 특성을 가진 데이터 스트림의 분석을 위한 방법으로 멀티 블록 스트리밍 데이터 분석(AM-MBSD) 방법을 제안한다. 의미 있는 데이터 추출을 위해 멀티 블록 스트리밍 데이터의 패턴을 추출하고 추출된 연속적 데이터를 여러 개의 블록으로 정의하고 제안 방법의 검증을 위해 각 데이터 블록의 데이터 패턴 생성 시간, 주파수를 수집하고 시계열 데이터를 분석, 실험하였다.

Support Vector Regression을 ol용한 연속성 피드백 정보의 협동 추천 시스템 (Collaborative Recommendation System of Continuous Feedback Information Using Support Vector Regression)

  • 임민택;전성해;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.265-267
    • /
    • 2002
  • 인터넷으로부터 필요한 정보를 얻기 위하여 무의미한 탐색을 반복하는 경우가 자주 나타나고 있다. 이러한 Dizzy Web에서 사용자와 관련 있는 정보를 추천해 주는 방법에 대한 연구가 많이 진행되고 있다. 특히 협동 추천시스템에 대한 연구가 활발히 진행되고 있다. 이 시스템의 구현 알고리즘 중에서 기존의 메모리 기반은 수행 시간에 대한 부담이 매우 크며, 모델 기반은 연속성 데이터에 대한 처리가 어렵거나 불가능하다는 문제가 있다. 본 논문에서는 특히 웹 사용자 모델에서 효과적인 연속성 피드백 데이터를 이용한 사용자 모델링 방법을 제안하고 이를 통해 웹 페이지 예측을 수행하는 시스템을 구현하였다. 논문에 사용된 연속성 데이터는 사용자의 웹 페이지 방문시간이고 이 데이터를 분석하기 위해 기존의 모델 기반 알고리즘에 Support Vector Regression 기법을 결합하는 알고리즘을 설계하였다. 실험에서는 제안 모델의 정확성과 예측 능력에 대하여 기존의 Pearson 알고리즘과 비교하였다. 논문에서 제안하는 방법이 매우 적은 시간 비용을 요구하면서도 유의할 수 있는 수준의 결과가 얻을 수 있음이 확인되었다.

  • PDF

데이터 스트림에서 연속질의 처리를 위한 큐 메모리 관리 기법 (Queue Memory Management Method for Continuous Query Processing in Data Stream)

  • 신재완;신숭선;이동욱;김경배;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.179-183
    • /
    • 2008
  • 연속적이고 무한히 발생되는 데이터 스트림을 관리하는 데이터 스트림 관리시스템(DSMS)은 연속질의를 이용하여 스트림을 처리한다. 연속질의는 질의 별로 독립적인 큐를 유지하기 때문에 질의 개수가 증가함에 따라서 메모리 비용이 증가되며, 잦은 메모리 할당으로 인한 시스템의 성능 저하를 갖는다. 이러한 문제점을 해결하기 위한 기존의 연구로 메모리 풀을 이용한 메모리 관리 기법이 있다. 하지만 페이지의 크기가 고정되어 있기 때문에 각 질의마다 필요로 하는 데이터 스트림의 최적의 크기에 적합하게 할당되지 못하여 메모리를 낭비하는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 연속질의 처리를 위한 큐 메모리 관리 기법을 제안한다. 제안기법은 큐 관리 테이블에서 관리하는 각각의 큐 메모리들을 타임스탬프를 가지고 일정한 기간을 주기로 큐 메모리의 사용량을 분석한다. 분석된 큐 메모리들은 이전의 큐 메모리의 사용량과 현재 사용된 큐 메모리의 사용량을 비교함으로써 상한 값과 하한 값을 구함으로써 현재 큐 메모리에서 가지고 있는 사용량을 추가할 것인지, 줄일 것인지를 판단하여, 메모리의 사용량을 최적화 함으로써 시스템의 메모리 가용성을 향상한다. 제안 기법은 성능평가를 통해 메모리의 가용성이 기존의 방식에 비하여 향상된 성능을 보인다.

  • PDF

분산 스트림 컴퓨팅 기술 동향 (Technology of Distributed Stream Computing)

  • 이미영
    • 전자통신동향분석
    • /
    • 제26권1호
    • /
    • pp.80-88
    • /
    • 2011
  • 데이터의 효과적인 활용이 경쟁력 확보에 주요한 요인이나, 데이터 폭증은 유용한 정보를 얻는데 필요한 처리 시간의 지연을 야기하고 있다. 개인 맞춤형 서비스, 방범 방재 서비스 등 모니터링 & 대응 서비스를 위해 분석할 데이터의 양이 급증하고 있으며, 텍스트, 영상, 오디오 등 비정형 데이터에 대한 실시간 분석 필요성이 증대하고 있다. 대량의 폭증하는 데이터에 대한 실시간 분석 처리 환경을 제공하기 위해 분산 병렬 컴퓨팅 기술과 데이터 스트림 연속 처리 기술이 활용되고 있다. 본고에서는 폭증하는 데이터 스트림 처리를 위하여 확장성 및 유연한 처리 환경을 제공하는 분산 스트림 컴퓨팅 기술에 대해 소개한다.

  • PDF

실시간 생체 데이터의 패턴분석을 위한 UB-IOT 모델링 (UB-IOT Modeling for Pattern Analysis of the Real-Time Biological Data)

  • 신윤환;신예호;박현우;류근호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권2호
    • /
    • pp.95-106
    • /
    • 2016
  • 생체 데이터는 사람에 따라 다르게 나타날 수 있고 사상의학과 밀접한 관계를 가지고 있다. 생체 데이터는 사람의 맥박과 혈압, 심박동 수와 과거의 병력, 노화의 정도, 체질량 지수 등을 의미하며, 이 생체 데이터는 사람의 건강상태를 판별하기 위한 기준 척도로 활용된다. 그렇기 때문에 생체 데이터는 사용하고자 하는 목적에 맞도록 가공되어야 한다. 기존 연구에서는 실시간으로 변화되고 있는 생체 데이터를 현재 시점의 스냅셧으로만 적용하고 있기 때문에 시간의 연속성이 배제되어 있다. 따라서 이 문제를 해결하기 위하여 본 논문에서는 생체 데이터들로 구성되는 Big Data 환경에서 시간의 연속성을 포함하는 생체데이터의 패턴분석 모델을 제안한다. 제안 모델은 치료와 건강증진을 위해 전자침을 사용할 때 침자리의 선정을 신중하게 결정하는데 도움을 줄 수 있다.

연속 숫자음의 음절 수 검출

  • 김득수
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1998년도 공동추계학술대회 경제위기 극복을 위한 정보기술의 효율적 활용
    • /
    • pp.785-790
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 발음한 음성의 음절 개수 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지에 대한 확률밀도함수를 이용하여 연속 음성에서 음절갯수검출 알고리듬을 제안, 실험을 통하여 그 유효성을 확인하고자한다. 이를 위하여 음성자료로서는 국어 공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 음향학적 특징을 분석하기 위하여 확률밀도함수 및 음절의 최소구간 및 단위시간의 확률밀도 함수의 값을 이용하였다. 그 결과 KLE 데이터에서 스펙트럼에너지만 이용한 경우 고립음절을 3.7%이며 본 논문의 알고리듬을 적용한 경우 4음절은 약 60%의 결과가 되며 제안한 방법의 유효성을 확인하였다.

연속간행물 종합목록의 중복레코드 최소화 방안 연구 (A Study on the Duplicate Records Detection in the Serials Union Catalog)

  • 이혜진;김순영;김완종;최호남
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.445-448
    • /
    • 2007
  • 연속간행물 종합목록은 국내 여러 기관에 산재한 연속간행물의 정보를 통합하여 공유하고, 정보자원화하기 위한 필수 도구로서 최적화된 목록 및 소장 정보를 생성하여 이용자에게 학술지에 대한 신뢰성 있는 정보를 제공하는 것이 목적이다. 이를 위해서는 데이터의 일관성이 무엇보다 중요하며 레코드의 중복성은 종합목록 품질평가에 있어 중요한 척도 중에 하나가 된다. 본 연구는 연속간행물 기반의 종합목록 데이터의 품질을 개선하기 위하여 오류 데이터로 인한 중복레코드를 최소화하기위한 방안을 마련하는데 있다. 이를 위하여 연속간행물의 중복레코드 검증 요소를 분석하고 검증 프로세스를 제안하였다.

  • PDF

DNA 서열 분석을 위한 통합 시스템 (Unification System for Analysis of DNA Sequence)

  • 송영옥;장덕진
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.65-72
    • /
    • 2011
  • 첨단 과학기술의 등장으로 유전자 정보의 활용 방법과 다양한 분야에서의 융합 형태가 속출하고 있는 현실에 우리는 서있다. 바이오 데이터의 분석을 기반으로 많은 연구와 개발이 이루어지면서 새로운 연관성과 정보를 찾아내기 위한 바이오인포매틱스의 많은 목표들이 설정되고 있는 실정에서 데이터의 정확한 분석을 도울 수 있는 도구의 필요성이 더욱 더 대두되고 있다. 본 논문에서는 기존에 제공되는 바이오 데이터 분석을 위한 여러 가지 도구들의 단점들을 보완할 수 있는 시스템을 개발함으로써 사용자에게 보다 편리한 연구 도구를 제공하고자 한다. 바이오 데이터 분석을 위한 작업으로 ORF 축출, 바이오 서열 정보 검색 및 유사성 비교등의 작업을 분리된 환경이 아닌 통합된 환경에서 제공하고 기존 분석 시스템에서 부족한 연속성을 제공하도록 설계하였다.

클라우드 도입이 서비스 연속성에 미치는 영향에 관한 사례 분석 - 장애 중심으로 (A Case Analysis on the Effects of Cloud Adoption on Service Continuity - Focusing on Failures)

  • 허지용;윤준희;한은경
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.121-126
    • /
    • 2023
  • 최근 인공지능, 빅데이터, IOT 등 IT 기술에 대한 서비스 활용도가 높아짐에 따라 방대한 데이터와 이를 처리하는 IT 인프라 자원의 효율적인 관리를 위해 클라우드 컴퓨팅을 도입하여 인프라 비용을 효율화하면서 안정적이고 신뢰성 있는 정보서비스 제공을 위한 노력이 계속되고 있다. 본 논문은 전체 1,750여개의 클라우드 시스템을 운영중인 기업의 클라우드 시스템에서 전국 360개 지점 426개 시스템을 대상으로 클라우드 도입 전과 도입후의 운영결과를 시스템 장애 관점에서 비교분석 하였으며, 분석 결과 장애건수, 장애유형, 서비스 중단 시간 등을 종합할 때 클라우드 도입이 서비스 연속성을 확보하는데 유의미한 결과를 얻었다. 이 결과를 통해 클라우드 도입으로 서비스 연속성 확보를 기대하는 기업에게 의미 있는 시사점을 제공 할 것으로 기대한다.