• 제목/요약/키워드: query clustering

검색결과 120건 처리시간 0.027초

다중 해시함수 기반 데이터 스트림에서의 아이템 의사 주기 탐사 기법 (Finding Pseudo Periods over Data Streams based on Multiple Hash Functions)

  • 이학주;김재완;이원석
    • 한국IT서비스학회지
    • /
    • 제16권1호
    • /
    • pp.73-82
    • /
    • 2017
  • Recently in-memory data stream processing has been actively applied to various subjects such as query processing, OLAP, data mining, i.e., frequent item sets, association rules, clustering. However, finding regular periodic patterns of events in an infinite data stream gets less attention. Most researches about finding periods use autocorrelation functions to find certain changes in periodic patterns, not period itself. And they usually find periodic patterns in time-series databases, not in data streams. Literally a period means the length or era of time that some phenomenon recur in a certain time interval. However in real applications a data set indeed evolves with tiny differences as time elapses. This kind of a period is called as a pseudo-period. This paper proposes a new scheme called FPMH (Finding Periods using Multiple Hash functions) algorithm to find such a set of pseudo-periods over a data stream based on multiple hash functions. According to the type of pseudo period, this paper categorizes FPMH into three, FPMH-E, FPMH-PC, FPMH-PP. To maximize the performance of the algorithm in the data stream environment and to keep most recent periodic patterns in memory, we applied decay mechanism to FPMH algorithms. FPMH algorithm minimizes the usage of memory as well as processing time with acceptable accuracy.

이동 객체 경로 탐색을 위한 시공간 클러스터링 기법 (A Spatio-Temporal Clustering Technique for the Moving Object Path Search)

  • 이기영;강홍구;윤재관;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권3호
    • /
    • pp.67-81
    • /
    • 2005
  • 최근 들어 지리 정보 시스템이 발전함에 따라 경로 검색, 주변 정보 검색, 응급 서비스 등을 제공하는 위치 기반 서비스, 텔레매틱스 등의 새로운 응용 서비스 개발에 대한 관심과 연구가 증대되고 있다. 위치 기반 서비스 및 텔레매틱스에서 사용되는 시공간 데이타베이스에서의 사용자의 검색은 시간 축을 현재의 시간으로 고정하고 공간 및 비공간 속성을 검색하기 때문에 시간 축에 대한 검색 범위가 넓을 경우에는 이를 효율적으로 처리하기 어렵다. 이를 해결하기 위하여 이동 객체의 위치 데이타를 요약하는 기법인 스냅샷이 소개되었다. 그러나, 이러한 스냅샷 기법은 저장해야 되는 총간 영역이 넓을 경우 저장 공간이 많이 필요하며 검색에 자주 사용되지 않는 불필요한 영역까지 스냅샷을 생성하므로 저장 공간 및 메모리를 많이 사용하게 된다. 이에 본 논문에서는 기존의 스냅샷 기법의 단점을 극복하기 위하여 이전에 공간 클러스터링을 위해 사용되던 2차원의 공간 해시 알고리즘을 시공간으로 확장한 해시-기반 시공간 클러스터링 알고리즘(H-STCA)과 과거 위치 데이타로부터 이동 객체 경로 탐색을 위한 지식을 추출하기 위해 H-STCA 알고리즘에 근거한 지식 추출 알고리즘을 제안한다. 그리고, 대용량의 이동 객체 데이터에 대한 검색 시간, 저장 구조 생성 시간, 최적 경로 탐색 시간 등에서 H-STCA를 사용한 스냅샷 클러스터링 방법, 기존의 시공간 인덱스 방법, 스냅샷 방법과의 성능평가에 대하여 설명한다. 성능평가 결과로 H-STCA를 사용한 스냅샷 클러스터링 방법은 기존의 시공간 인덱스 방법이나 스냅샷 방법 보다 이동 객체의 개수가 증가하면 할수록 성능 향상이 더욱 큰 것으로 나타났다.

  • PDF

효율적인 비디오 시퀀스 정합 알고리즘 (An Efficient Video Sequence Matching Algorithm)

  • 김상현;박래홍
    • 대한전자공학회논문지SP
    • /
    • 제41권5호
    • /
    • pp.45-52
    • /
    • 2004
  • 디지털 미디어의 증가로 비디오 시퀀스를 효율적으로 정합하기 위한 다양한 알고리즘이 제안되었다 기존의 비디오 검색 알고리즘에서는 주로 프레임 단위의 질의에 관한 검색 알고리즘이 연구되었으나 비디오 시퀀스 단위의 질의에 관한 정합 알고리즘 연구는 미진하였다. 본 논문에서는 비디오 시퀀스 질의에 관한 효율적인 비디오 색인과 검색 알고리즘을 제안한다. 시퀀스 정합의 정확도와 성능 향상을 위하여 연속되는 프레임의 히스토그램간의 유사도 함수로 커쉬함수를 사용하였으며 기존의 방법에 비해 높은 성능을 나타내었다. 비디오 샷들로부터 추출된 키프레임들은 샷묶음 뿐만 아니라 비디오 시퀀스 정합이나 브라우징에도 사용되며 여기서 키프레임은 이전 프레임들과 중요한 차이를 보이는 프레임을 나타낸다. 몇가지 키프레임 알고리즘이 제안되었고 적절한 유사도 측정을 통해 샷경계 검출과 유사한 방법으로 키프레임 추출이 가능하다. 본 논문에서는 누적된 커쉬함수를 사용하여 효과적으로 키프레임을 추출하는 알고리즘을 제안하고 기존의 방법들과의 성능을 비교한다. 비디오 시퀀스 정합은 키프레임간의 유사도 측정에 의해 수행될 수 있다 본 논문에서는 추출된 키프레임의 정합 효율을 향상 시키기 위하여 커쉬함수와 하우스도르프 거리를 사용하였다. 몇가지 실험 영상을 이용한 실험결과 제안한 방법은 기존의 방법에 비해적은 계산량으로 높은 정합 성능을 보였다.

정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구 (Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process)

  • 정영미;이용구
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.125-145
    • /
    • 2005
  • 이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 $92\%$의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 $67\%$ 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 $39.6\%$의 정확률을 보였고, EM 알고리즘 통합 검색이 약 $36\%$의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 $37\%$와 비교하면 나이브 베이즈 통합 검색은 약 $7.4\%$의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 $3\%$의 성능 저하율을 보였다.

클러스터 환경에서 GeoSensor 스트림 데이터의 집계질의의 정확도 향상을 위한 이중처리 부하제한 기법 (A Dual Processing Load Shedding to Improve The Accuracy of Aggregate Queries on Clustering Environment of GeoSensor Data Stream)

  • 지민섭;이연;김경배;배해영
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.31-40
    • /
    • 2012
  • 인간의 삶을 돕는 유비쿼터스 환경에서 GeoSensor의 다양한 센서 데이터들을 다루는 u-GIS DSMS의 연구가 진행되고 있고 그에 따른 고가용성 서비스를 제공하기 위한 클러스터 시스템이 대두되고 있다. GeoSensor에 의해 수집되는 데이터는 폭발적으로 발생되는 특징을 가지고 있다. 이러한 특징은 서버의 제한된 메모리로 인하여 주어진 메모리를 초과하는 현상과 데이터가 손실되어 질의 정확도가 떨어지는 현상이 발생한다. 이를 해결하기 위해 부하제한 기법들이 활발히 연구되고 있다. 하지만 기존의 기법들은 단일 서버환경에서의 기법들로써 필터링을 통해 부하가 발생한 큐의 튜플들을 특별한 기준에 의해 드롭하는 방식이다. 그렇기 때문에 집계질의와 같은 튜플 삭제에 민감한 질의의 정확도를 만족시키기 어렵다. 본 논문에서는 GeoSensor 스트림 데이터의 클러스터링 환경에서 집계질의의 정확도 향상을 위한 이중처리 부하제한 기법을 제안한다. 본 기법은 두 노드가 고가용성을 위해 이중화 되어있는 스트림 데이터의 환경을 이용한다. 같은 스트림의 데이터를 공유하고 있는 특성을 이용해 두 노드에서 하나의 스트림의 데이터를 나누어 처리한다. 이때 슬라이딩 윈도우 단위로 두 노드 간 스트림 데이터를 동기화한다. 그리고 각 노드에서 처리된 결과를 다시 병합하는 방식이다. 성능평가를 통해 기존 기법들과 달리 튜플의 손실 없이 집계질의의 질의 정확도가 향상된 결과를 얻을 수 있었다.

다중점 적합성 피드백방법을 이용한 영역기반 이미지 유사성 검색 (Region Based Image Similarity Search using Multi-point Relevance Feedback)

  • 김덕환;이주홍;송재원
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.857-866
    • /
    • 2006
  • 질의 이미지의 시각적 특징이 사용자의 상위 수준 개념을 잘 표현하지 못하기 때문에 이미지 검색 시스템의 성능은 보통 매우 낮다. 의미적으로 유사한 이미지들이 매우 다른 시각적 특징을 보일 수도 있으며 따라서 여러 개의 군집에 분산될 수 있다. 본 논문에서는 영역기반 이미지 검색과 군집-합병을 이용한 새로운 적합성 피드백 방법을 결합한 내용기반 이미지 검색 방법을 제안한다. 주요 목표는 의미적 차이를 줄이기 위해 의미적으로 관련된 군집들을 찾는 것이다. 제안된 방법은 영역기반 군집 과정과 군집-합병 과정으로 이루어진다. 적합한 이미지들의 모든 분할된 영역들을 의미적으로 관련된 계층적인 군집으로 구성한다. 잠재된 군집의 개수를 결정하고 근접한 군집들을 합병한 후 최종 군집의 대표점들로 다중 질의를 표현한다. 군집-합병 과정에서 군집의 개수를 찾고 고차원에서 특이점 문제를 해결하기 위하여 호텔링의 $T^2$ 대신에 v개의 주성분을 이용하는 $T_v^2$를 적용하였으며 $T^2$의 성능과 $T_v^2$의 성능의 차이가 없음을 보인다. 실험 결과는 제안된 방법이 내용기반 이미지 검색 시스템의 성능을 개선하는 데 효율적임을 보여준다.

내용 기반 음악 정보 검색을 위한 음악 구성 형식을 고려한 대표 선율의 추출 및 색인 (Extraction and Indexing Representative Melodies Considering Musical Composition Forms for Content-based Music Information Retrievals)

  • 구경이;임상혁;이재헌;김유성
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.495-508
    • /
    • 2004
  • 최근 내용 기반 음악 정보 검색 시스템에서는 사용자의 응답 시간을 단축시키기 위해 음악의 대표성을 갖는 선율을 추출하여 색인하고, 검색시 이를 이용한다 음악에서 대표성을 갖는 선율은 해당 음악을 대표하여 사용자가 기억하고 있으며, 사용자가 질의 선율로 사용할 가능성이 높아야 한다. 그러나, 기존의 내용 기반 음악 정보 검색 시스템에서는 음악 구성 형식을 고려하지 않기 때문에 음악 구성 형식에 따라 반복, 대조되는 선율들을 해당 음악을 대표하는 선율로 추출하지 못한다. 본 논문에서는 해당 음악을 대표하는 선율을 추출하기 위하여 한 음악에서 음악 구성 형식을 반영하여 일정한 유사도내에서 반복되는 선율들을 해당 음악의 반복 주제 선율로 추출한다. 또한, 사용자가 일반적으로 인지하는 첫 동기 선율과 절정 선율에 해당되는 선율들을 인식하여 대표 선율에 추가한다. 본 논문에서 제안된 시스템의 성능을 평가하기 위해 프로토타입을 구현하고, 다른 선을 색인과 비교 실험하였다. 실험 결과, 대표 선율 색인은 전체 동기를 색인한 경우에 비해 34%의 적은 저장 공간으로 색인을 구성하여 사용자의 응답 시간을 단축시켰다. 또한, 반복 주제 선율만으로 색인한 경우에 비해 사용자가 질의 가능성이 높은 첫 동기 선율, 절정 선율 등을 대표 선율로 색인하기 때문에 추가적으로 20의 색인 공간이 필요하였으나, 다양한 사용자의 질의 선율에 대해 검색의 정확성을 증진할 수 있음을 보였다.

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

Trie 구조를 이용한 비디오 인덱스 생성 및 검색 (Video Index Generation and Search using Trie Structure)

  • 현기호;김정엽;박상현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.610-617
    • /
    • 2003
  • 비디오 데이타베이스에서 유사도 정합은 비디오 클러스터링과 비디오 라이브러리 등과 같은 많은 새로운 응용분야에서 중요성이 증가하고 있다. 대용량 데이타베이스에서 효과적인 접근을 제공하기 위하여 다양한 공간과 시간에 대한 특징치를 이용한 비디오 인덱싱 분야의 많은 연구노력이 있어왔다. 그러나 대부분의 기존 방법들은 순차적인 정합방법 또는 메모리 기반의 역 파일 기법 등에 의존하므로 대용량 데이타베이스에는 적합하지 않다. 이러한 문제를 해결하기 위하여 본 논문에서는 효과적이고 스케일 조정가능한 인덱싱 기법을 제안하기 위하여, 문자열 정합을 위해 제안된 trio를 인덱스 구조로 이용하였다. 인덱스 구성을 위하여 윈도우 순서 휴리스틱을 이용하여 각 프레임을 기호 시퀀스로 변환하고, 기호 시퀀스의 집합으로부터 디스크 상주 trio를 구성하였다 질의 처리를 위하여 trio 상에서 깊이-우선 검색과 시간 축분할을 실시하였으며, 제안한 방법의 성능을 검증하기 위하여 실제와 합성 데이터 집합에 대한 실험을 수행하였다. 제안한 방법은 지속적으로 순차적 스캔 방법보다 우수한 성능을 보였고, 성능이득은 대용량 비디오 데이타베이스에서도 유지되었다.

VQ를 이용한 영상의 객체 특징 추출과 이를 이용한 내용 기반 영상 검색 (Representative Feature Extraction of Objects using VQ and Its Application to Content-based Image Retrieval)

  • 장동식;정세환;유헌우;손용준
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권6호
    • /
    • pp.724-732
    • /
    • 2001
  • 내용 기반 영상 검색을 위해 본 연구에서는 VQ(Vector Quantization)을 이용하여 영상을 구성하는 주요 객체들의 특징 추출 방법을 제안한다. 내용 기반 영상 검색 시스템에서 사용되는 영상의 주요특징으로는 색상, 절감, 형태 및 영상을 구성하고 있는 객체들의 공간적 위치 등이 있다. 이 중 본 논문에서는 일반적인 색상 및 질감 특징 추출방법과 더불어 VQ 멕터 클러스터링 알고리즘을 이용하여 정지영상을 구성하고 있는 객체들의 대표 색상과 질감 특징을 빠르게 추출하고 이를 내용 기반 검색에 이용함으로써 정지영상의 내용에 근거한 검색을 하였고 객체 단위 검색을 함으로써 객체의 위치, 회전 및 크기 변화에 무관한 검색을 가능케 했다. 연구의 실험 결과 VQ를 이용함으로써 대표특징치 추출시간을 줄일수 있었고 검색시 색상과 질감 특징의 가중치를 각각 0.5, 0.5로 주는 것이 가장 높은 검출율을 보였으며, ‘사람’영상에 제한한 방법을 적용한 경우 90%의 검출율을 보였다.

  • PDF