• 제목/요약/키워드: similarity query

검색결과 246건 처리시간 0.026초

가변길이 그램의 역리스트 생성을 이용한 효율적인 유사 문자열 검색 기법 (An Efficient String Similarity Search Technique based on Generating Inverted Lists of Variable-Length Grams)

  • 김종익
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1275-1280
    • /
    • 2016
  • 유사 문자열 검색을 위해 기존의 기법들은 우선 후보 문자열 집합을 생성한 후에 후보 문자열을 검증하는 방법을 사용한다. 이때, 유사 문자열 검색의 성능을 결정짓는 가장 중요한 요소는 후보 생성 방법이다. 기존의 기법들은 질의 문자열로부터 고정길이 q-그램들을 선택하고, 선택된 q-그램에 해당하는 역리스트를 이용해 후보 문자열을 생성한다. 본 논문에서는 질의 문자열 내의 가변길이 그램들을 사용하여 후보 문자열을 생성할 수 있는 기법과 질의 문자열로부터 최적의 가변길이 그램들의 조합을 선택하는 동적 프로그래밍 알고리즘을 제안한다. 실험을 통해 제안하는 기법이 기존의 기법들 보다 유사 문자열 검색의 성능을 향상시킴을 보인다.

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

2계층 유사관계행렬 구축을 통한 질의 처리 (Fuzzy Query Processing through Two-level Similarity Relation Matrices Construction)

  • 이기영
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.587-598
    • /
    • 2003
  • 본 연구에서는 학술논문을 대상으로 하여 표제와 초록에 대한 2단계 색인어 유사관계행렬을 구축하였다. 동시출현빈도 기반으로 구축된 색인어 유사관계행렬은 호환관계에 따른 질의 확장으로 재현률을 유지하면서 2단계 내용기반 검색으로 정확률을 향상시키기 위한 색인구조이다. 따라서, 주제 분석을 통해 영역지식을 추출하고 이용자의 정보 요구와 영역지식을 퍼지논리 기반으로 추론하였다. 본 연구는 질의에 본질적으로 가지고 있는 용어 불일치 및 정보표현을 향상시키기 위한 연구이다.

  • PDF

Content similarity matching for video sequence identification

  • Kim, Sang-Hyun
    • International Journal of Contents
    • /
    • 제6권3호
    • /
    • pp.5-9
    • /
    • 2010
  • To manage large database system with video, effective video indexing and retrieval are required. A large number of video retrieval algorithms have been presented for frame-wise user query or video content query, whereas a few video identification algorithms have been proposed for video sequence query. In this paper, we propose an effective video identification algorithm for video sequence query that employs the Cauchy function of histograms between successive frames and the modified Hausdorff distance. To effectively match the video sequences with a low computational load, we make use of the key frames extracted by the cumulative Cauchy function and compare the set of key frames using the modified Hausdorff distance. Experimental results with several color video sequences show that the proposed algorithm for video identification yields remarkably higher performance than conventional algorithms such as Euclidean metric, and directed divergence methods.

시계열 데이터베이스에서 복수의 모델을 지원하는 모양 기반 서브시퀀스 검색 (Shape-Based Subsequence Retrieval Supporting Multiple Models in Time-Series Databases)

  • 원정임;윤지희;김상욱;박상현
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.577-590
    • /
    • 2003
  • 모양 기반 검색이란 실제 요소 값과 관계없이 질의 시퀀스와 유사한 모양을 갖는 시퀀스(서브시퀀스)를 데이터베이스 내에서 검색하여 내는 연산이다. 본 논문에서는 시계열 데이터베이스에서의 모양 기반 검색을 위한 유연성 있는 새로운 유사 모델을 정의하고, 이 유사 모델을 지원하기 위한 인덱싱 및 질의 처리 방안을 제시한다. 제안된 유사 모델에서는 정규화, 이동 평균, 타임 워핑 등 다양한 변환을 지원한다. 특히 최종 유사 정도를 계산하기 위하여 사용되는$L_p$거리 함수론 사용자가 임의로 지정하도록 함으로써 응용에서 선호하는 유사 모델을 반영할 수 있다. 또한 이러한 모양 기반 검색을 효과적으로 지원하기 위한 압축된 서브시퀀스 트리 구조를 제안하고, 이를 기반으로 하는 효율적인 질의 처리 기법을 제시한다. 실험 결과에 의하면 제안된 기법은 진의 시퀀스와 모양이 유사한 서브시퀀스들을 사용자에 의하여 선택된 거리 함수를 사용하여 성공적으로 검색할 뿐 아니라, 순차 검색과 비교하여 거리 함수 선택에 따라 수 십배에서 수 백배까지의 성능 개선 효과를 갖는 것으로 나타났다.

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

비디오의 의미검색과 예제기반 장면검색을 위한 비디오 검색시스템 (Video Retrieval System supporting Content-based Retrieval and Scene-Query-By-Example Retrieval)

  • 윤미희;조동욱
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.105-112
    • /
    • 2002
  • 비디오데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미검색기법이 요구된다. 본 논문에서는 특징 기반 검색과 주석 기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의와, SQBE(scene query by example) 질의가 가능한 비디오 검색시스템(Video Retrieval System : VRS)을 제안한다. 사용자는 SQBE 질의를 통해 장면의 검색 결과로 제시된 장면을 기반으로 객체의 추가 삭제를 통해 사용자가 원하는 좀 더 정확한 장면의 검색이 가능하다. 또한 SQBE질의를 위한 질의언어와 이 질의를 처리하기 위한 질의처리알고리즘을 제안하고 장면과 객체의 유사성 검색에 대한 성능평가를 수행했다. 제안된 시스템은 Visual C++과 Oracle을 이용하여 구현되었다.

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

물체 분할 기법을 이용한 내용기반 영상 검색 (A Content-Based Image Retrieval using Object Segmentation Method)

  • 송석진;차봉현;김명호;남기곤;이상욱;주재흠
    • 융합신호처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.1-8
    • /
    • 2003
  • 현재 사회전반에 걸쳐 급격히 증가하고 있는 멀티미디어 정보를 효율적으로 관리, 활용할 수 있는 방법이 다양하게 연구되고 있다. 본 논문에서는 정지영상 검색을 위해 사용자가 질의(query)를 요구하면 질의 물체를 배경으로부터 분할한 후 유사물체를 영상 데이터베이스 내에서 검색할 수 있는 내용기반 영상검색 시스템을 구현하였다. 질의영상이 들어오면 우선 메디안 필터링 처리를 하여 잡음 제거한 후 캐니 에지 탐지법으로 물체의 에지를 구한다. 그리고 볼록 다각형 기법을 이용하여 배경으로부터 질의물체를 분할한다. 분할된 영상으로부터 컬러 히스토그램을 구한 후 데이터 베이스내의 영상과 히스토그램 인터섹션을 하여 유사치를 구한다 또한 공간적 그레이 분포와 질감특성을 추출하기 위해 분할된 영상을 그레이 영상으로도 변환시켜 웨블릿 변환한 후 밴디드 오토코릴로그램과 에너지를 구해 유사치를 구한다. 이렇게 구한 유사치을 더해 최종 유사영상을 검색하는데 물체 분할기법을 사용함으로써 배경에 강인할 뿐 아니라 보다 정확한 물체 검색이 가능하였다.

  • PDF