• 제목/요약/키워드: Proximity Query

검색결과 26건 처리시간 0.027초

핵심질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법 (A Method for Precision Improvement Based on Core Query Clusters and Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제17B권5호
    • /
    • pp.399-404
    • /
    • 2010
  • 본 논문에서는 상위 검색결과 문서의 정확률을 향상시키기 위하여 핵심질의 클러스터와 단어 근접도를 이용해 재순위화하는 방법을 제안한 다. 언어모델에 의한 초기 검색결과를 상위 문서에 대해 발생한 질의어휘 조합을 기반으로 문서를 클러스터링한다. 질의어휘 조합 클러스터에 대해 질의어휘 사이의 근접도를 이용하여 핵심질의 클러스터를 선택한다. 질의의 문맥정보를 이용해 핵심질의 클러스터의 문서를 재순위화한다. 뉴스집합인 TREC AP 컬렉션에 대해 언어모델과 제안한 방법의 문서 정확률을 비교한 결과 제안방법이 언어모델에 비해 상위 100개 문서(P@100)에서 11.2% 성능이 향상되었다.

단백질 분자에 대한 proximity 연산을 위한 복셀 맵과 스피어 트리 구조 비교 (Comparison of Voxel Map and Sphere Tree Structures for Proximity Computation of Protein Molecules)

  • 김병주;이정은;김영준;김구진
    • 한국멀티미디어학회논문지
    • /
    • 제15권6호
    • /
    • pp.794-804
    • /
    • 2012
  • 단백질 분자에 대해 공간 상의 한 점으로부터의 최소 거리를 계산하거나, 임의의 점에 대한 충돌을 감지하는 등의 proximity query는 분자에 대한 기하학적 연산을 수행하기 위해 매우 중요한 기본 연산이다. Proximity query의 계산 시간 효율성은 분자가 어떤 자료구조로 표현되는가에 따라 크게 달라질 수 있다. 본 논문에서는 GPU 가속을 이용하여 효율적으로 proximity 연산을 수행하기 위한 기법을 제안하고자 한다. 분자에 대응하는 구의 집합에 대해 복셀 맵 (voxel map)과 스피어 트리 (sphere tree) 를 사용한 자료구조를 제안하며 각 자료구조에 대응되는 알고리즘을 제시한다. 또한, 1,000개~15,000개의 원자를 포함하는 분자에 대한 실험을 통해 두 자료구조의 성능이 기존 자료구조에 비해 최소 3배에서 최대 633배 향상되었음을 보인다.

질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장 (Query Expansion based on Word Graph using Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.37-42
    • /
    • 2012
  • 잠정적 적합성 피드백모델은 초기 검색 결과의 상위에 순위화된 문서를 적합 문서라 가정하고, 상위문서에서 빈도가 높은 어휘를 확장 질의로 선택한다. 빈도수를 이용한 질의 확장 방법의 단점은 문서 안에서 포함된 어휘들 사이의 근접도에 상관없이 각 어휘를 독립적으로 생각한다는 것이다. 본 논문에서는 어휘빈도를 이용한 질의 확장을 대체할 수 있는 어휘 근접도를 반영한 단어 그래프 기반 질의 확장을 제안한다. 질의 어휘 주변에 발생한 어휘들을 노드로 표현하고, 어휘들 사이의 근접도를 에지의 가중치로 하여 단어 그래프를 표현한다. 반복된 연산을 통해 확장 질의를 선택함으로써 성능을 향상시키는 기법을 제안한다. 유효성 검증을 위해 웹문서 집합인 TREC WT10g 테스트 컬렉션에 대한 실험에서 언어모델 보다 MAP 평가 기준에서 6.4% 향상됨을 보였다.

트위터를 이용한 질의어 관련 이슈 탐지를 위한 인접도 행렬 기반 연관 어휘 추출 (Related Term Extraction with Proximity Matrix for Query Related Issue Detection using Twitter)

  • 김제상;조효근;김동성;김병만;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권1호
    • /
    • pp.31-36
    • /
    • 2014
  • 트위터와 페이스북 등의 SNS(Social Network Service)는 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하기 좋은 지식원이다. 본 논문에서는 검색 질의어에 관련된 이슈나 화제를 질의어에 대한 연관 어휘로 보고, 이를 트위터에서 추출하기 위한 방법을 제안한다. 제안하는 방법에서는 질의어와 연관성이 높은 단어는 질의어와 가까운 위치에서 자주 발생한다고 가정하고, 단어 간 거리에 반비례하고 공기 빈도에 비례하는 단어 간 인접도의 합으로 단어간 연관도를 구한다. 구해진 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다. 제안한 방법에서는 네트워크의 특성을 분석하여 복합어를 손쉽게 탐지할 수 있다.

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

순서를 고려하는 k-키워드 근접도 문제를 위한 빠른 알고리즘 (A Fast Algorithm for the k-Keyword Ordered Proximity Problem)

  • 김진욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.281-288
    • /
    • 2010
  • 웹 검색 엔진들은 질의에 대한 문서의 적합성을 판단하기 위한 방법의 하나로 근접도를 사용한다. 근접도는 키워드의 순서를 고려하지 않는 방식과 순서를 고려하는 방식이 모두 연구되어왔다. 본 논문에서는 k개 키워드의 순서를 모두 고려하는 근접도 문제를 위한 O(n) 시간 알고리즘을 제시한다. 이때, n은 k개의 키워드가 문서에 나타난 전체 횟수이다. 또한 실험을 통해 이전 연구 결과보다 k=2인 경우는 약 1.2배의 속도 향상을, k=5인 경우는 3배 이상의 속도 향상이 있음을 보인다.

An Efficient Collision Queries in Parallel Close Proximity Situations

  • Kim, Dae-Hyun;Choi, Han-Soo;Kim, Yeong-Dong
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.2402-2406
    • /
    • 2005
  • A collision query determines the intersection between given objects, and is used in computer-aided design and manufacturing, animation and simulation systems, and physically-based modeling. Bounding volume hierarchies are one of the simplest and most widely used data structures for performing collision detection on complex models. In this paper, we present hierarchy of oriented rounded bounding volume for fast proximity queries. Designing hierarchies of new bounding volumes, we use to combine multiple bounding volume types in a single hierarchy. The new bounding volume corresponds to geometric shape composed of a core primitive shape grown outward by some offset such as the Minkowski sum of rectangular box and a sphere shape. In the experiment of parallel close proximity, a number of benchmarks to measure the performance of the new bounding box and compare to that of other bounding volumes.

  • PDF

문서관리시스템을 위한 질의처리기 설계 및 구현 (Design and Implementation of a Query Processor for Document Management Systems)

  • 우종원;윤승현;유재수
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1419-1432
    • /
    • 1999
  • 문서관리시스템은 문헌 정보들에 대한 정보 검색 및 관리를 효율적으로 지원하기 위한 시스템이다. 이러한 문서관리시스템은 하나의 테이블만으로 정보들을 관리하기 때문에 기존 데이터 관리 시스템에서 사용되는 조인 연산과 뷰 연산 등 많은 비용이 소요되는 연산을 제공할 필요가 없다. 더불어 문서관리시스템은 기존 데이터베이스관리시스템에서는 제공되지 않았던 새로운 연산이 요구된다. 본 논문은 문서관리시스템에서 자료의 구조 정의, 처리 등을 표현할 수 있는 효과적인 데이터 언어를 정의한다. 특히 문서 검색에 필요한 Ranking 연산, Proximity 연산을 제공하도록 정의하고, 정의된 데이터 언어로 작성된 질의를 효율적으로 처리하기 위한 질의 처리기를 설계하고 구현한다. 구현된 문서관리시스템을 위한 질의처리기는 기존 관계형 데이터베이스 관리 시스템의 질의 처리기를 문서관리시스템의 질의 처리기로 사용할 때 나타나는 성능저하 문제점을 해결할 뿐만 아니라 문서관리시스템에서 필요로 하는 새로운 연산을 제공한다.

  • PDF

Finding Top-k Answers in Node Proximity Search Using Distribution State Transition Graph

  • Park, Jaehui;Lee, Sang-Goo
    • ETRI Journal
    • /
    • 제38권4호
    • /
    • pp.714-723
    • /
    • 2016
  • Considerable attention has been given to processing graph data in recent years. An efficient method for computing the node proximity is one of the most challenging problems for many applications such as recommendation systems and social networks. Regarding large-scale, mutable datasets and user queries, top-k query processing has gained significant interest. This paper presents a novel method to find top-k answers in a node proximity search based on the well-known measure, Personalized PageRank (PPR). First, we introduce a distribution state transition graph (DSTG) to depict iterative steps for solving the PPR equation. Second, we propose a weight distribution model of a DSTG to capture the states of intermediate PPR scores and their distribution. Using a DSTG, we can selectively follow and compare multiple random paths with different lengths to find the most promising nodes. Moreover, we prove that the results of our method are equivalent to the PPR results. Comparative performance studies using two real datasets clearly show that our method is practical and accurate.

RFID 태그의 색인을 위한 위치 식별자 재순서 기법 (Reordering Scheme of Location Identifiers for Indexing RFID Tags)

  • 안성우;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.198-214
    • /
    • 2009
  • RFID 태그의 시공간 이력정보는 리더에 의해 수집된 선분인 태그간격으로 모델링될 수 있으며, 태그 식별자(TID), 위치 식별자(LID), 시간(TIME)을 축으로 하는 3차원 도메인에서 색인될 수 있다. 도메인 공간에서 태그간격의 분포는 태그 위치추적 질의의 성능을 결정짓는 주요 요소이며 이는 각 도메인 좌표의 정렬에 따라 달라진다. 특히, 시간에 따라 변경되는 태그의 위치 이력을 검색하는 태그 위치추적 질의는 위치정보를 제공하는 LID가 도메인에서 정렬되는 순서에 따라 성능이 달라진다. 따라서, 색인에 저장된 태그간격의 검색 성능 향상을 위해서는 최적의 LID 순서를 결정하는 것이 필요하다. 이를 위하여 이 논문에서는 LID 간의 새로운 순서화 기준으로써 적용하기 위한 LID 근접성을 정의하고, 질의 시 함께 접근되는 태그간격을 색인에서 근접 저장하기 위한 LID 근접성 함수를 제안한다. 또한, 이를 기반으로 이미 부여된 LID의 재순서 기법을 제안한다. 성능 평가 결과 이 논문에서 제안한 LID 재순서 기법을 색인에 적용했을 때 기존의 LID 부여방식보다 월등한 질의 성능 향상을 보여주고 있다.