• Title/Summary/Keyword: 키워드 질의

검색결과 278건 처리시간 0.028초

관계형 데이터베이스에서의 시맨틱 기반 키워드 탐색 시스템 (Semantic-based Keyword Search System over Relational Database)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.91-101
    • /
    • 2013
  • 키워드의 모호성은 효율적인 키워드 탐색에 있어서 일반적인 이슈가 되어왔는데, 이 모호성은 탐색결과의 신뢰성에 큰 영향을 줄 수 있으며, 기본적으로 질의에 사용된 용어 자체가 가지는 문맥상 의미의 모호함에 기인한다. 질의 자체의 모호함뿐만 아니라, 사용자들이 그 탐색 결과를 적절하게 해석하기 위해 결과에 나타나는 키워드간의 관계도 중요하므로 명확하게 명시 되어야 한다. 이 논문에서는 기존의 질의 용어와 스키마 용어/인스턴스간의 키워드 매핑기법을 적용하여 키워드 탐색의 모호성을 해결한다. 용어간의 매핑에서는 질의 키워드와 스키마 용어간의 구문적 유사성은 물론 시맨틱 유사성까지 고려하기 때문에 기존의 시스템에 비해 매핑과 정밀도가 50% 이상 상승하는 결과를 얻을 수 있다. 탐색결과에 나타나는 용어간의 불분명한 관계를 점 더 명확하게 나타내기 위하여 시맨틱 웹 기술을 적용하여 키워드간의 의미 있는 관계를 더 많이 지식베이스 내에서 찾을 수 있도록 하였다.

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

유사 단어 커뮤니티 기반의 질의 확장 (Query Expansion based on Word Sense Community)

  • 곽창욱;윤희근;박성배
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1058-1065
    • /
    • 2014
  • 질의 확장은 입력된 질의와 관련된 키워드를 사용자에게 제시하여 검색 활동에 도움을 주는 방법이다. 최근에는 사용자가 검색한 내용에서 군집화 방법을 이용하여 도메인을 찾고 키워드를 제시하는 연구가 많이 이루어졌다. 하지만 군집화 방법은 군집의 개수를 정해야하기 때문에 다양한 도메인을 나타내는데 적절하지 않다. 따라서 본 논문은 커뮤니티 인지 알고리즘으로 검색 문서에서 질의마다 다양한 수의 도메인을 찾고 키워드로 선택하여 제시하는 방법을 제안한다. 이를 위해 사용자가 검색한 결과 중 상위 30개 문서를 대상으로 단어를 추출하여 그래프 기반의 커뮤니티를 만들고, 각 커뮤니티에서 키워드를 추출하여 이를 질의 확장에 이용하였다. 본 논문에서 제안한 방법은 구글 검색 엔진과 검색된 문서의 tf-idf를 이용한 키워드 추천 방법과 비교하였다. 제안한 방법이 다른 비교 대상들에 비해 더 다양한 키워드를 추천할 수 있었다.

TMDR 기반의 키워드 모호성 해결을 위한 질의 기법에 관한 연구 (The study of Query Method for keyword disambiguation based on TMDR)

  • 정계동;황치곤;신효영;최영근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.177-179
    • /
    • 2010
  • 키워드의 모호성으로 인한 검색 결과가 부정확하게 되는 문제를 해결하기 위한 질의기법을 제안한다. 제안하는 질의 기법은 TMDR을 이용한다. TMDR은 로컬 데이터베이스를 통합하기 위한 스키마 정보의 통합 관리하기위한 MDR과 데이터 접근을 위해 온톨로지 지식 저장소로 토픽맵으로 구성된다. 토픽맵은 연관관계 분석을 통한 데이터 모호성 해결을 지원한다. 이를 이용하여 기존 시스템의 이질적 문제를 해결한다. 토픽맵은 지식을 제공하고, 지식 간의 관계성을 제공하므로 키워드의 모호성을 해결할 수 있다. 본 논문에서는 이러한 TMDR을 이용하여 키워드의 모호성과 기존 시스템의 이질적 환경을 적응하기 위한 질의기법을 제안한다.

정보검색시스템에서 조인 시퀀스 분리성 기반 논리곱 불리언 질의 최적화 (Conjunctive Boolean Query Optimization based on Join Sequence Separability in Information Retrieval Systems)

  • 박병권;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권4호
    • /
    • pp.395-408
    • /
    • 2004
  • 논리곱 불리언 질의는 질의에 포함된 키워드들이 모두 나타나는 텍스트 문서들을 검색하는질의로서, 정보검색 시스템에서 가장 널리 사용되는 질의이다. 논리곱 불리언 질의는 검색의 정확도를 높이기 위하여 많은 수의 키워드로 구성된 긴 질의를 사용한다. 이 경우. 키워드 처리 순서가 성능에 크게 영향을 미친다. 기존 정보검색시스템에서는 휴리스틱에 의존하여 키워드 처리 순서를 결정하므로 최적을 보장하지 못한다. 동적 프로그래밍과 같은 기존의 데이타베이스 질의 최적화 알고리즘은 복잡도가 지수적으로 증가하므로(Ο(n2$^{n-1}$)), 키워드 수가 많은 논리곱 불리언 질의에는 적합하지 않다. 본 논문에서는 조인시퀀스 분리성이라는 새로운 개념에 기반한 논리곱 불리언 질의 최적화 알고리즘을 제안한다. 조인 시퀀스 분리성이란 조인에 참여하는 릴레이션들이 어떤 조건을 만족할 경우, 최적 조인 시퀀스가 두 개의 서브 시퀀스로 분리된다는 성질이다. 이 성질을 활용하면 Ο(nlogn)만에 최적 조인 시퀀스를 구할 수 있다. 본 논문에서는 이러한 조인 시퀀스 분리성의 개념을 정형적으로 정의하고 이에 기반한 질의 최적화 알고리즘의 최적성을 이론적으로 증명한다. 그리고, 제안한 질의 최적화 알고리즘의 성능 평가를 위해, 비용 모델을 사용하여 다양한 시뮬레이션을 수행한다. 그 결과, 제안한 알고리즘의 성능이 기존의 휴리스틱 기반 질의 최적화 알고리즘들에 비해 100배 이상 우수함을 보인다. 또한, 동적 프로그래밍 알고리즘에 비해 질의 최적화 시간 면에서 기하 급수적으로 우수함을 보인다(키워드 개수가 10 개일 경우 600배 이상 우수함).

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

의미 기반의 XML키워드 검색을 위한 효율적인 인덱스 구조 (An Efficient Index Structure for Semantic-based XML Keyword Search)

  • 이형동;김성진;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.513-525
    • /
    • 2006
  • XML 키워드 검색에서의 검색 결과는 일반적으로 질의 키워드를 모두 포함하는 원소 중 가장 구체적 원소들로 정의된다. 키워드 검색의 정확도 향상을 위하여 XML 원소의 레이블과 온톨로지, 개념모델, 시소러스 둥의 의미 정보가 사용되고 있다. 본 논문에서는 의미 정보를 이용하여 검색 결과로 반환 가능한 개념들이 정의되고 사용자가 검색하려는 개념이 해석 가능할 경우 효율적 질의 처리를 위한 계층 인덱스를 제안한다. 계층 인덱스는 각 키워드 포스팅의 XML 원소들을 원소가 속한 개념들의 상하 관계에 따라 구별하여 저장하고, 검색 결과 산출 가능성이 있는 개념에 속한 원소들만을 선별적으로 읽어서 제한된 조합으로 질의 결과 후보가 되는 최소 공통 선조들을 산출할 수 있도록 한다. 본 논문에서는 계층 인덱스의 구성 원리와 구성 방법, 계층 인덱스를 이용한 질의 처리 방법을 기술한다. DBLP의 XML문서와 INEX2003의 XML 문서 집합을 이용한 실험에서 의미 기반 계층 인덱스는 우수한 성능을 나타내었다.

관계형 데이터 스트림에서 키워드 검색을 위한 질의 최적화 (Query Optimization for Keyword Search on Relational Data Stream)

  • 황진호;김학수;김종진;이승미;손진헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.360-363
    • /
    • 2008
  • 최근 관계형 데이터 스트림에서 키워드 검색에 관한 연구가 진행되고 있다. 키워드 검색을 통해 사용자는 시스템의 복잡한 내부 데이터 스키마나 질의언어에 대한 지식이 없이도 데이터 스트림에서 정보 검색이 가능하다. 하지만, 빈번하고 동적으로 변화하는 특성을 지닌 데이터 스트림에서 수행되는 연속 질의 처리를 위해서 보다 효과적인 질의 최적화 방안이 요구된다. 따라서, 우리는 본 논문을 통해 계층적 클러스터링을 이용하여 중간결과 공유의 최대화를 통한 질의 최적화를 방안을 제안한다.

XML의 RDF 변환과 저장 및 질의 처리에 관한 연구 (The Study of Storing and Query Processing Strategy based on Transition of XML to RDF)

  • 김연희;김병곤;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2003
  • 웹 상의 데이터 표현 및 교환의 표준으로 각광받는 XML은 논리적 구조와 내용 정보를 이용하여 보다 정확한 검색이 가능하다. 그러나 더욱 빠른 속도로 증가하는 많은 양의 데이터에 대해 보다 정확하고 풍부한 검색을 하기 위해서 메타데이터를 활용하는 방법이 고려되었고, RDF와 같은 메타데이터 기술 언어들에 대한 연구가 많이 이루어지고 있다. RDF는 XML의 문법 구조를 이용하여 작성되므로 XML 문서를 RDF 형태로 작성한다던가, 약간의 수정을 통해 기존 XML 문서를 RDF 형태로 변환하는 것이 가능하다. XML의 RDF 변환은 여러 이점 때문에 앞으로 활성화될 가능성이 크기 때문에 RDF의 특성을 고려한 저장 및 검색에 대한 연구가 필요하다. 따라서 본 논문에서는 XML을 기본적인 RDF 형태로 변환하는 기본적인 규칙을 소개하고 변환된 RDF 문서를 위한 저장 구조를 제안한다. 제안한 저장 구조는 기존 웹 애플리케이션과의 쉬운 연동을 위하여 관계형 데이터베이스를 기반으로 구성되며, 리소스/속성/값의 RDF 기본 구조를 고려한 세 종류의 테이블로 구성된다. 또한 본 논문에서는 RDF 문서에 대한 키워드 질의 처리를 고려하여, 질의 처리 결과의 단위를 리소스로 정의한다. 그리고 주어진 키워드들에 대한 질의 처리 결과로 반환된 리소스들 간의 중요도를 평가하기 위하여 키워드간의 근접도, 키워드 내포 정도, 다양한 속성 관계를 맺고 있는 다른 리소스들을 고려한 랭킹 평가 기법을 제안한다.

  • PDF

키워드 패턴을 이용한 질의유형 분류 시스템 구현 (Implementation of a Question Type Classification System using Keyword Patterns)

  • 안혁주;김민경;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.813-815
    • /
    • 2015
  • 질의응답 시스템에서 정답선택의 정확률을 향상시키기 위해 본 논문은 패턴과 휴리스틱을 기반으로 하는 질의유형 추출 시스템을 구현하는 방법을 제안한다. 질의유형은 DBPedia에서 사용하는 클래스타입을 기반으로 추출되며 질의유형에 포함하는 키워드패턴들을 수집하여 키워드패턴 데이터를 생성한다. 그 후 한국어 질의에서 많이 발생하는 유형을 분석하여 휴리스틱을 이용해 사용자가 의도한 질의 유형을 출력한다. 제안시스템은 기존 연구에 비해 구축과 수정이 쉽다는 장점이 있다.