• 제목/요약/키워드: user query

검색결과 702건 처리시간 0.022초

2-계층 그리드 블록을 이용한 효과적인 맵리듀스 기반 스카이라인 질의 처리 기법 (An Efficient MapReduce-based Skyline Query Processing Method with Two-level Grid Blocks)

  • 유형철;정성원
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.613-620
    • /
    • 2017
  • 스카이라인 질의는 사용자들의 다양한 기준을 만족하는 데이터를 찾기 때문에 의사 결정 문제 등에서 폭넓게 사용되고 있다. 최근의 스카이라인 질의는 대용량 데이터베이스 처리를 위해 맵리듀스 프레임워크를 사용하는 연구들이 많이 진행되었으며 특히 맵리듀스에 기존의 색인 구조를 적용하는 방식으로 연구가 활발히 진행되고 있다. 스카이라인의 특징 중 하나는 원점에서 가까운 데이터일수록 더 많은 영역을 지배한다는 점이다. 하지만 기존의 색인 구조는 이와 같은 스카이라인의 특징을 반영하지 못하는 단점이 있었다. 본 논문에서는 그리드의 셀들을 스카이라인의 특징을 고려하여 묶는 그리드 블록 구조와 원점과 가까운 데이터가 없을 때도 사용 가능한 2계층 그리드 블록 구조, 그리고 2계층 그리드 블록 구조를 사용한 효율적인 스카이라인 질의 기법을 제안하였다.

시맨틱 웹 문서에 대한 키워드 검색 및 랭킹 기법 (Keyword Search and Ranking Methods on Semantic Web Documents)

  • 김연희;오성균
    • 한국위성정보통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.86-93
    • /
    • 2012
  • 본 논문에서는 시맨틱 웹에서 온톨로지와 메타데이터를 기술하는 OWL 문서를 대상으로 하는 키워드 검색 기법과 랭킹 기법을 제안한다. 제안한 키워드 검색 기법은 OWL 문서에 대한 키워드 검색 결과의 단위를 정보 리소스로 정의하고 질의 키워드의 범위를 클래스와 프로퍼티의 이름은 물론 리터럴 데이터까지 확장하였다. 그리고 클래스나 프로퍼티의 계층 관계, 동등 관계 등 OWL 문서에 정의되어 있는 기본적인 추론 요소들을 고려하여 직접 기술되어 있지 않지만 새롭게 유도되는 정보도 키워드 검색에 반영하였다. 또한 키워드를 통해 간접적으로 의미적 관계를 맺고 있는 정보 리소스에 대한 검색이 가능하기 때문에 질의 키워드와 관련이 있는 많은 수의 정보 리소스들을 검색할 수 있다. 제안한 랭킹 기법은 OWL 문서의 특성을 고려하여 다양한 요소를 순위 결정에 참여시킴으로써 사용자의 검색 만족도를 높일 수 있다. 본 논문에서 제안한 키워드 검색 기법과 랭킹 기법은 방송 프로그램과 같은 디지털 콘텐츠의 검색 등 다양한 분야에서 활용될 수 있다.

YIN 피치 정보를 이용한 음악 정보 검색 시스템 구현 (Implementation of Music Information Retrieval System using YIN Pitch Information)

  • 석수영;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1398-1406
    • /
    • 2007
  • 최근 급격히 증대되고 있는 멀티미디어 데이터를 사용자에게 편하고 효과적으로 제공하는 것은 내용 기반 정보 시스템의 핵심적인 요소이다. 허밍을 이용한 음악 검색 시스템은 사용자가 찾고자 하는 음악의 선율 중 일부분을 직접 허밍으로 입력하여 데이터베이스로부터 음악을 검색할 수 있는 편리한 방법이다. 일반적인 음악 정보 검색 시스템은 고정도의 피치 검출 방법을 필요로 하고 있으나 허밍의 입력으로부터 정확한 피치 정보를 검출하기에는 어려움이 있다. 본 논문에서는 시스템의 성능 향상을 위해 기본적인 고정도 피치 정보 추출을 위해 신뢰도가 적용된 YIN 파라미터의 이용을 제안하고, 이를 적응하여 개발한 허밍을 이용한 음악 정보 검색 시스템에 대해 소개한다. 개발된 시스템은 음고, 음장 정보 및 에너지에 가중치를 두어 연속 DP 매칭을 수행하여 시스템의 성능을 향상시켰다. 성능평가를 위해 실시한 검색 실험결과 기존의 음고 정보 추출방법 중 캡스트럼 기반 다중 피치 검출 방법에 비해 본 논문에서 제안한 신뢰도를 적용한 YIN 피치 검출방법이 1위 결과에서 9.1%, 10위 결과에서는 7.2% 성능 향상을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 또한 전체 시스템의 성능은 155곡을 대상으로 10위까지의 결과에서 92.8%의 성능을 나타내었다.

  • PDF

의견 어구의 구문 관계를 고려한 트위터 의견 검색 (Opinion Retrieval in Twitter Considering Syntactic Relations of Sentiment Phrase)

  • 김윤성;양민철;이승욱;임해창
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.492-497
    • /
    • 2014
  • 본 연구에서는 대중적인 소셜 네트워크 서비스 중 하나이며 많은 사람들이 다양한 의견을 공유하는 트위터를 대상으로 질의어(또는 주제어)에 적합한 의견을 지닌 트윗을 검색하는 방법론을 제안한다. 기존의 의견 검색 시스템은 의견을 지닌 구절이 주어진 질의어나 화자와 관련이 없음에도 불구하고 그런 구절의 유무를 중요한 요소로 여겼다. 이와 같은 문제를 해결하기 위하여 본 연구에서는 1) 의견 어구-질의어 관계, 2) 의견 어구-화자 관계, 그리고 3) 의견 어구의 의존 구문 역할 등의 구문 요소를 반영하는 방법을 고안하였다. 또한, 의견을 가진 트윗을 검색하기 위하여 질의어와의 적절성, 텍스트 정보, 사용자 정보, 트위터 특화 자질에 기반한 랭킹 학습 방법을 이용하였다. 실제 데이터를 이용한 실험 결과, 본 시스템은 기존 연구들보다 더 좋은 성능을 보이고 있다.

색인파일 기반의 질의어 확장용 지식베이스 구축에 관한 연구 (A Study of Designing the Knowledge Base System for the Query Extension by Index File)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제40권2호
    • /
    • pp.139-159
    • /
    • 2009
  • 본 연구의 목적은 이용자 지향적인 정보검색을 수행하기 위한 질의확장용 지식베이스를 구축하는 것이다. 이를 위해 개념기반 정보검색방법과 통계적 기반 정보검색방법을 이용한 지식베이스 구축에 관련된 다양한 이론 연구를 수행하였다. 이들 지식베이스 구축방법에 있어서 공통된 가설은 연관용어의 출현은 문헌집합내의 동시출현 빈도임을 재확인하였고, 이 가설을 근거로 색인파일 알고리즘과 부울 논리의 And 연산자를 이용하여 질의확장용 지식베이스를 구축하였다. 본 지식베이스의 실험 주제는 교육학이며, 교육학개론이란 단행본을 이용하여 색인어들의 연관용어를 자동으로 제시해줄수 있는 실험용 지식베이스를 구축하였다. 실험용 지식베이스는 자연어색인방법과 통제어색인방법을 이용하여 두 개의 지식베이스를 구축해 각 지식베이스 시스템의 질의확장 성능에 대한 평가 작업을 수행하였다.

  • PDF

온라인 이용자 피드백을 사용한 정보필터링 시스템의 수정질의 최적화에 관한 연구 (A Study on Query Refinement by Online Relevance Feedback in an Information Filtering System)

  • 최광;정영미
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.23-48
    • /
    • 2003
  • 이 연구의 목적은 대량의 최신정보를 제공하는 정보필터링 시스템에서 이용자 피드백에 의해 수정질의를 자동생성하여 재검색을 수행함으로써 검색 성능을 최적화할 수 있는 방안을 찾는 데 있다. 이용자가 입력한 초기질의를 사용하여 정보필터링 시스템이 검색한 문헌에 대해 이용자가 적합성 여부를 온라인으로 입력하도록 하고, 이 피드백 결과를 토대로 '중복제거법'과 ‘저빈도제거법' 두 가지 방법에 의해각각 17개의 수정질의를 생성하여 재검색한 결과를 초기 검색결과와 비교 분석하였다. 수정질의는 각각의 방법마다 17개 패턴의 불논리 질의형태를 미리 만든 다음 초기질의에 디스크립터와 분류기호를 결합하여 생성하였으며, 재검색 결과에 대한 적합성 평가를 통해 최적의 수정질의식을 도출하였다.

유비쿼터스 환경에서 실시간 센서 데이터를 위한 XML 질의언어 처리 엔진 (An XQuery Processing Engine for Real-Time Sensor Data in Ubiquitous Environments)

  • 임형준;김재훈;이규철
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.1-19
    • /
    • 2010
  • 최근에 유비쿼터스나 전자상거래와 같은 환경에서 발생하는 실시간 데이터를 처리해야 하는 요구가 늘어나고 있다. 유비쿼터스 환경에서 사용되는 센서 데이터는 그 크기가 작고 XML 문서로 표현 되어 있으며 대량으로 발생하는 특징이 있다. 이러한 대량의 센서 데이터를 처리하기 위한 효율적인 방법이 요구되고 있다. 센서 데이터에 대한 XML 질의언어(XQuery)는 주로 센서 데이터가 발생한 센서의 식별자나 표현하고자 하는 정보를 얻어오는 것과 사용자의 편의를 위한 결과 재구성으로 분류된다. 기존의 XML 질의언어 엔진들은 센서 데이터를 일괄적으로 처리하기 위한 효율적인 방법을 가지고 있지 않다. 본 논문에서는 대량의 센서 데이터들을 실시간으로 처리하기 위하여 역 경로 요약을 이용한 가지 질의(Twig Query) 처리 기법을 적용하였다. 또한, 재구성(Restructuring) 일괄 처리 기법을 개발하여 적용하였다. XMark와 RFID EPC 데이터를 이용한 성능 측정을 하고 MonetDB/XQuery와 Oracle Berkeley DB XML과의 비교 분석을 수행하였다.

시맨틱 웹 데이터의 키워드 질의 처리를 위한 인덱싱 및 저장 기법 (Indexing and Storage Schemes for Keyword-based Query Processing over Semantic Web Data)

  • 김연희;신혜연;임해철;정균락
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.93-102
    • /
    • 2007
  • 시맨틱 웹에서는 메타데이터와 온톨로지를 이용하여 질의를 처리하기 때문에 보다 정확한 검색 결과를 얻을 수 있을 뿐만 아니라 추론을 통하여 얻어진 새로운 지식도 검색 결과에 포함시킬 수 있다. 메타데이터와 온톨로지를 기술하기 위한 시맨틱 웹 언어 중 RDF와 RDF 스키마가 보편적으로 많이 활용되고 있다. 따라서 RDF와 RDF 스키마로 기술된 시맨틱 웹 언어에 대한 효과적인 검색 기법이 요구된다. 본 논문에서는 키워드 질의 처리 결과의 기본 단위를 전체 웹 문서나 부분이 아닌 정보 리소스로 정의하였다. 그리고 메타데이터와 온톨로지 정보를 모두 고려한 시맨틱 웹 환경의 키워드 질의를 3가지 유형으로 분류하고 다양한 관련 질의에 대한 처리를 효과적으로 지원하기 위하여 키워드 인덱스와 저장 구조를 제안하였다. 본 논문에서 제안한 키워드 인덱스는 질의 조건으로 주어진 키워드를 직접 포함하고 있는 리소스는 물론 의미적 관계에 의해 간접적으로 포함하고 있는 리소스에 관련된 정보를 쉽게 제공할 수 있다. 그리고 본 논문에서는 클래스와 속성의 일반적인 정보와 계층 정보를 단순한 레이블링 기법을 이용하여 표현한 후 제안된 저장 구조를 이용해 정보를 유지하여 시맨틱 웹 환경에 적합한 키위드 질의 처리를 지원하고자 한다.

  • PDF

XML 데이타 색인을 위한 경로 분할 기법 (A Path Partitioning Technique for Indexing XML Data)

  • 김종익;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권3호
    • /
    • pp.320-330
    • /
    • 2004
  • XML에 대한 질의 언어는 데이타 그래프 내의 경로를 이용하여 질의를 표현한다. 특히, 경로에 패턴 (예를 들어, 정규식)을 사용함으로써, 데이타의 구조를 정확히 알지 못하더라도 질의가 가능하도록 한다. 이때, 패턴을 이용하는 질의는 데이타 그래프의 탐색범위를 크게 넓히게 된다. 기존의 XML색인 기법은 질의의 탐색범위를 줄이기 위해 데이타 그래프 내의 서로 동일한 경로들을 하나로 묶어 작은 크기의 색인 그래프를 생성하는 방법을 이용한다. 하지만 이러한 색인들은 많은 경우 색인의 크기가 데이터 그래프의 크기만큼 증가하게 되어 질의의 탐색범위를 줄이지 못하고, 따라서 효율적인 질의 처리를 보장하지 못한다. 본 논문에서는 데이타 내에 존재하는 모든 경로를 분할(partitioning)하고 질의 처리 시 질의에 맞는 분할 영역을 빠르게 찾아낼 수 있는 색인 그래프를 제안한다. 본 논문에서 제안하는 색인 그래프는 데이터 그래프의 크기와 상관없이 색인 그래프의 크기를 조절할 수 있다. 따라서 색인 그래프의 크기를 작게 구성함으로써 색인 그래프 탐색 비용을 크게 줄일 수 있다. 본 논문에서는, 실험을 통해 기존의 그래프 기반색인 기법들보다 본 논문의 색인 기법이 보다 효율적임을 보이고 색인의 크기 변화에 따른 성능 변화에 대해 알아본다.

데이타 분석을 위한 시공간 집계 함수의 확장 (Extension of Aggregate Functions for Spatiotemporal Data Analysis)

  • 지정희;신현호;김상호;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.43-55
    • /
    • 2005
  • 시공간 데이타베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이타에 대한 저장 및 질의 수단을 제공한다. 실세계에서 "임의의 질의 윈도우 영역에서 2001년 4월부터 8원까지 농경지당 뿌려진 농약의 평균은 얼마인가\ulcorner"와 같은 질의를 할 수 있다. 이러한 집계 질의는 시간과 공간에 대한 제약을 가지고 있다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 시공간 데이타에 직접 적용하기 어려운 문제점이 있다. 따라서 이 논문에서는 시공간 특성을 가진 시공간 데이타 분석을 위한 시공간 집계 함수 stCOUNT, stSUM, stAVG, stMAX, stMIN를 제안한다. 아울러 제안된 시공간 집계함수론 적용한 부동산 관리 시스템을 통해 기존의 시간, 공간 집계함수가 분석하기 어려웠던 시공간 데이타에 대한 분석의 용이함과 응용 시스템에 맞는 질의 표현력의 개선 및 편리성을 제공함을 보였다 그리고 제안된 시공간 집계함수의 알고리즘의 성능 평가를 통해 알고리즘 성능의 타당성을 입증하였다.