• Title/Summary/Keyword: 질의 언어

Search Result 808, Processing Time 0.021 seconds

OWL-Based Semantic Search using SPARQL (OWL 기반의 SPARQL을 이용한 시맨틱 검색)

  • Ha, Sang-Bum;Han, Eun-Young;Choi, Ho-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.706-708
    • /
    • 2005
  • 시맨틱 웹의 등장으로 시맨틱 검색에 대한 관심이 높아졌다. 이에 본 논문에서는 시맨틱 웹 환경의 자원들을 이용하여 시맨틱 검색을 수행하는 검색방법을 제안한다. 기존의 SPARQL(Simple Protocol and RDF Query Language) 시맨틱 질의언어는 추론의 기능 없이 RDF(Resource Description Framework)에서 제공하는 SPO(subiect, predicate, object) 형태의 트리플 패턴 매치만을 제공한다. 본 논문의 시스템은 기존의 SPARQL질의 시스템에 시맨틱 추론기능을 추가하여 검색 결과에 효율성을 증가 시키는 것을 목적으로 한다. 본 논문에서의 시스템은 다음과 같은 특징을 갖는다. 첫째, 시맨틱 웹 환경의 온톨로지 구축을 위해서 W3C에서 온톨로지 언어로 표준화된 OWL(Web Ontology Language)를 사용하여 검색 환경을 구축한다. 둘째, 온톨로지와 메타데이터를 추론하여 시맨틱 검색을 유도하는 OWL추론기를 사용한다. 시맨틱 추론은 온롤로지의 공리(Axiom)을 충분히 활용하는 온톨로지기반 시맨틱 추론과 검색 도메인에 맞는 규칙을 활용하는 사용자 컨텍스트 기반의 시맨틱 추론으로 이루어진다. 셋째, 다양한 시맨틱 검색을 위해 W3C에서 제안되어 차세대 시맨틱 검색 질의언어로 연구중인 SPARQL을 사용한다. 이와 같은 특징은 시맨틱 검색 시스템이 시맨틱 웹 환경의 자원을 충분히 활용하는 결과를 가져온다.

  • PDF

Study on Automatic Construction and Evaluation method of Caseframe (격틀 자동구축과 격틀평가 방법에 관한 연구)

  • Choi, Yong-Seok;Lee, Ju-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.272-279
    • /
    • 1999
  • 격틀이란 동사에 대해 필요한 격들과 그 격에 알맞은 단어집합으로 이루어져 있는 것으로 명사와 동사의 의미적 호응을 표현한다. 격틀은 자연언어처리분야에서 주요한 정보로 사용할 수 있다. 의미구분이라든지 번역에서 한국어 생성, 정보검색에서 중요정보 추출 등 잘 구성한 질 높은 격틀은 여러 연구의 질을 높여줄 수 있다. 따라서, 질 좋은 격틀을 구성하기 위한 여러 노력들이 현재 이루어지고 있다. 본 논문에서는 기계 가독형 사전과 말모듬을 이용해서 자동으로 격틀을 구성한다. 자동구성 방법으로 먼저 기계가독형 사전을 이용해서 상위개념 정보를 가지는 분류정보를 구성한다. 말모듬과 사전의 예문들을 형태소 분석한 후에 각각의 예문들을 분류정보를 이용하여 최상위 개념으로 바꾼다. 그리고, 말모듬과 사전의 예문에서 나온 정보들을 통합하므로 해서 자동으로 격틀을 구성한다. 자동으로 격틀을 구성한 후에 수동으로 구성한 격틀과 비교해 본다. 비교하기 위한 평가방법에 대해서 논의한다.

  • PDF

Constructing Korean Lexical Concept Network for Encyclopedia Question-Answering System (백과사전 질의응답 시스템을 위한 어휘개념망 구축)

  • Choi, Mi-Ran;Oh, Hyo-Jung;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.99-105
    • /
    • 2004
  • 백과사전 질의응답 시스템은 사용자의 자연어 질문과 검색 대상 문서인 백과사전 내용의 의미를 파악하기 위한 고정밀 자연어 처리 기술이 요구된다. 이러한 고정밀 자연어 처리 기술을 위한 중요한 언어자원을 제공하기 위하여 한국어 명사와 동사로 구성되는 대규모 어휘개념망을 구축하였다. 한국어 어휘개념망은 명사와 동사의 상하위 관계를 주요 계층구조로 하여 다양한 한국어 어휘 기초 자료를 바탕으로 구축되었다. 구축된 규모는 일반명사 약 6만 어휘와 동사 약 2만 어휘를 포함한다. 이 논문에서는 어휘개념망을 구축하기 위한 방법과 과정을 소개하고 지금까지 구축된 어휘개념망의 특성에 대해 기술하며, 백과사전 질의응답 시스템에서 어떻게 활용되는지 시스템 구성요소의 예를 들어서 설명한다. 또한 현재 구축된 어휘개념망의 성능 평가를 위해 일반 코퍼스에 대한 커버리지 측정 결과를 기술한다.

  • PDF

Design of a Contextual Lexical Knowledge Graph Extraction Algorithm (맥락적 어휘 지식 그래프 추출 알고리즘의 설계)

  • Nam, Sangha;Choi, Gyuhyeon;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

Attentive Aggregation based Cross-modal Embedding (Attentive Aggregation(주의적 종합) 기반 크로스모달 임베딩)

  • Cha, Da-Eun;Ji, Hyesung;Lee, Yeonsoo;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.155-160
    • /
    • 2019
  • 본 연구에서는 사진 검색을 위한 Attentive Aggregation(주의적 종합) 기반의 언어-시각 크로스모달 임베딩 모델을 제안한다. 본 연구에서는 크로스모달 임베딩을 활용한 검색 과제에서 검색 대상의 임베딩을 계산하는 새로운 방법으로 '질의 기반 종합 검색 대상 임베딩'을 제안하며, Attentive Aggregation 레이어를 활용하여 이를 적용한 크로스모달 임베딩 모델을 제안한다. 제안 모델은 정보량이 많은 사진 데이터로부터 여러 특징을 추출한 뒤 주어진 질의에 따라 이들을 선택적으로 반영한 임베딩을 계산할 수 있으며, 이에 따라 Recall@10 약 0.23, MAP@10 약 0.11, MRR 약 0.13으로 Baseline과 비교하였을 때 크게 향상된 사진 검색 성능을 보였다.

  • PDF

Korean Q&A Chatbot for COVID-19 News Domains Using Machine Reading Comprehension (기계 독해를 이용한 COVID-19 뉴스 도메인의 한국어 질의응답 챗봇)

  • Lee, Taemin;Park, Kinam;Park, Jeongbae;Jeong, Younghee;Chae, Jeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.540-542
    • /
    • 2020
  • 코로나 19와 관련한 다양한 정보 확인 욕구를 충족하기 위해 한국어 뉴스 데이터 기반의 질의응답 챗봇을 설계하고 구현하였다. BM25 기반의 문서 검색기, 사전 언어 모형인 KoBERT 기반의 문서 독해기, 정답 생성기의 세 가지 모듈을 중심으로 시스템을 설계하였다. 뉴스, 위키, 통계 정보를 수집하여 웹 기반의 챗봇 인터페이스로 질의응답이 가능하도록 구현하였다. 구현 결과는 http://demo.tmkor.com:36200/mrcv2 페이지에서 접근 및 사용을 할 수 있다.

  • PDF

The Recognition and Normalization of Korean Temporal Expression for Question-Answering System (질의-응답 시스템을 위한 한국어 시간 표현의 인식 및 정규화)

  • Yoon, Do-Sang;Lee, Do-Gil;Chung, Hoo-Jung;Rim, Hea-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.46-52
    • /
    • 2004
  • 본 논문에서는 질의-응답 시스템의 질의에서 많이 나타나는 시간 표현을 인식하고, 인식한 시간 표현에 대해서 정규화 하는 방법을 제안한다. 본 논문에서 사용하는 질의-응답 시스템의 도메인은 TV방송 스케줄, 날씨 정보이며, 이러한 도메인에서는 시간 표현이 매우 빈번하게 사용되기 때문에 질의에 나타나는 시간 표현을 정확하게 인식해서 정규화 하는 것이 중요하다. 제안하는 방법은 시간 표현을 의미와 기능에 따라 분류하고 각 유형마다 적절한 인식 및 정규화 기법을 사용한다. 질의에서 시간 표현은 시간 개체명 태거. 품사 태거, 시간 파서를 사용하여 인식하고, 시간 추론기와 시간 표현 사전을 이용하여 정규화 한다. TV방송 스케줄과 날씨 정보 도메인의 280개 질의에서 184개의 시간표현을 이용하여 평가한 결과, 시간 표현의 인식과 정규화는 각각 93%와 96%의 정확률, 97%와 93%의 재현율을 보였다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • Kim, Su-Min;Baek, Dae-Ho;Kim, Sang-Beom;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

Transfer Learning-based Multi-Modal Fusion Answer Selection Model for Video Question Answering System (비디오 질의 응답 시스템을 위한 전이 학습 기반의 멀티 모달 퓨전 정답 선택 모델)

  • Park, Gyu-Min;Park, Seung-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.548-553
    • /
    • 2021
  • 비디오 질의 응답은 입력으로 주어진 비디오와 질문에 적절할 정답을 제공하기 위해 텍스트, 이미지 등 다양한 정보처리가 요구되는 대표적인 multi-modal 문제이다. 질의 응답 시스템은 질의 응답의 성능을 높이기 위해 다수의 서로 다른 응답 모듈을 사용하기도 하며 생성된 정답 후보군 중 가장 적절할 정답을 선택하는 정답 선택 모듈이 필요하다. 정답 선택 모듈은 응답 모듈의 서로 다른 관점을 고려하여 응답 선택을 선택할 필요성이 있다. 하지만 응답 모듈이 black-box 모델인 경우 정답 선택 모듈은 응답 모듈의 parameter와 예측 분포를 통해 지식을 전달 받기 어렵다. 그리고 학습 데이터셋은 응답 모듈이 학습에 사용했기 때문에 과적합 문제로 각 모듈의 관점을 학습하기엔 어려우며 학습 데이터셋 이외 비교적 적은 데이터셋으로 학습해야 하는 문제점이 있다. 본 논문에서는 정답 선택 성능을 높이기 위해 전이 학습 기반의 멀티모달 퓨전 정답 선택 모델을 제안한다. DramaQA 데이터셋을 통해 성능을 측정하여 제안된 모델의 우수성을 실험적으로 증명하였다.

  • PDF

Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation (추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성)

  • Lee, Hyeon-gu;Jang, Youngjin;Kim, Jintae;Wang, JiHyun;Shin, Donghoon;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF