• Title/Summary/Keyword: 정답 후보 추출

Search Result 24, Processing Time 0.024 seconds

Answer Constraints Extraction on User Question for Wikipedia QA (위키피디아 QA를 위한 질의문의 정답제약 추출)

  • Wang, JiHyun;Heo, Jeong;Lee, Hyungjik;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.248-250
    • /
    • 2017
  • 질의응답 시스템에서 정답을 제약하기 위한 위키피디아 영역의 정답제약 9개를 정의하고 질문 문장에서 제약표현을 추출하는 방법을 제안한다. 다어절의 정답제약 표현을 추출하기 위해서 언어분석 결과를 활용하여 정답제약 후보를 생성하며 후보단위로 정답제약 표현을 학습하기 위한 자질을 제시한다. 기계학습 방법을 이용하여 정답제약 후보 별로 정답제약 태그를 분류하여 정답제약 표현을 추출한다. 성능 실험은 각 정답제약 태그 별로 F1-Score 평가를 수행하였다.

  • PDF

Answer Constraints Extraction on User Question for Wikipedia QA (위키피디아 QA를 위한 질의문의 정답제약 추출)

  • Wang, JiHyun;Heo, Jeong;Lee, Hyungjik;Bae, Yongjin;Kim, Hyunki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.248-250
    • /
    • 2017
  • 질의응답 시스템에서 정답을 제약하기 위한 위키피디아 영역의 정답제약 9개를 정의하고 질문 문장에서 제약표현을 추출하는 방법을 제안한다. 다어절의 정답제약 표현을 추출하기 위해서 언어분석 결과를 활용하여 정답제약 후보를 생성하며 후보단위로 정답제약 표현을 학습하기 위한 자질을 제시한다. 기계학습 방법을 이용하여 정답제약 후보 별로 정답제약 태그를 분류하여 정답제약 표현을 추출한다. 성능 실험은 각 정답제약 태그 별로 F1-Score 평가를 수행하였다.

  • PDF

A Predictive Answer Indexing Method Using Local and Global Information (지역, 전역 정보를 이용한 정답 후보 색인 방법)

  • Kim, Hark-Soo;Kim, Kyung-Sun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.267-274
    • /
    • 2002
  • 본 논문은 2-패스에 걸쳐 지역, 전역 정보를 추출하고 이 정보들을 이용하여 효과적으로 정답 후보들을 색인하는 방법을 제안한다. 제안한 정답 후보 색인 방법은 다음과 같다. 먼저, 대상 문서에 포함된 모든 정답 후보들을 추출한다. 그리고, 지역 정보(한 문서 내에서 정답 후보와 주변 내용어 사이의 관계)를 이용하여 각 내용어에 점수를 부여한다. 다음으로 전역 정보(모든 문서를 대상으로 하여 정답 후보와 공기 (co-occurrence)하는 내용어 사이의 관계)를 이용하여 각 내용어에 이미 할당되어 있는 점수를 변경한다. 마지막으로 데이터베이스에 각 정답 후보와 점수가 부여된 내용어들을 역파일 형태로 저장한다. 이러한 색인 방법은 빠른 응답 시간과 비교적 높은 정확률을 필요로 하는 실용적 질의 응답 시스템에 적합하다.

  • PDF

Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation (추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성)

  • Lee, Hyeon-gu;Jang, Youngjin;Kim, Jintae;Wang, JiHyun;Shin, Donghoon;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF

Record Information Question-Answering System Using Question Rules (질문 규칙을 이용한 기록정보 질의-응답 시스템)

  • Oh, Su-Hyun;Ahn, Young-Min;Park, Hee-Geun;Lee, Chung-Hee;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.228-232
    • /
    • 2006
  • 본 논문에서는 기네스 기록정보, 즉 기록적 가치가 있는 기록정보에 대한 질의를 처리하는 시스템에 대하여 기술한다. 기록정보 질의의 경우 일반적으로 정형화된 형태로 나타나며 이 형태를 규칙으로 사용하여 질의에 해당되는 정답을 추출하게 된다. 기록적 가치가 있는 문장에서 해당 문장이 기록 문장임을 나타내어 주는 부사를 기록부사로 정의하고, 예로 가장 제일, 최고의, 최대의, 최소의, 최초의, 최초로 등을 들 수 있다. 기록정보 질의의 경우 용언의 포함여부에 따라 기록부사는 두 가지 유형으로 분류된다. 기록부사는 질의문 내의 지역정보 및 정답유형과 함께 정답 추출의 중요한 요소로 사용되고, 용언정보는 기록 부사의 유형, 질의문 내의 용언 포함 여부에 따라 정답 추출의 요소로 결정되어진다. 제안한 시스템은 질의분석을 통하여 정답 추출을 위한 단서를 찾고 이를 이용하여 후보 문서와 후보 문장을 검색한 후 정답 추출 규칙을 이용하여 정답을 추출하게 된다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • 김수민;백대호;김상범;임해창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF

Answer Extraction of Concept based Question-Answering System (개념 기반 질의-응답 시스템에서의 정답 추출)

  • Ahn Young-Min;Oh Su-Hyun;Kang Yu-Hwan;Seo Young-Hoon
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2005.05a
    • /
    • pp.448-451
    • /
    • 2005
  • In this paper, we describe a method of answer extraction on a concept-based question-answering system. The concept-based question answering system is a system which extract answer using concept information. we have researched the method of answer extraction using concepts which analyzed and extracted through question analysing with answer extracting rules. We analyzed documents including answers and then composed answer extracting rules. Rules consist of concept and syntactic information, we generated candidates of answer through the rules and then chose answer.

  • PDF

Answers Candidate Detection System using Dual Pointer Network Decoder (듀얼 포인터 네트워크 디코더를 이용한 정답 후보군 탐지 시스템)

  • Jang, Youngjin;Kim, Harksoo;Kim, Jintae;Wang, Jihyun;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.424-426
    • /
    • 2019
  • 정답 후보군 탐지 모델은 최근 활발히 진행되고 있는 질의-응답 데이터 수집 연구의 선행이 되는 연구로 특정 질문에 대한 정답을 주어진 단락에서 추출하는 작업을 말한다. 제안 모델은 포인터 네트워크 디코더를 통하여 기존의 순차 레이블링 모델에서 처리할 수 없었던 정답이 겹치는 문제에 대해서 해결할 수 있게 되었다. 그리고 독립된 두 개의 포인터 네트워크 디코더를 사용함으로써, 단일 포인터 네트워크로 처리할 수 없었던 정답의 탐지가 가능하게 되었다.

  • PDF

Answer Extraction in Record Sentence using Guinness Record Adverb and Answer-Type (기네스 기록 부사와 정답 유형을 이용한 기록문장에서의 정답 추출)

  • Oh Su-Hyun;Ahn Young-Min;Lee Chung-Hee;Seo Young-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.1-3
    • /
    • 2006
  • 본 논문에서는 기네스 기록과 같은 기록정보 즉, 기록적 가치가 있는 문장에 대한 질의가 들어왔을 경우기록 부사와 정답 유형을 이용하여 정답을 추출하는 시스템에 대해 기술한다. 기록정보는 역사적이고 사실적인 내용으로, 기록부사틀 포함하는 문장을 말한다. 기록부사는 기록정보 내에서 쓰이며 어떤 사실의 기록에 대해 뜻을 명확하게 나타내어주는 한 요소이고, 이것은 해당문장이 기록문장임을 나타내준다. 이는 질의-응답 시스템에서 정답 추출의 중요한 단서로 사용될 수 있다. 질의-응답 시스템은 크게 질의를 분석하는 부분과 정답 문서를 찾는 부분으로 나뉘며, 질의 분석을 통하여 기록부사로 지역정보 그리고 정답유형을 결정한 후 이를 이용하여 후보 문서를 검색, 추출하고 정의문 규칙과 개체명 태깅에 의하여 정답을 추출하게 된다.

  • PDF

A Fast and Powerful Question-answering System using 2-pass Indexing and Rule-based Query Processing Method (2-패스 색인 기법과 규칙 기반 질의 처리기법을 이용한 고속, 고성능 질의 응답 시스템)

  • 김학수;서정연
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.11
    • /
    • pp.795-802
    • /
    • 2002
  • We propose a fast and powerful Question-answering (QA) system in Korean, which uses a predictive answer indexer based on 2-pass scoring method. The indexing process is as follows. The predictive answer indexer first extracts all answer candidates in a document. Then, using 2-pass scoring method, it gives scores to the adjacent content words that are closely related with each answer candidate. Next, it stores the weighted content words with each candidate into a database. Using this technique, along with a complementary analysis of questions which is based on lexico-syntactic pattern matching method, the proposed QA system saves response time and enhances the precision.