• 제목/요약/키워드: Question Answering

검색결과 292건 처리시간 0.036초

질의 응답 시스템에서 심층적 질의 카테고리의 개념 커버리지에 기반한 의미적 질의 확장 (Semantic Query Expansion based on Concept Coverage of a Deep Question Category in QA systems)

  • 김혜정;강보영;이상조
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.297-303
    • /
    • 2005
  • 질의응답(Question Answering) 시스템은 질의에서 요구하는 정답 유형(Answer type) 및 질의에 사용된 용어를 적용하여 보다 정확한 답을 추출하고자 한다. 그러나 질의에 사용된 용어들이 문서에 그대로 사용되지 않고 같은 의미의 다른 어휘로 출현하기도 하며, 흑은 다른 문법적 정보를 가진 카테고리에 등장하여 정답 추출에 어려움이 따른다. 만약, 질의에서 요구하는 정보유형을 보다 깊게 세분화하고, 세분화된 질의 유형과 개념적으로 유사한 문장을 대상으로 정답 추출을 수행할 수 있다면 보다 정확한 정답을 추출할 수 있을 것이다. 따라서, 본 논문은 심층 질의 카테고리의 개념 커버리지에 기반한 효과적인 의미적 질의 확장 방법론을 제안한다. 질의에서 요구하는 정보 유형을 보다 세분화된 심충 질의 카테고리로 나누고, 이러한 심층 질의 카테고리를 표현하기 위해 동원되는 어휘 집합에 질의 확장을 적용함으로써 정답 추출의 성능을 향상시키고자 하였다. 제안된 시스템의 성능 평가를 위하여, TREC 문서 중 1991년도 WSJ(Wall Street Journal) 42,654건과 TREC-9의 질의를 대상으로 실험한 결과 질의 확장을 수행하지 않는 시스템의 경우 MRR(Mean reciprocal ratio) 측정에서 0.223의 결과를 보인 반면 제안된 시스템의 경우 0.50의 향상된 결과를 보였다.

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

질의응답 커뮤니티에서 문서 간 이독성 비교 (Comparison of Readability between Documents in the Community Question-Answering)

  • 문길성
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.25-34
    • /
    • 2020
  • 커뮤니티 질의응답 서비스는 다양한 목적으로 활용되고 있다. 질의응답 문서에서 정보의 품질은 질문의 명확성과 답변 내용의 적절성으로 결정되며 문서의 읽기 쉬운 정도를 나타내는 이독성(readability)은 문서가 가지고 있는 정보의 품질을 평가하기 위한 주요 요소이다. 본 연구의 목적은 국내의 CQA 사이트에서 제공되는 문서의 품질을 측정하는 것이다. 이를 위하여 네이버 지식iN의 '국민 신문고' 커뮤니티의 문서에서 사용된 어휘 수준별 사용 빈도를 비교하고, 작성 기관별 문서의 이독성 지수를 측정하였다. 이독성 지수의 측정은 어휘 수준과 문장 길이를 바탕으로 계산되는 Dale-Chall 공식을 사용하였다. 분석 결과, 답변에서 사용된 어휘는 질문에서 사용된 어휘보다 더 어려운 수준이고 문장 길이도 더 길어서 이독성이 더 낮은 것으로 나타났다. 또한, 질의응답간 이독성의 차이는 작성 기관별로도 차이가 있음을 파악할 수 있었다. 본 연구의 결과는 상담업무에 반영할 수 있는 유용한 정보를 도출하여 온라인상의 민원상담 개선에 활용할 수 있으며, 이독성 지수에 기반하여 문서 수준의 정량적 분석을 시도함으로써 텍스트 마이닝의 주제를 확장할 수 있을 것으로 기대한다.

문서 말뭉치 기반 질의응답 시스템 (Text Corpus-based Question Answering System)

  • 김한준;김민경;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.375-383
    • /
    • 2010
  • 질의응답시스템을 구축하는데 있어서 사용자 질의로 입력된 자연어 문장을 문법적 또는 의미적으로 완벽하게 분석하는 작업과 그 질의에 대한 정확한 답변을 찾아내는 작업은 쉬운 일이 아니다. 본 논문에서는 질의응답시스템 구축의 난제를 극복하기 위해, 문서 말뭉치에 기반하여 질의문을 자동 생성, 저장하여 이를 키워드로 검색하는 새로운 방식의 시스템을 제안한다. 질의문 생성을 위한 기본 아이디어는 수집 문서의 주요 문장에 대해 고유명사인식 기술을 활용하여 사람, 사물, 장소, 시간 등의 고유명사를 인식한 후, 각 고유명사에 해당하는 자연어 질의문을 생성하는 것이다. 질의문은 두가지 유형인 단순형 및 문장구조유지형 질의문으로 구분한다. 시스템은 이렇게 준비된 질의문 데이터베이스를 가지고 입력된 검색 키워드에 대하여 관련 질의문과 답변을 쉽게 얻을 수 있다. 본 연구의 관건은 생성된 질의문이 명확한 해답을 도출할 수 있는 의미있는 질의문을 생성하는 것이다. 이를 위해 본 연구에서는 질의문의 원천이 되는 평서문장을 선별하는 원칙과 선별된 평서문으로부터 의미있는 질의문을 생성하는 방법론을 제시한다.

다중 홉 질문 응답을 위한 쌍 선형 그래프 신경망 기반 추론 (Bilinear Graph Neural Network-Based Reasoning for Multi-Hop Question Answering)

  • 이상의;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권8호
    • /
    • pp.243-250
    • /
    • 2020
  • 지식 그래프 기반의 질문 응답 문제는 자연어 질문들에 대한 깊은 이해뿐만 아니라, 대규모 지식 그래프 상에서 올바른 답변을 찾기 위한 효과적인 추론 능력을 필요로 한다. 본 논문에서는 다중 홉 추론을 요구하는 복잡한 자연어 질문에 대해 연관 지식 그래프 위에서 답변 추론을 효과적으로 수행할 수 있는 심층 신경망 모델을 제안한다. 제안 모델에서는 지식 그래프 상의 각 개체 노드와 이웃 노드 간의 양방향 특징 전파를 허용할뿐만 아니라, 두 이웃 노드 쌍 간의 맥락 정보까지 활용할 수 있는, 표현력이 뛰어난 쌍 선형 그래프 신경망(BGNN)을 이용한다. 본 논문에서는 오픈 도메인의 지식 베이스인 Freebase, 자연어 질문 응답을 위한 벤치마크 데이터 집합들인 WebQuestionsSP와 MetaQA를 이용한 실험들을 통해, 제안 모델의 효과와 우수성을 확인하였다.

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류 (Efficient Classification of User's Natural Language Question Types using Word Semantic Information)

  • 윤성희;백선욱
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.251-263
    • /
    • 2004
  • 질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

Restricting Answer Candidates Based on Taxonomic Relatedness of Integrated Lexical Knowledge Base in Question Answering

  • Heo, Jeong;Lee, Hyung-Jik;Wang, Ji-Hyun;Bae, Yong-Jin;Kim, Hyun-Ki;Ock, Cheol-Young
    • ETRI Journal
    • /
    • 제39권2호
    • /
    • pp.191-201
    • /
    • 2017
  • This paper proposes an approach using taxonomic relatedness for answer-type recognition and type coercion in a question-answering system. We introduce a question analysis method for a lexical answer type (LAT) and semantic answer type (SAT) and describe the construction of a taxonomy linking them. We also analyze the effectiveness of type coercion based on the taxonomic relatedness of both ATs. Compared with the rule-based approach of IBM's Watson, our LAT detector, which combines rule-based and machine-learning approaches, achieves an 11.04% recall improvement without a sharp decline in precision. Our SAT classifier with a relatedness-based validation method achieves a precision of 73.55%. For type coercion using the taxonomic relatedness between both ATs and answer candidates, we construct an answer-type taxonomy that has a semantic relationship between the two ATs. In this paper, we introduce how to link heterogeneous lexical knowledge bases. We propose three strategies for type coercion based on the relatedness between the two ATs and answer candidates in this taxonomy. Finally, we demonstrate that this combination of individual type coercion creates a synergistic effect.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

한국어 질의 응답 시스템을 위한 초점단어 기반 질의분석 (Question Analysis based on Focus-words for Korean Question-Answering System)

  • 김원남;신승은;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 추계 종합학술대회 논문집
    • /
    • pp.476-482
    • /
    • 2004
  • 질의 응답 시스템은 사용자의 질의를 분석하여 제한된 길이의 정답을 제시해 주는 시스템이다. 질의 응답 시스템은 정확한 정답을 추출하기 위해 사용자의 질의를 분석하는 과정을 필요로 한다. 본 논문에서는 초점단어(focus-word)를 이용한 질의분석을 제안한다. 초점단어란 정답유형을 결정하는데 단서가 되는 단어로써, 추출된 초점단어에 의해 75개의 하위정답유형 중 하나가 결정된다. 실험에는 학습 데이터의 일부와 일반 Web에서 수집한 테스트 데이터가 사용되었다. 실험결과 상위범주는 97.18%, 하위범주는 95.31%의 정확도를 보였다.

  • PDF

확장된 나이브 베이즈 분류기를 활용한 질문-답변 커뮤니티의 질문 분류 (Modified Na$\ddot{i}$ve Bayes Classifier for Categorizing Questions in Question-Answering Community)

  • 연종흠;심준호;이상구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.95-99
    • /
    • 2010
  • 소셜 미디어(social media)는 블로그, 소셜 네트워크, 위키 등과 같이 사용자의 참여로 만들어지는 정보 컨텐츠이다. 사용자가 작성한 질문에 다른 사용자들이 답변을하는 질문-답변 커뮤니티 서비스도 이러한 소셜 미디어의 한 가지로서 지난 몇 년간 많은 양의 정보를 축적해왔다. 하지만 축적된 질문-답변의 양이 많아질수록 이전의 질문을 정확히 검색하는 것은 점점 어려운 작업이 되고 있다. 본 논문에서는 질문-답변 커뮤니티의 효율적인 정보 검색을 위해 확장된 나이브 베이즈 분류기(Na$\ddot{i}$ve Bayes classifier)를 이용하여 질문을 그 목적에 따라 정보형, 제안형, 의견형으로 자동 분류하는 기법을 제안한다. 정확한 분류를 위해 분류기는 질문-답변 문서의 구조적인 특징을 활용한다. 실제 질문-답변 커뮤니티의 질문들에 대해 실험을 수행한 결과 71.2%의 분류 정확도를 보였다.