• 제목/요약/키워드: 단락검색

검색결과 47건 처리시간 0.023초

질의 응답 시스템을 위한 가변 길이 단락 검색 (Variable Length Passage Retrieval for Q&A System)

  • 이영신;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-266
    • /
    • 2002
  • 질의 응답 시스템에서 보다 정확하게 정답을 판별하기 위해서는 구문분석 혹은 의미분석 등과 같은 복잡도가 높은 분석작업이 요구되며, 이러한 질의 응답 시스템 성능의 상한을 결정하는 검색 시스템은 가급적 적은 양의 검색 결과를 내주어서 질의 응답 시스템이 처리해야 할 작업량에 대한 부담을 덜어주어야 한다. 본 논문에서는 이러한 요구를 만족시키는 검색 시스템으로 가변 길이 단락 검색 시스템(variable length passage retrieval system)을 제안한다. 제안하는 검색 시스템은 질의에 대한 정답을 포함하고 있을 가능성이 있는 텍스트 영역은 질의에 따라 그 크기가 다를 것이라는 가정으로부터 출발한다. 그러므로 문서 전체를 검색하거나 고정 길이 단락으로 나누어져 색인되어 있는 부분 문서들을 검색하는 기존의 검색 방법과 달리, 제안된 시스템은 문서에서 임의의 길이로 이루어진 단락을 대상으로 동적인 단락 검객을 수행한다. TREC QA track의 질의집합 중 1번부터 100번까지의 질의에 대해 실험을 수행한 견과, 문서 검색 시스템이나 고정 길이 단락 검색 시스템은 상위 1000개의 문장까지 검색을 하였을 때 각각 96%, 98%의 재현율을 보인 반면, 가변 길이 단락 검색 시스템은 800개의 문장만으로도 98%의 재현율을 보이고, 900개의 문장을 검색하였을 경우 100%의 재현율을 보였다.

  • PDF

Word2Vec의 IN-OUT Vector를 이용한 기계독해용 단락 검색 모델 (Paragraph Retrieval Model for Machine Reading Comprehension using IN-OUT Vector of Word2Vec)

  • 김시형;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.326-329
    • /
    • 2019
  • 기계독해를 실용화하기 위해 단락을 검색하는 검색 모델은 최근 기계독해 모델이 우수한 성능을 보임에 따라 그 필요성이 더 부각되고 있다. 그러나 기존 검색 모델은 질의와 단락의 어휘 일치도나 유사도만을 계산하므로, 기계독해에 필요한 질의 어휘의 문맥에 해당하는 단락 검색을 하지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Word2vec의 입력 단어열의 벡터에 해당하는 IN Weight Matrix와 출력 단어열의 벡터에 해당하는 OUT Weight Matrix를 사용한 단락 검색 모델을 제안한다. 제안 방법은 기존 검색 모델에 비해 정확도를 측정하는 Precision@k에서 좋은 성능을 보였다.

  • PDF

백과사전 질의응답 시스템을 위한 의미적 단락 생성 및 검색 기법 (Method of Semantic Passage Generation and Retrieval for Encyclopedia QA system)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.159-166
    • /
    • 2004
  • 본 논문에서는 질의응답 시스템에서 질문의 주제와 개념적으로 일치하는 단락으로부터 정보를 추출할 경우에 보다 정확한 정답을 추출할 수 있다는 가정 하에 문장 주제를 활용한 의미적 단락 생성 및 검색 기법을 제안한다. 문장주제란 백과사전 문서 집합에서 공통으로 기술하는 내용이나 자주 언급하고 있는 사건 혹은 개념들의 집합을 의미하는 것으로, 주제별로 응집된 문장들로 재구성된 단락을 의미적 단락이라고 정의한다. 제안된 방법의 성능을 평가하기 위해 의미적 단락의 신뢰도를 파악하고, 백과사전 본문을 3문장 단위로 잘라서 고정길이 단락을 만든 후 의미적 단락의 검색결과와 비교하였다. 평가척도로는 TREC의 역순위평균(MRR : Mean Reciprocal Rank)과 상위 5개 단락 안에 정답유무를 측정하는 사용자 정답만족도를 사용하였다. ETRI 평가셋을 대상으로 한 실험 결과, 주제를 이용한 의미적 단락 검색 성능이 고정길이 단락 검색보다 우수함을 알 수 있었다.

  • PDF

질문-단락 간 N-gram 주의 집중을 이용한 단락 재순위화 모델 (Passage Re-ranking Model using N-gram attention between Question and Passage)

  • 장영진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.554-558
    • /
    • 2020
  • 최근 사전학습 모델의 발달로 기계독해 시스템 성능이 크게 향상되었다. 하지만 기계독해 시스템은 주어진 단락에서 질문에 대한 정답을 찾기 때문에 단락을 직접 검색해야하는 실제 환경에서의 성능 하락은 불가피하다. 즉, 기계독해 시스템이 오픈 도메인 환경에서 높은 성능을 보이기 위해서는 높은 성능의 검색 모델이 필수적이다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 오픈 도메인 기계독해를 위한 단락 재순위화 모델을 제안한다. 제안 모델은 합성곱 신경망을 이용하여 질문과 단락을 구절 단위로 표현했으며, N-gram 구절 사이의 상호 주의 집중을 통해 질문과 단락 사이의 관계를 효과적으로 표현했다. KorQuAD를 기반으로한 실험에서 제안모델은 MRR@10 기준 93.0%, Top@1 Precision 기준 89.4%의 높은 성능을 보였다.

  • PDF

이용자 중심 요약문 생성에 관한 실험적 연구 (An Experimental Study on Generation of User-focused Summaries)

  • 김정하;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.185-188
    • /
    • 2001
  • 본 연구에서는 단락검색 기법을 응용하여 이용자의 질의에 적합한 최적의 요약문을 자동 생성하는 방안을 모색하고자 하였다. 이를 위해 먼저 실험문헌집단을 구축한 후, 실험을 통해 이용자 중심 요약문을 생성하는 정적 단락검색 기법과 동적 단락추출 기법의 최적의 모형을 찾고 이들의 성능을 비교하였다.

  • PDF

효율적인 질의응답시스템 개발을 위한 BM25기반의 단락 검색 시스템 (A BM25 based Passage Retrieval System for Developing an Efficient Question and Answering System)

  • 임희석;이영신;임해창
    • 컴퓨터교육학회논문지
    • /
    • 제6권4호
    • /
    • pp.23-30
    • /
    • 2003
  • 본 논문은 문서 단위 보다 작은 단락 단위의 검색 시스템을 사용하는 효율적인 질의 응답 시스템 개발을 위하여 문서 검색에서 성능이 검증된 Okapi 시스템의 BM25 알고리즘을 응용한 단락 검색 시스템을 제안하고, 단락 검색 시스템의 성능을 분석하고자 한다. 100만 건의 문서로 구성된 TREC Q&A track 테스트 컬렉션을 색인에 사용하고 TREC Q&A track 질의 집합 중 1~100번까지의 질의를 사용하여 실험한 결과 재현율이 100%가 되기 위해서는 문서 검색은 약 12만 문장을 검색해야 하는 반면, 단락 검색에서는 문서 검색의 약 1/70인 1700문장만으로도 100%의 재현율을 얻을 수 있음을 확인하였다.

  • PDF

질의확장에 의한 단락검색의 성능 향상에 관한 연구 (A Study on the Improvement of Retrieval Performance Query Expansion in Passage-based Retrieval)

  • 박지연;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.143-148
    • /
    • 2001
  • 본 연구에서는 공기기반 질의-용어간 유사도를 이용한 질의확장을 통해 단락검색의 성능을 향상시키는 방안을 제시하고자 하였다 실험을 통해 전체 문헌집단에 출현한 용어들의 공기정보에 기반한 전역적 질의확장과 이용자의 피드백 없이 초기검색 결과 중 상위 10개 문헌에 출현한 용어들의 공기정보에 기반한 지역적 질의확장의 성능을 비교하고 각각의 성능을 향상시키는 방법을 모색하였다. 마지막으로 문헌집단의 전역 정보와 지역 정보를 함께 이용하는 방안을 제시하고 그 성능을 평가하였다.

  • PDF

분야연상어를 이용한 화제분야의 계산방법과 단락검색 (Passage Retrieval and Calculation Method of Topic Field by Using Field-Associated Terms)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.57-68
    • /
    • 2005
  • 텍스트에 임베디드 되어 있는 부가적인 정보를 이용하여 문서의 실제적인 의미단위인 텍스트를 분리하는 단락검색은 중요한 기술이다. 본 논문에서는 문서의 분야에 적합한 단락만을 분리하여 사용자의 요구에 적합한 단락을 추출하는 기술을 설명한다. 문서에서 분야연상어론 추출하여, 각 문장마다 화제의 분야가 어떻게 커져가고, 줄어들고, 변화하여 가는지를 측정하는 방법을 실험을 통해 설명한다. 긴 문서에서 어떤 화제가 출현하는가를 파악하고, 화제가 계속되거나 혹은 전환되는 지점을 측정하고, 분야별로 단락을 구분하는 방법을 계산한다. 12,500개의 한국어 신문기사를 이용하여 실험한 결과 $88{\%}$의 정확률과 $78{\%}$의 재현율을 얻을 수 있었다.

'질문-단락'간 주의 집중을 이용한 검색 모델 재순위화 방법 (Retrieval Model Re-ranking Method using 'Question-Passage' Attention)

  • 장영진;김학수;지혜성;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-414
    • /
    • 2019
  • 검색 모델은 색인된 문서 내에서 입력과 유사한 문서를 검색하는 시스템이다. 최근에는 기계독해 모델과 통합하여 질문에 대한 답을 검색 모델의 결과에서 찾는 연구가 진행되고 있다. 위의 통합 모델이 좋은 결과를 내기 위해서는 검색 모델의 높은 성능이 요구된다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 재순위화 모델을 제안한다. 검색 모델의 결과 후보를 일괄적으로 입력받고 '질문-단락'간 주의 집중을 계산하여 재순위화 한다. 실험 결과 P@1 기준으로 기존 검색 모델 성능대비 5.58%의 성능 향상을 보였다.

  • PDF

시맨틱 웹 환경에서 적합한 문장을 제공하는 이야기 쓰기 도우미에 관한 연구 (A Study of Retrieval Model Providing Relevant Sentences in Storytelling on Semantic Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제26권4호
    • /
    • pp.7-34
    • /
    • 2009
  • 이야기 쓰기를 돕는 본문 및 문장 검색시스템의 구축을 위해서 (1) 이야기와 단락 및 문장의 구조를 분석하고 (2) 색인작성과 탐색 질문에 적용되는 언어 추론을 연구하였다. 이야기 쓰기에 필요한 이야기, 단락, 그리고 문장으로 구성된 사항 데이터베이스와 필요한 추론규칙으로 이루어진 지식베이스와 온톨로 지가 고안되었다. 추론의 기초인 실례(實例) 파일들은 시맨틱 웹 환경에서 작동될 마크업 언어 형식으로 만들어졌다. 시맨틱 웹 환경에서 실용적인 시스템이 되려면 단락과 문장을 정확히 대변하는 색인 방법론과 이를 정밀하게 지식베이스화 할 수 있는 마크업 언어의 창조가 필수적이라 사료된다.