• 제목/요약/키워드: 질문정보추출

검색결과 89건 처리시간 0.026초

검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법 (Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

계층적 어탠션 구조와 트랜스포머를 활용한 알츠하이머 진단과 생성 기반 챗봇 (Alzheimer's Diagnosis and Generation-Based Chatbot Using Hierarchical Attention and Transformer)

  • 박준영;최창환;신수종;이정재;최상일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.333-335
    • /
    • 2022
  • 본 논문에서는 기존에 두 가지 모델이 필요했던 작업을 하나의 모델로 처리할 수 있는 자연어 처리 아키텍처를 제안한다. 단일 모델로 알츠하이머 환자의 언어패턴과 대화맥락을 분석하고 두 가지 결과인 환자분류와 챗봇의 대답을 도출한다. 일상생활에서 챗봇으로 환자의 언어특징을 파악한다면 의사는 조기진단을 위해 더 정밀한 진단과 치료를 계획할 수 있다. 제안된 모델은 전문가가 필요했던 질문지법을 대체하는 챗봇 개발에 활용된다. 모델이 수행하는 자연어 처리 작업은 두 가지이다. 첫 번째는 환자가 병을 가졌는지 여부를 확률로 표시하는 '자연어 분류'이고 두 번째는 환자의 대답에 대한 챗봇의 다음 '대답을 생성'하는 것이다. 전반부에서는 셀프어탠션 신경망을 통해 환자 발화 특징인 맥락벡터(context vector)를 추출한다. 이 맥락벡터와 챗봇(전문가, 진행자)의 질문을 함께 인코더에 입력해 질문자와 환자 사이 상호작용 특징을 담은 행렬을 얻는다. 벡터화된 행렬은 환자분류를 위한 확률값이 된다. 행렬을 챗봇(진행자)의 다음 대답과 함께 디코더에 입력해 다음 발화를 생성한다. 이 구조를 DementiaBank의 쿠키도둑묘사 말뭉치로 학습한 결과 인코더와 디코더의 손실함수 값이 유의미하게 줄어들며 수렴하는 양상을 확인할 수 있었다. 이는 알츠하이머병 환자의 발화 언어패턴을 포착하는 것이 향후 해당 병의 조기진단과 종단연구에 기여할 수 있음을 보여준다.

  • PDF

백과사전 질의응답 시스템을 위한 의미적 단락 생성 및 검색 기법 (Method of Semantic Passage Generation and Retrieval for Encyclopedia QA system)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.159-166
    • /
    • 2004
  • 본 논문에서는 질의응답 시스템에서 질문의 주제와 개념적으로 일치하는 단락으로부터 정보를 추출할 경우에 보다 정확한 정답을 추출할 수 있다는 가정 하에 문장 주제를 활용한 의미적 단락 생성 및 검색 기법을 제안한다. 문장주제란 백과사전 문서 집합에서 공통으로 기술하는 내용이나 자주 언급하고 있는 사건 혹은 개념들의 집합을 의미하는 것으로, 주제별로 응집된 문장들로 재구성된 단락을 의미적 단락이라고 정의한다. 제안된 방법의 성능을 평가하기 위해 의미적 단락의 신뢰도를 파악하고, 백과사전 본문을 3문장 단위로 잘라서 고정길이 단락을 만든 후 의미적 단락의 검색결과와 비교하였다. 평가척도로는 TREC의 역순위평균(MRR : Mean Reciprocal Rank)과 상위 5개 단락 안에 정답유무를 측정하는 사용자 정답만족도를 사용하였다. ETRI 평가셋을 대상으로 한 실험 결과, 주제를 이용한 의미적 단락 검색 성능이 고정길이 단락 검색보다 우수함을 알 수 있었다.

  • PDF

일상생활 맥락 정보요구 기반의 이미지 접근점 확장에 관한 연구 (An Approach Toward Image Access Points based on Image Needs in Context of Everyday Life)

  • 정은경;정선영
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.273-294
    • /
    • 2012
  • 세대적 특성과 정보기술의 발달은 이미지의 생산과 이용을 가속화한다. 본 연구는 이미지 이용자의 일상생활 맥락에서 정보요구를 분석하여 이미지 접근점 확장에 관한 논의를 목적으로 하였다. 이를 위하여 소셜 Q&A 서비스인 네이버 지식인에서 이미지를 검색하고자 하는 질문 105건을 추출하였다. 이미지 질문은 이용 목적과 이미지 속성으로 구분한 프레임워크를 이용하여 분석하였다. 분석결과로서 이용 목적은 총 8가지로, 이미지를 데이터로서 이용하고자 하는 목적이 두드러졌으며, 이중에서 '보고그리기'는 기존 연구결과에서 찾아볼 수 없었던 이용 목적으로 새롭게 도출되었다. 이미지 속성에서는 의미, 비시각적, 구성 측면에서 의미와 비시각적 속성이 우세하게 나타났다. 전통적으로 이미지 검색과 접근에서 의미 측면의 속성은 중요하게 인식되어 왔으나, 본 연구의 분석결과에서 보여주는 바와 같이 비시각적 측면 특히, 맥락 요소의 비중은 접근점 제공에 있어서 중요한 시사점으로 볼 수 있다.

제한된 영역에서의 폼 기반 자연언어 대화 인터페이스 (Form-based Natural Langauge Dialogue Interface in a Restricted Domain)

  • 김용재;서정연;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.463-468
    • /
    • 1997
  • 자연언어 대화는 사람들이 사용하는 가장 자연스러운 의사소통 수단이다. 따라서, 자연언어 대화 인터페이스를 통해서 사용자와 시스템이 편리하고 자연스러운 방법으로 의사를 교환할 수 있다. 본 논문에서는 대화 인터페이스의 필요성과 폼에 기반한 대화 인터페이스 기법에 대해서 설명한다, 폼 기반 인터페이스란 데이터베이스 검색을 위해서 질의어를 생성할 때 검색에 대한 제한 조건을 폼(form)의 형태로 나타내어, 사용자와의 대화를 통해서 폼 정보를 추출하고, 이렇게 완성된 폼을 이용하여 질의어를 생성하는 것을 말한다. 본 논문에서는 이러한 폼 기반 대화 인터페이스에서 시스템이 대화를 적절히 유도하고 사용자의 응답이나 질문에 대해 적절히 대응하기 위한 폼과 재귀적 대화 전이망(recursive dialogue transition networks)을 이용한 대화 모델에 대해 제안한다.

  • PDF

REALM을 이용한 한국어 오픈도메인 질의 응답 (REALM for Open-domain Question Answering of Korean)

  • 강동찬;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

CPS 모형으로 개발된 동물 발생 실험수업에서 나타난 과학영재의 특성에 따른 언어적 상호작용 분석 (The Analysis of The Science Gifted's Characteristics Present in Linguistic Interactions in The Animal Development Inquiry Activity Program Based on Creative Problem Solving(CPS) Model)

  • 안주현;전미란;박기석;전상학
    • 영재교육연구
    • /
    • 제20권1호
    • /
    • pp.107-130
    • /
    • 2010
  • 본 연구에서는 과학영재 학생들을 대상으로 생물 영역의 동물 발생 실험수업을 통해 나타나는 언어적 상호작용을 분석하여 과학영재성을 보여주는 특성들을 알아보고자 하였다. 연구 대상은 서울대학교 과학영재센터의 중학교 1학년 학생 20명이었으며, Creative Problem Solving (CPS) 모형을 기반으로 개발된 동물 발생 실험 프로그램으로 소집단 토의 중심의 실험 수업을 총 4회 진행하면서 학생들의 언어적 상호작용을 녹음 및 녹화, 관찰하였다. 전사된 내용으로부터 질문-응답 유형과 과학영재의 특성을 추출하여 분석하였다. 질문-응답의 유형 분석에서는 보다 높은 사고력을 요하는 사고형 질문이 기본정보형 질문보다 3~6배나 높게 나타났다. 특히, 탐구실험 I은 다른 세 탐구실험보다 기본정보형 및 사고형 질문이 40% 이상 높게 나타났다. 언어적 상호작용의 분석 결과 창의적 지필검사에서 보기 어려웠던 창의성의 세부 요인을 확인할 수 있었으며, 문제발견력 및 문제해결력, 고도의 언어능력 등을 확인하였고, 정의적 특성인 과제 집착력과 리더십도 드러나는 것을 볼 수 있었다. 본 연구 결과는 지필고사를 대신하는 영재의 판별 및 선발에서 활용할 수 있는 프로그램 개발에 실질적인 도움을 줄 수 있을 것으로 사료된다.

온라인 설문조사 시스템의 개발 (Development of an Online Research System)

  • 이민수;강대인;이재관;황혜영;고정국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.619-622
    • /
    • 2004
  • 설문조사는 사회의 여러 분야에서 발생하는 문제들을 해결하기 위해 관련자들에게 동일한 질문을 제시하고 설문에 대한 응답을 통해 근거 자료를 수집, 분석하여 유용한 정보를 추출하는 일련의 과정이다. 온라인 설문조사 시장의 성장 추세와 장점들을 고려하여 본 논문에서는 설문 의뢰자들의 요구를 충족시키면서 설문 대상자들에게 편리한 설문응답 환경을 제공하여 설문 응답률을 향상시킬 수 있는 효율적인 온라인 설문조사 시스템을 개발하였다. 또한 구현된 온라인 설문조사 시스템에 대한 기능시험을 통해 효율적 활용 가능성도 확인하였다.

  • PDF

결혼이주여성이 경험한 경제생활의 의미에 관한 연구 (A Qualitative Study on the Meaning of Economic Life of Immigrant Women)

  • 이형하
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.165-168
    • /
    • 2013
  • 본 연구에서는 질적 연구방법 중 현상학적 연구방법으로 결혼이주여성들의 경제생활에 대한 생생한 이야기에 귀울이고, 경제생활 경험의 역동성을 심층적인 면담을 통해 그 의미를 분석하고자 한다. 연구질문은 "결혼이주여성이 경험하는 경제생활의 의미는 무엇인가"이다. 연구결과, 의미 있는 진술 67개를 추출하였고, 15개의 중심 의미를 조직하였다. 15개의 중심 의미는 '팍팍한 삶', '자녀교육비, 보험료가 걱정', '적응을 위한 생활방식의 변화 도모', '일자리를 통한 경제안정 추구', '친정가족에 대한 지원과 회귀 기대'라는 5개의 주제 묶음으로 범주화하였다.

  • PDF

Watson Assistant를 이용한 신조어 챗봇 시스템 구현 (Implementation of a Neologism Chatbot System Using Watson Assistant)

  • 고준희;남윤한;박현종;최성진;백세인;이용규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.13-16
    • /
    • 2018
  • 인공지능의 중요성과 가치가 대두됨에 따라 이를 활용하여 다양한 챗봇들이 개발되고 있다. 그러나 신조어를 의미를 제공하는 챗봇 시스템의 연구가 부족하다. 본 논문에서는 Watson Assistant를 활용하여 신조어의 의미를 제공하는 신조어 챗봇 시스템을 구현하고자 한다. Watson Assistant는 자연어 형식으로 된 질문에 응답하는 것을 지원하는 API다. 웹 크롤링을 통해 신조어 데이터를 수집 및 저장하고, Watson Assistant를 활용하여 사용자의 의도를 파악하여 신조어의 의미를 추출한다. 제안한 시스템을 통해 현실 세계에서 끊임없이 양산되는 신조어의 의미를 빠르게 파악할 것이라고 기대한다.