• 제목/요약/키워드: 질의문 분석

검색결과 94건 처리시간 0.028초

오픈도메인 질의문 자동 분류를 위한 주석 말뭉치 구축 연구 (A study on the Construction of Annotated corpora for the Automatic Classification of Open Domain Queries)

  • 안애림;이서진;최동현;김응균;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-314
    • /
    • 2019
  • 본 연구는 오픈도메인 자연어 질의문 유형을 '질문 초점(Question Focus)'에 따라 분류하고, 기계학습 기반 질의문 유형 분류기의 성능 향상을 위한 주석 말뭉치 구축을 목표로 한다. 오픈도메인 질의문 분석을 통해 의문사 등의 키워드 기반 질의문 유형 분류의 한계를 설명하고, 질의문 내의 비명시적인 의미자질을 고려한 질문 초점 기반 질의문 유형 분류 기준을 정의하였다. 이 기준에 따라 구축된 112,856 문장의 주석 말뭉치를 기계학습(CNN) 기반 문장 분류 시스템의 학습 데이터로 사용하여 실험한 결과 F1-Score 97.72%성능을 보였다. 또한 이를 카카오 오픈도메인 질의응답시스템에 적용하여 질의문 확장을 위한 의미 자질로 사용하였고 그 결과 전체 시스템 성능을 1.6%p 향상시켰다.

  • PDF

질의 응답 시스템을 위한 질의문 심층 분석 (Deep Analysis of Question for Question Answering System)

  • 신승은;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제6권3호
    • /
    • pp.12-19
    • /
    • 2006
  • 본 논문에서는 질의 응답 시스템의 성능 향상을 위한 질의문 심층 분석을 제안한다. 일반적인 질의응답 시스템들은 사용자의 자연언어 질의의 의미를 분석하지 않기 때문에 정확한 정답을 제공하는 것이 어렵다. 질의문 심층 분석은 의미자질 추출 문법과 자연언어 질의 특성을 이용하여 사용자의 질의를 의미적으로 분석하고, 의미자질들을 추출한다. 의미자질 추출 문법과 자연언어 질의 특성은 사용자 질의의 의미와 구문 구조를 반영하기 위해 의미자질과 형식형태소로 표현된다. 웹에서 추출한 세부 정답 유형이 '인물'인 100개의 질의에 대한 실험을 통해, 비교적 짧지만 사용자의 질의 의도를 충분히 표현하고 있는 자연언어 질의에 대해 질의문 심층 분석을 수행함으로써 사용자의 질의 의도를 분석하고, 의미자질들을 추출할 수 있음을 보였다.

  • PDF

질의로그 데이터에 기반한 특허 및 상표검색에 관한 연구 (Analysis of Korean Patent & Trademark Retrieval Query Log to Improve Retrieval and Query Reformulation Efficiency)

  • 이지연;백우진
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.61-79
    • /
    • 2006
  • 본 연구는 특허 및 상표 검색 개선을 위한 방법을 제안하고자 하는 목적에서 출발하였다. 이를 위해 193일간 한국 특허정보원의 특허기술정보서비스를 이용한 17,559명의 이용자가 작성한 100,016개의 질의문에 대한 로그 데이터를 분석하였다. 개별적인 질의로그 분석 이외에, 2,202개의 복수 질의문을 이용한 탐색세션을 분석함으로써 검색 개선을 위한 추가적인 단서를 발견하였다. 분석결과에 의하면, 특허 및 상표검색은 일반적인 웹 검색의 유형과 유사한데, 특히 질의문의 길이가 짧다는 측면에서 매우 흡사하다. 그러나 특히 및 상표검색의 경우, 일반 웹 검색보다 불리언 연산자를 많이 사용하고 있었다. 복수 질의문 분석을 통해 이용자들이 질의문을 재작성하는데 도움이 될 수 있는 탐색기능을 제안할 수 있었다. 복수의 질의문으로 구성된 탐색세션을 분석한 결과, 이용자들은 질의문을 재작성하기 위하여 부연하기, 특정화하기, 일반화하기, 교체하기, 중단하기와 같은 방법을 사용하고 있음을 알 수 있었다.

질의문 자동생성방식의 질의응답시스템의 설계 및 구축 (Design of Question Answering System with Automated Question Generation)

  • 김민경;김한준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.49-54
    • /
    • 2008
  • 질의응답시스템에서 사용자 질의로 입력된 자연어문장을 완벽하게 분석하는 것은 쉬운 일이 아니며, 사용자의 질의 의도의 불명확성으로 키워드 여러 개의 질의문이 존재할 수 있다. 본 논문에서는 질의를 하기 전에 사용자가 안게 되는 자연어 질의문의 작성 부담감을 줄이고, 키워드만으로 자신이 원하는 질의문을 선택할 수 있는 시스템을 제안하고자 한다. 제안 시스템은 평서문에서 자동으로 질의문을 생성한다. 질의문 생성은 장문형질의문생성과 단문형질의문생성으로 구분하며, 장문형질의문은 문장의 전체형태를 유지하면서 특정고유명사를 질의하는 것이고, 단문형질의문은 주어진 고유명사를 질의하는 최소한의 요소를 갖춘 단순 형태의 질의 문장이다. 또한 제안 시스템은 생성된 질의문이 유한 해답을 도출할 수 있는 의미있는 질의문을 선별하는 과정을 포함한다. 본 논문에서 제안한 방식이 사용자에게 의미있는 질의문을 제시하여주고 사용자가 원하는 질의문을 선택하게 함으로써 검색의 시간단축과 자연어문장 질의어 자체에 대한 고민을 해소시킬 수 있다. 또한 이는 자연어 문장처리의 한계를 극복할 수 있는 시스템을 구현할 수 있는 기반을 마련한 것이다.

  • PDF

비디오 질의 응답 환경에서 양방향 어텐션을 이용한 질의 난이도 분석 모델 (Neural Question Difficulty Estimator with Bi-directional Attention in VideoQA)

  • 윤수환;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.501-506
    • /
    • 2020
  • 질의 난이도 분석 문제는 자연어 질의문을 답변할 때 어려움의 정도를 측정하는 문제이다. 질의 난이도 분석 문제는 문서 독해, 의학 시험, 비디오 질의 등과 같은 다양한 데이터셋에서 연구되어 왔다. 본 논문에서는 질의문과 질의문에 응답하기 위한 정보들 간의 관계를 파악하는 것으로 질의 난이도 분석 문제를 접근하여 이를 BERT와 Dual Multi-head Attention을 사용하여 모델링 하였다. 본 논문에서 제안하는 모델의 우수성을 증명하기 위하여 최근 자연언어이해 부분에서 높은 성능을 보여주는 기 학습 언어 모델과 이전 연구의 질의 난이도 분석 모델과의 성능을 비교하였고, 제안 모델은 대표적인 비디오 질의 응답 데이터셋인 DramaQA의 Memory Complexity에서 99.76%, Logical Complexity에서는 89.47%의 정확도로 가장 높은 질의 난이도 분석 성능을 보여주었다.

  • PDF

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

문서 말뭉치 기반 질의응답 시스템 (Text Corpus-based Question Answering System)

  • 김한준;김민경;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.375-383
    • /
    • 2010
  • 질의응답시스템을 구축하는데 있어서 사용자 질의로 입력된 자연어 문장을 문법적 또는 의미적으로 완벽하게 분석하는 작업과 그 질의에 대한 정확한 답변을 찾아내는 작업은 쉬운 일이 아니다. 본 논문에서는 질의응답시스템 구축의 난제를 극복하기 위해, 문서 말뭉치에 기반하여 질의문을 자동 생성, 저장하여 이를 키워드로 검색하는 새로운 방식의 시스템을 제안한다. 질의문 생성을 위한 기본 아이디어는 수집 문서의 주요 문장에 대해 고유명사인식 기술을 활용하여 사람, 사물, 장소, 시간 등의 고유명사를 인식한 후, 각 고유명사에 해당하는 자연어 질의문을 생성하는 것이다. 질의문은 두가지 유형인 단순형 및 문장구조유지형 질의문으로 구분한다. 시스템은 이렇게 준비된 질의문 데이터베이스를 가지고 입력된 검색 키워드에 대하여 관련 질의문과 답변을 쉽게 얻을 수 있다. 본 연구의 관건은 생성된 질의문이 명확한 해답을 도출할 수 있는 의미있는 질의문을 생성하는 것이다. 이를 위해 본 연구에서는 질의문의 원천이 되는 평서문장을 선별하는 원칙과 선별된 평서문으로부터 의미있는 질의문을 생성하는 방법론을 제시한다.

질의문의 구문정보를 이용한 키워드 추출 (Keyword Extraction Using Syntactic Information of Question)

  • 양수정;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

결합범주문법을 이용한 자연언어 인터페이스 (Natural Language Interface with Combinatory Categorial Grammar)

  • 이호동;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.173-175
    • /
    • 2000
  • 본 연구에서는 전자상거래 데이터베이스를 대상으로 결합범주문법을 이용한 자연언어질의 인터페이스를 구현한다. 이를 위해 질의문을 분석하고 표현 방법을 논의한다. 또한 SQL 형식언어로 변환하기 위한 어휘 표현 및 유도 방법을 보인다. 제안하는 방법은 구문분석 과정에서 SQL 형식의 질의문을 직접 유도하는 것으로 기존 연구에서 제안됐던 중간논리언어 변환단계를 거치지 않으므로 과정이 간결해져 시스템의 성능향상을 가져올 수 있다. 시스템은 웹 기반과 client/server 구조로 구현된다.

  • PDF

구문구조를 이용하여 정답을 추출하는 질의응답 시스템 (A Question Answering Using Syntactic Structure for Answer Extraction)

  • 이대연;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-94
    • /
    • 2003
  • 본 논문에서는 질의문 내에 포함된 동사를 중심으로 한 질의어 확장 및 정답 추출 기법을 이용한 질의 응답 시스템에 대해 기술한다. 질의 응답시스템 전체의 과정에서 동사는 하나의 정보를 표현하는 중요한 요소로 활용하며, 동사에 대한 활용은 구축된 동사구문 사전의 정보를 이용한다. 동사구문 사전은 동사의 일반적인 표층형태와, 각 문장 성분들의 의미속성, 유의동사 등의 정보를 담고 있다. 또한 동사 구문사전의 활용에서의 동사 모호성을 배제하고, 효율을 높이기 위해 약 3만 어휘의 명사 의미 사전을 사용한다. 명사 의미사전은 구문사전 내에 사용된 의미분류로 나누어져 있으며, 유의명사 및 국어사전 상의 뜻 풀이말을 포함하고 있다. 질의문 및 각 후보 문장에 대한 구문분석은 구문사전 내에 나타난 품사 별 의미속성과, 문법 형태소의 격 정보를 이용한 격 구조를 활용하였다. 논문 중에는 일반적인 질의 응답 시스템의 3단계에 맞추어 구문사전 활용 및 구문분석의 수행 단계를 보이고 마지막에 각 기법의 정확도를 보였다.

  • PDF