• Title/Summary/Keyword: 질의 언어

Search Result 806, Processing Time 0.028 seconds

Deep learning-based Answer Type Classifier Considering Topicality in Korean Question Answering (한국어 질의 응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기)

  • Cho, Seung Woo;Choi, DongHyun;Kim, EungGyun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.103-108
    • /
    • 2019
  • 한국어 질의 응답의 입력 질문에 대한 예상 정답 유형을 단답형 또는 서술형으로 이진 분류하는 방법에 대해 서술한다. 일반적인 개체명 인식으로 확인할 수 없는 질의 주제어의 화제성을 반영하기 위하여, 검색 엔진 쿼리를 빈도수로 분석한다. 분석된 질의 주제어 정보와 함께, 정답의 범위를 제약할 수 있는 속성 표현과 육하원칙 정보를 입력 자질로 사용한다. 기존 신경망 분류 모델과 비교한 실험에서, 추가 자질을 적용한 모델이 4% 정도 향상된 분류 성능을 보이는 것을 확인할 수 있었다.

  • PDF

A Query Language for Quantitative Analysis on Graph Databases (그래프 데이터베이스의 양적 분석을 위한 질의 언어)

  • Park, Sung-Chan;Lee, Sang-Goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.77-80
    • /
    • 2011
  • 그래프는 전산학의 주요 주제 중 하나이며 World Wide Web과 Social Network의 중요성이 커지면서 더욱 주목을 받고 있다. 그래프와 관련하여 그래프 데이터베이스에 대한 질의 모델에 관한 연구도 중요하게 다투어져 왔다. 하지만 이들 연구는 패턴 매칭을 통한 질의를 주로 다루었다. 하지만 그래프 데이터를 추천이나 검색 등의 응용하기 위해서는 PageRank 등 그래프 내의 연결 구조를 양으로 분석해내는 작업이 요구된다. 또한 SimRank 및 Random Walk with Restart 등 다양한 양적 분석 측도가 제안되고 있다. 이에 따라 본 연구에서는 Random Walk를 기반으로 하는 그래프에 대한 유연한 양적 분석을 지원하는 질의 언어를 제시한다. 또한 기존의 양적 분석 측도들이 본 질의 모델을 통하여 어떻게 표현되는지를 통하여 본 질의 모델의 유용성 및 확장성을 보인다.

Design and Implementation of Geographical SQL: a Spatial Query Language for Geographical Information Systems (지리정보시스템을 위한 공간 질의어 Geographical SQL의 설계 및 구현)

  • 이민재;이영구;송주원;황규영;김장수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.126-128
    • /
    • 1998
  • 지리정보시스템은 공간 데이터와 비공간 데이터를 통합하여 다루는 시스템이다. 오늘날 사용되는 관계형 데이터 베이스시스템의 질의 언어는 비공간 데이터만을 잘 다룰 뿐, 공간 데이터는 다루지 못한다. 그러므로 지리정보시스템에서는 기존의 질의어를 사용할 수 없다. 지리정보시스템을 위해서는 공간데이터와 비공간 데이터를 동시에 고려하는 새로운 공간 질의언어가 필요하다. 본 논문에서는 공간 질의의 특징을 실펴보고 공간 질의어가 갖추어야 할 필요조건을 도출한다. 그리고, 이러한 필요조건을 만족하는 공간 질의어를 설계하고 구현한다. 구현된 시스템은 기조의 질의어에 공간 객체와 공간 연산자를 서술할 수 있으며 하부 시스템에 구현된 공간 색인 방법을 기반으로 하여 공간 스캔과 공간 조인 방법을 활요하여 빠른 공간 질의 성능을 보인다.

Design of Efficient Query Language to support Local information administration environment (지역정보 관리 환경을 지원하기 위한 효율적인 질의 언어의 설계)

  • Kang, Sung-Kwan;Rhee, Phill-Kyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.36-40
    • /
    • 2008
  • SIMS manages data for various spatial and non-spatial as integral management system to support space information administration environment and support several application works. Without being limited to spatial data that existent spatial Data Mining question language advances handling in this paper, did so that can find useful information from various data connected with automatically data collection, artificial satellite side upside service, remote sensing, GPS. Mobile Computing and data about Spatio-Temporal. Also, we designed spatial Data Mining query language that support a spatial Data Mining exclusive use system based on SIMS.

  • PDF

Extension and Validation of Hangul Text Collection(HANTEC) (한국어 테스트 컬렉션 HANTEC의 확장 및 보완)

  • Kim, Ji-Young;Jang, Dong-Hyun;Myaeng, Sung-Hyon;Lee, Suk-Hoon;Seo, Jeong-Hyun;Kim, Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.210-215
    • /
    • 2000
  • HANTEC1.0은 12만 건의 문서집합과 30개의 질의집합, 그리고 각 질의에 대한 적합문서로 구성된 정보검색용 한글 테스트 컬렉션이다. 본 연구에서는 HANTEC1.0의 확장 및 보완하기 위해 과학기술분야 20개의 질의를 추가하였는데, 질의 추가를 위해서 일본 NACSIS 테스트 컬렉션의 질의를 번역하여 사용함으로써 한일 교차언어 검색환경을 조성하고자 하였다. 추가된 각 질의에 대해서는 여러 검색기에서 총 41가지 검색방법으로 검색한 후, 각 검색조합의 상위 50개 문서로 구성된 중간 결과집합을 만들었으며, 이를 대상으로 적합성판정에 대한 평가기준 및 절차 교육이 이루어진 평가자가 각 질의에 대한 적합성평가를 실시하였다 이렇게 구축된 HANTEC 테스트 컬렉션의 적합문서 집합의 객관적 품질 평가와 시스템 성능평가를 위하여 통계적인 방법을 적용하므로써 공신력있고 일반화된 테스트 컬렉션을 구축하고자 하였다. 현재 HANTEC2.0은 검색분야 연구자 및 개발자에게 자유롭게 배포 중이며 정보검색 시스템의 신뢰도 측정을 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용되어질 것이다.

  • PDF

Design and Implementation of an XML Document Storage System supporting XQL (XQL를 지원하는 XML 문서 저장 시스템)

  • 허명식;손기락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.39-41
    • /
    • 1999
  • XML 문서와 같은 구조적 데이터는 관계형 데이터베이스에 저장하고 인터넷 응용 프로그램을 개발하는데 많은 이점을 가지고 있다. 또한 이러한 구조적 문서에 대한 질의 언어를 지원하는 것은 유용하다. 이에 본 논문에서는 XML 문서에 대한 질의 언어로 제안되어진 XQL을 효율적으로 지원할 수 있도록 XML 문서의 각 엘리먼트를 관계형 데이터베이스의 테이블로 매핑시키는 방법과 XQL을 SQL로 변환하는 방법을 제시하고 또한 XML 문서의 DTD를 통해 해당하는 문서의 테이블을 자동으로 생성하는 방법을 제시한다. 이를 통해 XQL을 효율적으로 지원하는 XML 문서 저장 시스템을 설계하고 구현한다.

  • PDF

Reading Comprehension requiring Discrete Reasoning Over Paragraphs for Korean (단락에 대한 이산 추론을 요구하는 한국어 기계 독해)

  • Kim, Gyeong-min;Seo, Jaehyung;Lee, Soomin;Lim, Heui-seok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.439-443
    • /
    • 2021
  • 기계 독해는 단락과 질의가 주어졌을 때 단락 내 정답을 찾는 자연어 처리 태스크이다. 최근 벤치마킹 데이터셋에서 사전학습 언어모델을 기반으로 빠른 발전을 보이며 특정 데이터셋에서 인간의 성능을 뛰어넘는 성과를 거두고 있다. 그러나 이는 단락 내 범위(span)에서 추출된 정보에 관한 것으로, 실제 연산을 요구하는 질의에 대한 응답에는 한계가 있다. 본 논문에서는 기존 범위 내에서 응답이 가능할 뿐만이 아니라, 연산에 관한 이산 추론을 요구하는 단락 및 질의에 대해서도 응답이 가능한 기계 독해 모델의 효과성을 검증하고자 한다. 이를 위해 영어 DROP (Discrete Reasoning Over the content of Paragraphs, DROP) 데이터셋으로부터 1,794개의 질의응답 쌍을 Google Translator API v2를 사용하여 한국어로 번역 및 정제하여 KoDROP (Korean DROP, KoDROP) 데이터셋을 구축하였다. 단락 및 질의를 참조하여 연산을 수행하기 위한 의미 태그를 한국어 KoBERT 및 KoELECTRA에 접목하여, 숫자 인식이 가능한 KoNABERT, KoNAELECTRA 모델을 생성하였다. 실험 결과, KoDROP 데이터셋은 기존 기계 독해 데이터셋과 비교하여 단락에 대한 더욱 포괄적인 이해와 연산 정보를 요구하였으며, 가장 높은 성능을 기록한 KoNAELECTRA는 KoBERT과 비교하여 F1, EM에서 모두 19.20의 월등한 성능 향상을 보였다.

  • PDF

Construction of an Information Retrieval Test Collection and its Validation (정보검색 테스트 컬렉션 구축 및 유효성 평가)

  • Myaeng, Sung-Hyon;Jang, Dong-Hyun;Song, Sa-Kwang;Kim, Ji-Young;Lee, Seok-Hoon;Lee, Joon-Ho;Lee, Eung-Bong;Seo, Jeong-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.20-27
    • /
    • 1999
  • 본 논문은 정보검색 시스템 평가에 필요한 한국어 문서집합 구축과 적합 문서리스트(relevance file) 생성에 관한 기법을 문서 수집과정부터 평가작업까지 상세히 기술한다. 문서집합은 일반, 사회과학, 과학기술 분야에서 각각 4만 건으로 영역별로 균등히 구축하였으며, 질의 집합도 각 분야에 대해 10개씩 할당하여 총 30개의 질의 집합을 생성하였다. 또한 질의집합은 사용자의 수준을 고려하여 일반인, 영역 전문가, 중고등학생에 해당하는 질의를 생성함으로써 특정 영역, 특정 사용자에 독립적인 문서집합 및 질의집합을 구축하고자 하였다. 생성된 질의를 사용하여 여러 검색기에서 총 38가지의 방법으로 검색을 실시하였으며, 검색결과를 바탕으로 각 질의당 500개의 문서로 이루어진 후보 결과집합을 만든 후 이들을 대상으로 각 질의에 대한 문서의 적합성 평가를 실시하였다. 이 과정을 통해 생성된 적합문서 집합의 유효성을 보이기 위해 후보 문서 리스트 이외의 문서집합에서 적합문서가 존재할 가능성을 확인하였는데 그 방법으로 후보 리스트의 개수 증가에 따른 적합문서 개수의 변동 추세를 알아보았다. 현재 질의 개수를 50개로 확장하는 방향으로 테스트 컬렉션 구축에 대한 연구를 진행 중에 있으며, 일본 NACSIS와의 질의 교환을 통해 질의 개수를 확장할 뿐만 아니라 일본어 질의 또는 한국어 질의에 대해서 한국어 문서, 일본어 문서를 각각 검색할 수 있는 한일 교차언어 문서검색 환경을 구축하고 있다.

  • PDF

A Question Answering Using Syntactic Structure for Answer Extraction (구문구조를 이용하여 정답을 추출하는 질의응답 시스템)

  • Yi, Dae-Yeon;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.89-94
    • /
    • 2003
  • 본 논문에서는 질의문 내에 포함된 동사를 중심으로 한 질의어 확장 및 정답 추출 기법을 이용한 질의 응답 시스템에 대해 기술한다. 질의 응답시스템 전체의 과정에서 동사는 하나의 정보를 표현하는 중요한 요소로 활용하며, 동사에 대한 활용은 구축된 동사구문 사전의 정보를 이용한다. 동사구문 사전은 동사의 일반적인 표층형태와, 각 문장 성분들의 의미속성, 유의동사 등의 정보를 담고 있다. 또한 동사 구문사전의 활용에서의 동사 모호성을 배제하고, 효율을 높이기 위해 약 3만 어휘의 명사 의미 사전을 사용한다. 명사 의미사전은 구문사전 내에 사용된 의미분류로 나누어져 있으며, 유의명사 및 국어사전 상의 뜻 풀이말을 포함하고 있다. 질의문 및 각 후보 문장에 대한 구문분석은 구문사전 내에 나타난 품사 별 의미속성과, 문법 형태소의 격 정보를 이용한 격 구조를 활용하였다. 논문 중에는 일반적인 질의 응답 시스템의 3단계에 맞추어 구문사전 활용 및 구문분석의 수행 단계를 보이고 마지막에 각 기법의 정확도를 보였다.

  • PDF

A Question Type Classifier Using a Decision Tree and Lexico-syntactic Patterns (Lexico-syntactic 패턴과 결정트리를 이용한 질의 유형 분류기)

  • Kim, Hark-Soo;An, Young-Hun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.189-196
    • /
    • 2002
  • 질의응답 시스템이 올바른 답변을 제시하기 위해서는 사용자의 의도를 정확하고 강건하게 파악하는 것이 매우 중요하다. 이러한 요구 사항을 만족시키기 위해서 본 논문에서는 실용적 질의응답 시스템을 위한 질의 유형 분류기를 제안한다. 제안된 질의 유형 분류기는 규칙 기반의 방법과 통계 기반의 방법을 접목시킨 하이브리드 방법을 사용한다. 제안된 방법을 사용함으로써 수동으로 규칙을 작성하는 시간을 줄일 수 있었고 정확률을 향상시킬 수 있었으며 안정성을 보장받을 수 있었다. 제안된 방법에 대한 실험에서 질의 유형을 분류하는데 86%의 정확률을 얻었다.

  • PDF