• 제목/요약/키워드: question-answering system

검색결과 153건 처리시간 0.027초

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

Multi-pass Sieve를 이용한 한국어 상호참조해결 (Korean Coreference Resolution using the Multi-pass Sieve)

  • 박천음;최경호;이창기
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.992-1005
    • /
    • 2014
  • 상호참조해결은 문서 내에서 선행하는 명사구와 현재 등장한 명사구 간에 같은 개체를 의미하는 지를 결정하는 문제로 정보 추출, 문서분류 및 요약, 질의응답 등에 적용된다. 본 논문은 상호참조해결의 규칙기반 방법 중 가장 성능이 좋은 Stanford의 다 단계 시브(Multi-pass Sieve) 시스템을 한국어에 적용한다. 본 논문에서는 모든 명사구를 멘션(mention)으로 다루고 있으며, Stanford의 다 단계 시브 시스템과는 달리 멘션 추출을 위해 의존 구문 트리를 이용하고, 동적으로 한국어 약어 리스트를 구축한다. 또한 한국어 대명사를 참조하는데 있어 중심화 이론 중 중심의 전이적인 특성을 적용하여 가중치를 부여하는 방법을 제안한다. 실험 결과 F1 값은 MUC 59.0%, B3 59.5%, Ceafe 63.5%, CoNLL(평균) 60.7%의 성능을 보였다.

Is HAZOP a Reliable Tool? What Improvements are Possible?

  • Park, Sunhwa;Rogers, William J.;Pasman, Hans J.
    • 한국가스학회지
    • /
    • 제22권2호
    • /
    • pp.1-20
    • /
    • 2018
  • Despite many measures, still from time to time catastrophic events occur, even after reviewing potential scenarios with HAZID tools. Therefore, it is evident that in order to prevent such events, answering the question: "What can go wrong?" requires more enhanced HAZID tools. Recently, new system based approaches have been proposed, such as STPA (system-theoretic process analysis) and Blended Hazid, but for the time being for several reasons their availability for general use is very limited. However, by making use of available advanced software and technology, traditional HAZID tools can still be improved in degree of completeness of identifying possible hazards and in work time efficiency. The new HAZID methodology proposed here, the Data-based semi-Automatic HAZard IDentification (DAHAZID), seeks to identify possible scenarios with a semi-automated system approach. Based on the two traditional HAZID tools, Hazard Operability (HAZOP) Study and Failure Modes, Effects, and Criticality Analysis (FMECA), the new method will minimize the limitations of each method. This will occur by means of a thorough systematic preparation before the tools are applied. Rather than depending on reading drawings to obtain connectivity information of process system equipment elements, this research is generating and presenting in prepopulated work sheets linked components together with all required information and space to note HAZID results. Next, this method can be integrated with proper guidelines regarding process safer design and hazard analysis. To examine its usefulness, the method will be applied to a case study.

대화형 인공지능 아트 작품의 제작 연구 :진화하는 신, 가이아(An Evolving GAIA)사례를 중심으로 (Artificial Intelligence Art : A Case study on the Artwork An Evolving GAIA)

  • 노진아
    • 한국콘텐츠학회논문지
    • /
    • 제18권5호
    • /
    • pp.311-318
    • /
    • 2018
  • 본 논문에서는 대화형 인공지능 인터랙티브 아트인 "진화하는 신, 가이아" 작품을 중심으로 예술 의미적인 배경과 작품이 구현된 기술적 구조에 대해 제시한다. 최근 여러 분야에서 인공지능의 기술을 사용하면서 예술 분야에도 이러한 시도가 접목되고 있다. 또한 과학의 발달로 생체모방 기술이나 인공생명 기술이 발달하면서 기계와 인간의 구분이 모호해지고 있다. 본 논문에서는 이러한 기계 생명의 은유를 담고 있는 예술 작품 사례를 제시하고, 본 작품에서 차별적으로 구현된 대화 시스템에 대해 상세히 부각한다. 본 작품에서는 로봇이 관객과의 자연스러운 소통을 위해 관객을 인식하여 바라보고 눈을 맞추며, 관객의 음성을 직접 인식하고 이에 따른 적절한 응답을 음성 합성으로 출력한다. 본 작품의 대화 시스템은 작품 내에 내장된 안드로이드 클라이언트와 질문-대답 사전을 내장한 서버로 구성된 질의응답시스템으로 구현되었다. 본 작품은 이러한 인터랙션을 통해 넓은 의미에서의 생명에 대한 의미를 논하며 관객과의 공감을 이끌어낸다. 본 논문에서는 작품의 기계적 구조와 대화 시스템 등의 제작 방법 및 관객 반응을 살펴봄으로써 인공지능 예술 작품의 제작 및 전시 기획에 기여하고자 한다.

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

시스템 요구사항 분석을 위한 순환적-점진적 복합 분석방법 (An Integrated Method of Iterative and Incremental Requirement Analysis for Large-Scale Systems)

  • 박지성;이재호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.193-202
    • /
    • 2017
  • 인공지능 기반 지능형 시스템의 개발에는 일반적으로 신뢰성 높은 대규모 지식처리, 지식의 통합과 인간 수준의 이해, 지식기반 인간-기계협업, 전문가 수준의 지능 서비스 등의 효과적 통합이 요구된다. 특히 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발을 목표로 하고 있는 과제의 일환으로 개발 중인 WiseKB 통합 플랫폼은 대용량 지식을 저장하여 추론과정을 통한 질의 및 응답이 가능한 대규모 지식 베이스 역할을 수행하며 이를 위하여 지식표현, 자원통합, 지식저장소, 지식베이스, 복합추론, 지식학습 등의 요소기술들의 효과적 통합이 필수적이다. 통합 플랫폼의 효율적 통합을 위해서는 정확한 요구사항 분석이 중요하며, 이는 시스템의 특성을 고려한 적절한 요구사항 분석 방법론의 적용이 필요하다. 대표적인 요구사항 분석 방법인 순차적 방법론과 순환-점진적 방법론은 WiseKB와 같은 시스템의 대규모 복합적 개발 특성을 고려할 때 다양한 요구사항을 체계적으로 파악하기에 한계가 있다. 본 논문에서는 이러한 한계를 개선하고자 순차적 방법과 순환-점진적 방법론을 결합해 각 단점을 보완하고 대규모 복합적 특성을 갖는 시스템의 요구사항 분석을 효율적으로 진행할 수 있는 통합 방법론을 제시하고, 실제 적용을 통해 그 효과를 보인다.

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

Building a Business Knowledge Base by a Supervised Learning and Rule-Based Method

  • Shin, Sungho;Jung, Hanmin;Yi, Mun Yong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권1호
    • /
    • pp.407-420
    • /
    • 2015
  • Natural Language Question Answering (NLQA) and Prescriptive Analytics (PA) have been identified as innovative, emerging technologies in 2015 by the Gartner group. These technologies require knowledge bases that consist of data that has been extracted from unstructured texts. Every business requires a knowledge base for business analytics as it can enhance companies' competitiveness in their industry. Most intelligent or analytic services depend a lot upon on knowledge bases. However, building a qualified knowledge base is very time consuming and requires a considerable amount of effort, especially if it is to be manually created. Another problem that occurs when creating a knowledge base is that it will be outdated by the time it is completed and will require constant updating even when it is ready in use. For these reason, it is more advisable to create a computerized knowledge base. This research focuses on building a computerized knowledge base for business using a supervised learning and rule-based method. The method proposed in this paper is based on information extraction, but it has been specialized and modified to extract information related only to a business. The business knowledge base created by our system can also be used for advanced functions such as presenting the hierarchy of technologies and products, and the relations between technologies and products. Using our method, these relations can be expanded and customized according to business requirements.

GuessWhat?! 문제에 대한 분석과 파훼 (Analyzing and Solving GuessWhat?!)

  • 이상우;한철호;허유정;강우영;전재현;장병탁
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.30-35
    • /
    • 2018
  • GuessWhat?!은 질문자와 답변자로 구성된 두 플레이어가 이미지를 보고 질문자에게 비밀로 감추어진 정답 물체에 대해 예/아니오/잘 모르겠음 셋 중 하나로 묻고 답하며, 정답 물체를 추려 나가는 문제이다. GuessWhat?!은 최근 컴퓨터 비전과 인공지능 대화 시스템의 테스트베드로서 컴퓨터 비전과 인공지능 학계의 많은 관심을 받았다. 본 논문에서, 우리는 GuessWhat?! 게임 프레임워크가 가지는 특성에 대해 논의한다. 더 나아가, 우리는 제안된 틀을 기반으로 GuessWhat?!의 간단한 solution을 제안한다. 사람이 평균 4~5개 정도의 질문을 통하여 맞추는 이 문제에 대하여, 우리가 제안한 방법은 2개의 질문만으로 기존 딥러닝 기반 기술의 성능을 상회하는 성능을 보이며, 5개의 질문이 허용되면 인간 수준의 성능을 능가한다.