• Title/Summary/Keyword: 자연어 질의

Search Result 186, Processing Time 0.04 seconds

A Study of Semantic Role Labeling using Domain Adaptation Technique for Question (도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

Recommender System Development Based on Wine Review Big Data Analysis and Deep Learning (와인 후기 빅 데이터 분석과 딥러닝 기반 추천 시스템 개발)

  • Ji, Hong-Geun;Lee, Tae-Ki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.763-766
    • /
    • 2019
  • 최근 사람들의 삶의 질이 향상됨에 따라 기호품인 와인의 수요가 늘어나고 있다. 그러나 와인은 생산하는데 길게는 수십 년이 걸리는 고가의 제품이므로 소비자가 와인과 잘못 구매했을 때의 기회비용이 크다. 본 논문에서는 전문 와인 테이스터 들의 후기 빅 데이터를 활용하여 딥러닝 기반 추천시스템을 개발을 다룬다. 테이스터 들의 후기 빅 데이터에 대해 Apache Pig와 자연어 처리를 통한 전 처리 과정을 수행해 리뷰 별로 특징 벡터를 구성하고, 하이퍼 매개변수 최적화와 조기 종료 기법을 사용해 데이터에 대하여 최적의 딥러닝 분류기를 구성하였다. 마지막으로, 구성된 시스템의 신뢰도를 검증하기 위해서 딥러닝의 정확도와 오차율을 확인하였고 시스템이 추천한 와인을 시각화 이미지와 비교하여 성능을 검증하였다.

Chatbot-based financial application Using AI Technology (AI 기술을 이용한 챗봇 기반 금융 어플리케이션)

  • Kwon, Ji Yeon;Choi, Dae Won;Kim, Eui Song;Moon, Jae Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.876-878
    • /
    • 2019
  • 본 연구에서는 금융 분야에서 AI 기술을 이용하여 챗봇 기반의 예측 시스템을 구축하는데 목적이 있다. 사용자가 이해하기 쉽게 챗봇 기반으로 실시간 서비스를 제공하며 투자 경험이 없는 사용자를 타겟으로 투자 추천을 하는 것을 목표로 개발하였다. 챗봇 기반의 금융 어플리케이션에서는 종목 주가조회, 코스피 상위 조회, 예측결과 조회, ELS상품추천 등으로 크게 네 가지의 의도파악을 하며 자연어 처리와 단어 매칭 처리를 통해서 사용자에게 최적화된 정보를 제공한다. 정보의 질을 높이기 위해서 인공지능 학습은 10년 치의 데이터를 학습시켰으며 비슷한 패턴을 예측해서 제공한다. 상장기업의 주식과 은행에서 판매하는 ELS를 추천하고 있으며, 챗봇 서비스를 통해 사용자와 실시간적으로 소통할 수 있는 AI기반의 금융 시스템을 제공한다.

A Study on Correlation between Line-Region Topology and Motion Verbs (움직임 동사와 선-영역 위상간 관련성에 관한 연구)

  • Cho, Mi-Young;Song, Dan;Choi, Jun-Ho;Kim, Won-Pil;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.177-180
    • /
    • 2004
  • 비디오 데이터베이스에서 움직임 정보를 가지고 있는 이동객체에 대한 모델링은 크게 두 가지 측면 즉, 공간적 혹은 시간적 관계성에 의해 다루어진다. 공간적 관계에서 위상 관계는 근접 그래프에 의한 모델링이 대부분이며, 이를 이용한 내용 기반 비디오 검색에서 자연어 형태의 질의어는 정형화된 위상 관계 표현으로 변환하는 과정을 거친다. 그러나 이 과정에서 위상 관계 표현이 인간이 사용하는 언어의 의미를 정확히 반영하는지는 알 수 없다. 이에 본 논문에서는 위상 관계 표현과 인간이 사용하는 움직임 동사간 의미의 차이를 줄이기 위해 위상 관계 표현과 실제 움직임 동사간의 매칭에 대해 연구했다.

  • PDF

BERT-based Data Augmentation Techniques for Korean Coreference Resolution (한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법)

  • Kim, Kihun;Lee, Changki;Ryu, Jihee;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.249-253
    • /
    • 2020
  • 상호참조해결은 문서 내에 등장하는 모든 멘션 중에서 같은 의미를 갖는 대상(개체)들을 하나의 집합으로 묶어주는 자연어처리 태스크이다. 한국어 상호참조해결의 학습 데이터는 영어권에 비해 적은 양이다. 데이터 증강 기법은 부족한 학습 데이터를 증강하여 기계학습 기반 모델의 성능을 향상시킬 수 있는 방법 중 하나이며, 주로 규칙 기반 데이터 증강 기법이 연구되고 있다. 그러나 규칙 기반으로 데이터를 증강하게 될 경우 규칙 조건을 만족하지 못했을 때 데이터 증강이 힘들다는 문제점과 임의로 단어를 변경 혹은 삭제하는 과정에서 문맥에 영향을 주는 문제점이 발생할 수 있다. 따라서 본 논문에서는 BERT의 MLM(Masked Language Model)을 이용하여 기존 규칙기반 데이터 증강 기법의 문제점을 해결하고 한국어 상호참조해결 데이터를 증강하는 방법을 소개한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터에서 CoNLL F1 1.39% (TEST) 성능 향상을 보였다.

  • PDF

Effective Passage Reranking with Textual Entailment Feedback (Textual Entailment Feedback 기반 효율적인 문서 재순위화기)

  • Seong-Uk Nam;Donghoon Han;Eunhwan Park;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.377-381
    • /
    • 2023
  • 재순위화기 연구는 주로 파이프라인 과정 설계, 데이터 증강, 학습 함수 개선, 혹은 대규모 언어 모델의 지식 활용 등에 집중되어있다. 이러한 연구들은 좋은 성능 상승을 이끌어주었지만 실제 적용이 힘들 뿐만 아니라 학습 비용이 크게 발생한다는 한계점을 가지고 있다. 더 나아가 주어진 데이터 집합만을 활용해서는 보다 더 세부적인 학습 신호를 주기 어렵다는 단점 또한 존재한다. 최근 자연어처리 분야의 연구에서는 피드백을 인위적으로 생성하여 반영하여 모델 성능 상승을 이끄는 연구가 제안되었다. 본 연구는, 이러한 연구를 바탕으로 질의와 문서 간의 함의 관계 점수를 피드백으로 사용 및 재순위화기 모델로의 반영을 제안한다. 재순위화기 모델에 대해 피드백을 반영하는것은 그렇지 않은 모델 대비하여 성능 상승을 이끌며 피드백 반영이 더 좋은 표상 도출에 도움이 됨을 확인할 수 있다.

  • PDF

Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity (문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상)

  • Park Eui-Kyu;Ra Dong-Yul;Jang Myung-Gil
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.5
    • /
    • pp.406-415
    • /
    • 2005
  • Prosperity of Internet led to the web containing huge number of documents. Thus increasing importance is given to the web information retrieval technology that can provide users with documents that contain the right information they want. This paper proposes several techniques that are effective for the improvement of web information retrieval. Similarity between a document and the query is a major source of information exploited by conventional systems. However, we suggest a technique to make use of similarity between a sentence and the query. We introduce a technique to compute the approximate score of the sentence-query similarity even without a mature technology of natural language processing. It was shown that the amount of computation for this task is linear to the number of documents in the total collection, which implies that practical systems can make use of this technique. The next important technique proposed in this paper is to use stratification of documents in re-ranking the documents to output. It was shown that it can lead to significant improvement in performance. We furthermore showed that using hyper links, anchor texts, and titles can result in enhancement of performance. To justify the proposed techniques we developed a large scale web information retrieval system and used it for experiments.

Tax Judgment Analysis and Prediction using NLP and BiLSTM (NLP와 BiLSTM을 적용한 조세 결정문의 분석과 예측)

  • Lee, Yeong-Keun;Park, Koo-Rack;Lee, Hoo-Young
    • Journal of Digital Convergence
    • /
    • v.19 no.9
    • /
    • pp.181-188
    • /
    • 2021
  • Research and importance of legal services applied with AI so that it can be easily understood and predictable in difficult legal fields is increasing. In this study, based on the decision of the Tax Tribunal in the field of tax law, a model was built through self-learning through information collection and data processing, and the prediction results were answered to the user's query and the accuracy was verified. The proposed model collects information on tax decisions and extracts useful data through web crawling, and generates word vectors by applying Word2Vec's Fast Text algorithm to the optimized output through NLP. 11,103 cases of information were collected and classified from 2017 to 2019, and verified with 70% accuracy. It can be useful in various legal systems and prior research to be more efficient application.

Predicate Recognition Method using BiLSTM Model and Morpheme Features (BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법)

  • Nam, Chung-Hyeon;Jang, Kyung-Sik
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.1
    • /
    • pp.24-29
    • /
    • 2022
  • Semantic role labeling task used in various natural language processing fields, such as information extraction and question answering systems, is the task of identifying the arugments for a given sentence and predicate. Predicate used as semantic role labeling input are extracted using lexical analysis results such as POS-tagging, but the problem is that predicate can't extract all linguistic patterns because predicate in korean language has various patterns, depending on the meaning of sentence. In this paper, we propose a korean predicate recognition method using neural network model with pre-trained embedding models and lexical features. The experiments compare the performance on the hyper parameters of models and with or without the use of embedding models and lexical features. As a result, we confirm that the performance of the proposed neural network model was 92.63%.

A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions (금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구)

  • Jae Kwon Bae
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.29 no.3
    • /
    • pp.79-87
    • /
    • 2024
  • Recently, the importance of pre-trained language models (PLM) has been emphasized for natural language processing (NLP) such as text classification, sentiment analysis, and question answering. Korean PLM shows high performance in NLP in general-purpose domains, but is weak in domains such as finance, medicine, and law. The main goal of this study is to propose a language model learning process and method to build a financial-specific language model that shows good performance not only in the financial domain but also in general-purpose domains. The five steps of the financial-specific language model are (1) financial data collection and preprocessing, (2) selection of model architecture such as PLM or foundation model, (3) domain data learning and instruction tuning, (4) model verification and evaluation, and (5) model deployment and utilization. Through this, a method for constructing pre-learning data that takes advantage of the characteristics of the financial domain and an efficient LLM training method, adaptive learning and instruction tuning techniques, were presented.