• Title/Summary/Keyword: 한국어 문장 분류

Search Result 242, Processing Time 0.023 seconds

Analyzing Korean Math Word Problem Data Classification Difficulty Level Using the KoEPT Model (KoEPT 기반 한국어 수학 문장제 문제 데이터 분류 난도 분석)

  • Rhim, Sangkyu;Ki, Kyung Seo;Kim, Bugeun;Gweon, Gahgene
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.8
    • /
    • pp.315-324
    • /
    • 2022
  • In this paper, we propose KoEPT, a Transformer-based generative model for automatic math word problems solving. A math word problem written in human language which describes everyday situations in a mathematical form. Math word problem solving requires an artificial intelligence model to understand the implied logic within the problem. Therefore, it is being studied variously across the world to improve the language understanding ability of artificial intelligence. In the case of the Korean language, studies so far have mainly attempted to solve problems by classifying them into templates, but there is a limitation in that these techniques are difficult to apply to datasets with high classification difficulty. To solve this problem, this paper used the KoEPT model which uses 'expression' tokens and pointer networks. To measure the performance of this model, the classification difficulty scores of IL, CC, and ALG514, which are existing Korean mathematical sentence problem datasets, were measured, and then the performance of KoEPT was evaluated using 5-fold cross-validation. For the Korean datasets used for evaluation, KoEPT obtained the state-of-the-art(SOTA) performance with 99.1% in CC, which is comparable to the existing SOTA performance, and 89.3% and 80.5% in IL and ALG514, respectively. In addition, as a result of evaluation, KoEPT showed a relatively improved performance for datasets with high classification difficulty. Through an ablation study, we uncovered that the use of the 'expression' tokens and pointer networks contributed to KoEPT's state of being less affected by classification difficulty while obtaining good performance.

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

The Classification of Korean Noun and Verb for Natural Language Processing (자연언어 처리를 위한 한국어 동사.명사의 개념 분류)

  • Park, Young-Ja;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.141-149
    • /
    • 1992
  • 본 논문에서는 자연언어 처리 시스템에서 사용할 수 있는 단어의 개념 정보에 대해 연구한다. 그러기 위해 언어의 실생활에서의 쓰임 - 연세대학교 사전 편찬실의 연세 말뭉치 -을 바탕으로 한국어의 동사와 명사에 대해 개념을 조사, 분류하였으며 그 개념들이 한국어 문장 분석기에 어떻게 이용되는가를 보인다.

  • PDF

Korean Text Generation and Sentiment Analysis Using Model Combined VAE and CNN (VAE와 CNN이 결합된 모델을 이용한 한국어 문장 생성과 감성 분석)

  • Kim, Geon-Yeong;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.430-433
    • /
    • 2018
  • 딥러닝 모델의 성능 향상을 위해 적은 데이터를 증가시킬 수 있는 연구들이 필요하다. 이미지의 경우 회전, 이동, 반전등의 연산으로 쉽게 데이터를 증가시킬 수 있지만 자연어는 그렇지 않다. 그러나 최근 딥러닝 생성 모델의 발전으로 기존 자연어 데이터를 생성 모델을 통해 양을 늘려 실험하는 연구들이 많이 시도되었다. 본 논문에서는 문장 데이터 생성을 위한 VAE, 문장 분류를 위한 CNN이 결합된 모델을 한국어 영화평 데이터에 적용하여 기존 모델보다 0.146% 높은 86.736%의 정확도를 기록하였다.

  • PDF

Solution Method and Embodying of Adverb's Positioning Restrictions and Orderings for Korean-English Machine Translation (한.영 기계 번역을 위한 부사의 위치 및 순서제약 해결의 방안 및 구현)

  • Jo, Jun-Mo;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.163-167
    • /
    • 1994
  • 본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.

  • PDF

Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words (어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류)

  • Kim, Jung-Ho;Cha, Myung-Hoon;Kim, Myung-Kyu;Chae, Soo-Hoan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

A Right-to-Left Parsing using Headable Path (지배가능경로를 이용한 오른쪽 우선 구문 분석)

  • Kim, Chang-Hyun;Kim, Jae-Hoon;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.35-44
    • /
    • 1993
  • 본 논문에서는 의존문법을 이용해 한국어와 같이 비교적 어순이 자유롭고, 지배성분 후위의 특성을 갖는 언어를 효율적으로 분석할 수 있는 오른쪽 우선 분석 방법을 제안한다. 지배가능경로를 이용하면 생성되는 의존 트리의 수를 줄일 수 있음을 보이며, 의존 관계의 검사를 위해서는 지배가능경로 상의 문장 성분만을 조사하면 됨을 보인다. 한국어에 적용한 실험 결과를 보이며, 각 방식에 따른 비교 기준은 생성되는 외존 트리의 갯수와 분석 수행 시간으로 한다. 이때 한국어 문장성분간의 의존관계는 품사 분류에 의한 기본적인 의존 관계만을 이용하며, 격돌이나 의미 속성 등 추가적인 제약 사항은 이용하지 않는다. 오른쪽 우선 구문 분석은 지배가능경로를 이용함으로써 의존 관계의 빠른 검색을 할 수 있었으며, 문장 지배 성찰을 포함하지 않는 부분 의존 트리를 생성하지 않음으로써 생성되는 의존 트리의 수를 줄일 수 있었다.

  • PDF

A Description Method of Korean Auxiliary Verbs (한국어 보조동사의 개념그래프적 기술 방안)

  • Lee, Byeong-Hui;Gwon, O-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.4
    • /
    • pp.373-380
    • /
    • 2001
  • 본 논문은 한국어 보조동사의 의미를 Sowa에 의해 제안되고 국제표준이 되고있는 개념그래프를 이용하여 형식적으로 기술하는 방법을 제안한다. 이를 위해 영어의 양상과 상에 관한 개념그래프를 알아보고 한국어 보조동사를 통사/의미론적으로 고찰한다. 한국어 보조동사의 개념그래프적 기술을 위해, 각종 논문과 국어사전에서 한국어 보조동사 40개의 여러 예문들을 수집하여 완료, 진행, 봉사, 시도, 강세, 원망, 지속, 추정의 8가지 의미로 분류하고 이들을 개념그래프로 기술한다. 실험에서는 이들 8가지 의미들을 인공지능언어의 일종인 LIPS과 유사한 KIF로 작성하고 C++를 이용하여 한국어 보조동사가 포함된 문장을 입력받아 개념그래프로 변환하는 프로그램을 구현한다. 문장 내의 모든 범주들의 개념과 개념 관계가 자연어의 모든 의미관계를 표시할 수 있는 개념그래프는 한국어 보조동사의 다양한 의미를 기술하는데 적합함을 알 수 있었다.

  • PDF

A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages (라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구)

  • Jaeah, Lee;Gooman, Park
    • Journal of Broadcast Engineering
    • /
    • v.27 no.6
    • /
    • pp.940-943
    • /
    • 2022
  • This study aims to analyze the Korean dataset by performing Korean sentence Emotion Analysis in the radio listeners' text messages collected personally. Currently, in Korea, research on the Emotion Analysis of Korean sentences is variously continuing. However, it is difficult to expect high accuracy of Emotion Analysis due to the linguistic characteristics of Korean. In addition, a lot of research has been done on Binary Sentiment Analysis that allows positive/negative classification only, but Multi-class Emotion Analysis that is classified into three or more emotions requires more research. In this regard, it is necessary to consider and analyze the Korean dataset to increase the accuracy of Multi-class Emotion Analysis for Korean. In this paper, we analyzed why Korean Emotion Analysis is difficult in the process of conducting Emotion Analysis through surveys and experiments, proposed a method for creating a dataset that can improve accuracy and can be used as a basis for Emotion Analysis of Korean sentences.

A Conditional Unification Based Parsing for Korean Using Sentence-Type Information (문장 형태 정보를 이용한 조건단일화 기반 한국어 파싱)

  • Yang Seungweon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.4
    • /
    • pp.1-7
    • /
    • 2004
  • In this thesis, we introduce a parsing method which use information of the post position in Korean to get the exact parsing tree. In order to implement this method we classified categories of the predicates, and defined sentence-types based on these categories. We tried to make parsing using the method grasping the grammatical role of the noun phrase that have to exist in each sentence-type. In parser control mechanism, we use some heuristics based on linguistic frame. We use conditional unification to implement analysis. It is Possible to reduce ambiguous because the parsing method suggested helps to Prune the branches which are unnecessary.

  • PDF