• Title/Summary/Keyword: 한글과컴퓨터

Search Result 347, Processing Time 0.021 seconds

Alleviation of Overcorrection Problem in Neural Korean Spelling Correction (뉴럴 한국어 맞춤법 교정기에서 과교정(Overcorrection) 문제 완화)

  • Park, Chanjun;Lee, Yeonsu;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.582-587
    • /
    • 2020
  • 현재까지 한국어 맞춤법 교정 Task는 대부분 규칙기반 및 통계기반 방식의 연구가 진행되었으며 최근 딥러닝 기반의 한국어 맞춤법 교정에 대한 연구가 진행되고 있다. 맞춤법 교정에서 문법적 또는 철자적으로 틀린 부분을 교정하는 것도 중요하지만 올바른 문장이 입력으로 들어왔을 때 교정을 진행하지 않고 올바른 문장을 출력으로 내보내는 것 또한 중요하다. 규칙기반 맞춤법 교정기 같은 경우 문장의 구조를 흐트러트리지 않고 규칙에 부합하는 오류 부분만 고쳐낸다는 장점이 있으나 신경망 기반의 한국어 맞춤법 교정 같은 경우 Neural Machine Translation(NMT)의 고질적인 문제점인 반복 번역, 생략, UNK(Unknown) 때문에 문장의 구조를 흐트러트리거나 overcorrection(과교정) 하는 경우가 존재한다. 본 논문은 이러한 한계점을 극복하기 위하여 Correct to Correct Mechanism을 제안하며 이를 통해 올바른 문장이 입력으로 들어왔을 시 올바른 문장을 출력하는 성능을 높인다.

  • PDF

A Study of Korean Subdialogues and Discourse Markers (한국어 대화체의 부 대화 유형 및 담화표지에 관한 연구)

  • Lee, Hyon-Ho;Lim, Hye-Won;Kim, Young-Mi;Yang, Young-Ha
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.477-492
    • /
    • 1997
  • 본 연구에서는 한국어 대화체에 사용되는 담화표지와 부 대화의 유형을 분석하였다. 한국어 대화체에 사용되는 각종 담화표지에 대한 기존의 언어학적 연구를 정리하였고, 실제 한국어 대화자료를 녹취, 전사하여 연구에 필요한 데이터를 만들었으며, 이 데이터를 분석하여 한국어 대화체에서 관찰되는 부 대화의 유형을 분류하고자 하였다. 또한 각 부 대화와 담화표지들간의 관계를 규명하려는 시도를 하였다. 이것은 인간과 컴퓨터간의 특정 목적 대화를 구현하는 데도 중요한 역할을 한다. 특히 인간과 컴퓨터가 예약, 상담 등 특정 목적을 달성하기 위한 대화를 수행할 수 있는 프로그램을 구축하는 데 있어서, 인간이 실제로 사용하는 담화표지 및 의사소동 책략 등을 반영할 수 있게 해줄 것이다. 담화분석 연구자들이 실제 대화 자료를 분석하여 한국어 대화체의 기저에 흐르는 대화의 메카니즘을 다방면에서 종합적으로 정리하면 그 결과를 토대로 전산학 연구자들이 한층 바람직한 한국어 대화인지 모형을 만들어낼 수 있을 것으로 기대된다.

  • PDF

Integrated Dialogue Analysis using Long Short-Term Memory (Long Short-Term Memory를 이용한 통합 대화 분석)

  • Kim, Min-Kyoung;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.119-121
    • /
    • 2016
  • 최근 사람과 컴퓨터가 대화를 하는 채팅시스템 연구가 활발해지고 있다. 컴퓨터가 사람의 말에 적절한 응답을 하기 위해선 그 의미를 분석할 필요가 있다. 발화에 대한 의미 분석의 기본이 되는 연구로 감정분석과 화행분석이 있다. 그러나 이 둘은 서로 밀접한 연관이 있음에도 불구하고 함께 분석하는 연구가 시도 되지 않았다. 본 연구에서는 Long Short-term Memory(LSTM)를 이용하여 대화체 문장의 감정과 화행, 서술자를 동시에 분석하는 통합 대화 분석모델을 제안한다. 사랑 도메인 데이터를 사용한 실험에서 제안 모델은 감정 58.08%, 화행 82.60%, 서술자 62.74%의 정확도(Accuracy)를 보였다.

  • PDF

Grammar Error Detection System for Learners of Spoken and Written English (영어 말하기, 쓰기 학습자를 위한 문법 오류 검출 시스템)

  • Seo, Hongsuck;Lee, Sungjin;Lee, Jinsik;Lee, Jonghoon;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.136-139
    • /
    • 2011
  • 외국어 교육의 필요성이 강조되고 그에 대한 요구가 늘어남에 따라 언어 교육의 기회를 늘리고 비용을 줄이기 위해 컴퓨터 기반의 다양한 기술들의 요구 역시 증가하고 개발되고 있다. 언어 능력 개발의 중요한 요소로서 문법 교육에 대한 컴퓨터 지원 기술 연구가 활발히 진행되고 있다. 본 연구에서는 문법 오류 시뮬레이션을 통해 문법 오류 패턴 데이터베이스를 구축하고 이들 패턴과 사용자 입력의 패턴 매칭으로 생성된 자질 벡터로 기계 학습을 하여 문법성 확인을 했다. 문법성 확인 결과에 따라 오류 종류에 따른 상대 빈도를 고려하여 오류 종류를 분류했다. 또 말하기와 쓰기 작업의 서로 다른 특성을 반영하기 위해 말하기 작업과 쓰기 작업에 대한 두 개의 다른 말뭉치가 학습에 이용 되었다.

  • PDF

Comparison of KoBART and KoBERT models for Korean paper summarization (한국어 논문 요약을 위한 KoBART와 KoBERT 모델 비교*)

  • Jaesung Jun;Suan Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.562-564
    • /
    • 2022
  • 통신 기술의 발전으로 일반인들도 다양한 자료들을 인터넷에서 손쉽게 찾아볼 수 있는 시대가 도래하였다. 개인이 접근할 수 있는 정보량이 기하급수적으로 많아 짐에 따라, 이를 효율적으로 요약, 정리하여 보여주는 서비스들의 필요성이 높아지기 시작했다. 본 논문에서는, 자연어 처리 모델인 BART를 40GB 이상의 한국어 텍스트로 미리 학습된 한국어 언어 모델 KoBART를 사용한 한국어 논문 요약 모델을 제안하고, KoBART와 KoBERT 모델의 한국어 논문 요약 성능을 비교한다.

  • PDF

KorCAT: Cohesion Analysis Tool for Korean Text (한국어 텍스트 결속성 측정 도구: KorCAT)

  • Dong-Hyun Kim;Hyun-Jung Kim;Chul-hui Kim;Young-Duk Seo
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.582-587
    • /
    • 2022
  • 결속성은 텍스트의 의미 관계 분석에서 주요하게 고려되는 요인 중 하나이다. 결속성이 높을 수록 텍스트 내 언어적 의미 관계가 긴밀한 것으로 볼 수 있기 때문이다. 사람에 의한 텍스트 결속성 분석은 주관이 개입되는 문제를 배제할 수 없는데, 영어에는 TAACO라고 불리는 결속성 자동 측정 도구가 있어 다양한 지표들로 텍스트의 결속성을 측정하고 있다. 그러나 한국어에는 이와 같은 텍스트 결속성 자동 측정 도구가 거의 없으며, 관련 연구도 상당히 부족한 실정이다. 따라서 본 논문에서는 한국어 텍스트의 의미 관계 분석을 위한 결속성 지표를 정의하고, 한국어의 특성에 맞는 결속성 측정 도구인 KorCAT을 제안한다.

  • PDF

Context independent claim detection model using semantic and structural information of sentences (문장의 구조 정보와 의미 정보를 이용한 문맥 독립 주장 탐지 모델)

  • Won-Jae Park;Gi-Hyeon Choi;Hark-Soo Kim;Tae-il Kim;Sung-Won Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.437-441
    • /
    • 2022
  • 문맥 독립 주장 탐지는 논점에 대한 정보가 주어지지 않은 상황에서 문서 내부의 문장들 또는 단일 문장에 대한 주장을 탐지하는 작업이다. 본 논문에서는 GCN 계층을 통해 얻은 구조 정보와 사전 학습된 언어 모델을 통해 얻은 의미 정보를 활용하는 문맥 독립 주장 탐지 모델을 제안한다. 특히 문장의 전체 구조 정보를 나타내는 부모-자식 그래프와 문장의 특정 구조 정보를 나타내는 조부모-조손 그래프를 활용해 추가적인 구조 정보를 활용하여 주장 탐지 성능을 향상시켰다. 제안 모델은 IAM 데이터셋을 사용한 실험에서 기본 RoBERTa base 모델과 비교하여 최대 2.66%p의 성능 향상을 보였다.

  • PDF

Target extraction in Korean aspect-based sentiment analysis using stepwise feature of multi-task learning model (다중 작업 학습의 단계적 특징을 활용한 한국어 속성 기반 감성 분석에서의 대상 추출)

  • Ho-Min Park;Jae-Hoon Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.630-633
    • /
    • 2022
  • 속성기반 감성 분석은 텍스트 내에 존재하는 속성에 대해 세분화된 감성 분석을 수행하는 과제를 말한다. 세분화된 감성분석을 정확하게 수행하기 위해서는 텍스트에 존재하는 감성 표현과 그것이 수식하는 대상에 대한 정보가 반드시 필요하다. 그리고 순서대로 두 가지 정보는 이후 정보를 텍스트에서 추출하기 위해 중요한 단서가 된다. 따라서 본 논문에서는 KorBERT와 Bi-LSTM을 이용한 단계적 특징을 활용한 다중 작업 학습 모델을 사용하여 한국어 감성 분석 말뭉치의 감성 표현과 대상을 추출하는 작업을 수행하였다. 제안한 모델을 한국어 감성 분석 말뭉치로 학습 및 평가한 결과, 감성 표현 추출 작업의 출력을 추가적인 특성으로 전달하여 대상 추출 작업의 성능을 향상시킬 수 있음을 보였다.

  • PDF

Category-wise Neural Summarizer with Class Activation Map (클래스 활성화 맵을 이용한 카테고리 의존적 요약)

  • Kim, So-Eon;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

Poly-encoder based COVID-19 Question and Answering with Task Adaptation (Poly-encoder기반의 COVID-19 질의 응답 태스크)

  • Lee, Seolhwa;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.188-191
    • /
    • 2020
  • 본 연구는 COVID-19 질의 응답 태스크를 위한 Poly-encoder 기반의 태스크를 제안하였다. COVID-19 질의 응답 시스템은 사람들에게 최신 정보에 대해 빠르고 신뢰성이 높은 정보를 전달하는 특성을 가져야한다. 검색 기반 질의 응답 시스템은 pairwise 연산을 기반으로 수행되는데, Poly-encoder는 사전 학습된 트랜스포머(transformer)기반의 pairwise 연산 방법론 중 기존 Cross-encoder와 Bi-encoder보다 실사용 및 성능이 뛰어남을 보였다 [1]. 특히, Poly-encoder는 정확도가 높으면서도 빠른 응답속도를 가지며 검색기반의 각종 태스크에서 좋은 성능을 보였다. 따라서 본 연구는 COVID-19를 위한 Poly-encoder기반의 질의 응답 태스크를 위하여 기존 질의 응답 태스크와 페르소나 기반의 질의 응답 태스크로 두 가지 유형의 태스크를 생성하여 모델을 학습하였다. 또한 신뢰성 있는 리소스정보로부터 모델에 최신 정보 반영을 위하여 자동 크롤러를 구축하여 데이터를 수집하였다. 마지막으로 전문가를 통한 데이터셋을 구축하여 질문-응답과 질의어-질문에 대한 모델 검증을 수행하였다.

  • PDF