• Title/Summary/Keyword: 한글과컴퓨터

Search Result 347, Processing Time 0.044 seconds

Predicting the Politeness of an Utterance with Deep Learning (딥러닝 방법을 이용한 발화의 공손함 판단)

  • Lee, Chanhee;Whang, Taesun;Kim, Minjeong;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.280-283
    • /
    • 2019
  • 공손함은 인간 언어의 가장 흥미로운 특징 중 하나이며, 자연어처리 시스템이 인간과 자연스럽게 대화하기 위해 필수적으로 모델링해야 할 요소이다. 본 연구에서는 인간의 발화가 주어졌을 때, 이의 공손함을 판단할 수 있는 시스템을 구현한다. 이를 위해 딥러닝 방법인 양방향 LSTM 모델과, 최근 자연어처리 분야에서 각광받고 있는 BERT 모델에 대해 성능 비교를 수행하였다. 이 두 기술은 모두 문맥 정보를 반영할 수 있는 모델로서, 같은 단어라도 문맥 정보에 따라 의미가 달라질 수 있는 공손함의 미묘한 차이를 반영할 수 있다. 실험 결과, 여러 설정에 거쳐 BERT 모델이 양방향 LSTM 모델보다 더 우수함을 확인하였다. 또한, 발화가 구어체보다 문어체에 가까울 수록 딥러닝 모델의 성능이 더 좋은 것으로 나타났다. 제안된 두 가지 방법의 성능을 인간의 판단 능력과 비교해본 결과, 위키피디아 도메인에서 BERT 모델이 91.71%의 성능을 보여 인간의 정확도인 86.72%를 상회함을 확인하였다.

  • PDF

PEEP-Talk: Deep Learning-based English Education Platform for Personalized Foreign Language Learning (PEEP-Talk: 개인화 외국어 학습을 위한 딥러닝 기반 영어 교육 플랫폼)

  • Lee, SeungJun;Jang, Yoonna;Park, Chanjun;Kim, Minwoo;Yahya, Bernardo N;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.293-299
    • /
    • 2021
  • 본 논문은 외국어 학습을 위한 딥러닝 기반 영어 교육 플랫폼인 PEEP-Talk (Personalized English Education Platform)을 제안한다. PEEP-Talk는 딥러닝 기반 페르소나 대화 시스템과 영어 문법 교정 피드백 기능이 내장된 교육용 플랫폼이다. 또한 기존 페르소나 대화시스템과 다르게 대화의 흐름이 벗어날 시 이를 자동으로 판단하여 대화 주제를 실시간으로 변경할 수 있는 CD (Context Detector) 모듈을 제안하며 이를 적용하여 실제 사람과 대화하는 듯한 느낌을 사용자에게 줄 수 있다. 본 논문은 PEEP-Talk의 각 모듈에 대한 정량적인 분석과 더불어 CD 모듈을 객관적으로 판단할 수 있는 새로운 성능 평가지표인 CDM (Context Detector Metric)을 기반으로 PEEP-Talk의 강건함을 검증하였다. 이와 더불어 PEEP-Talk를 카카오톡 채널을 이용하여 배포하였다.

  • PDF

An Effective Segmentation Scheme for Korean Sentence Classification tasks (한국어 문장 분류 태스크에서의 효과적 분절 전략)

  • Kim, Jin-Sung;Kim, Gyeong-Min;Son, Junyoung;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.173-177
    • /
    • 2021
  • 분절을 통한 양질의 입력 자질을 구성하는 것은 언어모델의 문장에 대한 이해도를 높이기 위한 필수적인 단계이다. 분절은 문장의 의미를 이해하는 데 있어 중요한 역할을 하기 때문이다. 따라서, 한국어 문장 분류 태스크를 수행함에 있어 한국어의 특징에 맞는 분절 기법을 선택하는 것은 필수적이다. 명확한 판단 기준 마련을 위해, 우리는 한국어 문장 분류 태스크에서 가장 효과적인 분절 기법이 무엇인지 감성 분석, 자연어 추론, 텍스트 간 의미적 유사성 판단 태스크를 통해 검증한다. 이 때 비교할 분절 기법의 유형 분류 기준은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 설정하며, 분절 기법 외의 다른 실험 환경들은 동일하게 설정하여 분절 기법이 문장 분류 성능에 미치는 영향만을 측정하도록 한다. 실험 결과에 따르면 자모 단위의 분절 기법을 적용한 모델이 평균적으로 가장 높은 성능을 보여주며, 반복 실험 간 편차가 적어 일관적인 성능 결과를 기록함을 확인할 수 있다.

  • PDF

CJK Chinese Character-Korean Character Conversion Keyword Domain Name System in Software Defined Network (소프트웨어 정의 네트워크를 이용한 한중일 한자-한국어 변환 키워드 도메인 이름 시스템)

  • Lee, SeungHun;Cho, SungChol;Xue, Yuanyuan;Lu, Kai;Xiang, Tiange;Han, Sunyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.339-342
    • /
    • 2019
  • 본 논문에서는 소프트웨어 정의 네트워크를 이용한 한중일 한자-한국어 변환 키워드 도메인 이름 시스템을 제안하였다. 한자 체계를 주로 사용하는 한국, 중국, 일본에서 세 나라의 한자 수량이 너무 많기 때문에 우선 한국, 중국, 일본이 공용으로 사용하는 한자 체계인 CJK808을 가지고 연구하였다. 연구를 통해 CJK808 한자 체계에서 각 나라의 한자 특징도 많이 발견하였고, 그 중에서 표준자와 이체자의 다양성이 더욱 두드러졌다. SDN을 이용함으로써 관리 측면에서 다양한 이점을 얻을 수 있다. 제안하는 시스템을 통하여 사용자들은 한국, 중국, 일본 한자를 입력하면 SDN에서 관리하는 도메인 네임 서버를 통해 IP 주소를 얻을 수 있다.

  • PDF

Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation (추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성)

  • Lee, Hyeon-gu;Jang, Youngjin;Kim, Jintae;Wang, JiHyun;Shin, Donghoon;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF

Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator (다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법)

  • Lee, Jun-Beom;Park, Hyeong-Jun;Song, Hyun-Je;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

Generation Methodology Using Super In-Context Learning (Super In-Context Learning을 활용한 생성 방법론)

  • Seongtae Hong;Seungjun Lee;Gyeongmin Kim;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.382-387
    • /
    • 2023
  • 현재 GPT-4와 같은 거대한 언어 모델이 기계 번역, 요약 및 대화와 같은 다양한 작업에서 압도적인 성능을 보이고 있다. 그러나 이러한 거대 언어 모델은 학습 및 적용에 상당한 계산 리소스와 도메인 특화 미세 조정이 어려운 등 몇 가지 문제를 가지고 있다. In-Context learning은 데이터셋에서 추출한 컨택스트의 정보만으로 효과적으로 작동할 수 있는 효율성을 제공하여 앞선 문제를 일부 해결했지만, 컨텍스트의 샷 개수와 순서에 민감한 문제가 존재한다. 이러한 도전 과제를 해결하기 위해, 우리는 Super In-Context Learning (SuperICL)을 활용한 새로운 방법론을 제안한다. 기존의 SuperICL은 적용한 플러그인 모델의 출력 정보를 이용하여 문맥을 새로 구성하고 이를 활용하여 거대 언어 모델이 더욱 잘 분류할 수 있도록 한다. Super In-Context Learning for Generation은 다양한 자연어 생성 작업에 효과적으로 최적화하는 방법을 제공한다. 실험을 통해 플러그인 모델을 교체하여 다양한 작업에 적응하는 가능성을 확인하고, 자연어 생성 작업에서 우수한 성능을 보여준다. BLEU 및 ROUGE 메트릭을 포함한 평가 결과에서도 성능 향상을 보여주며, 선호도 평가를 통해 모델의 효과성을 확인했다.

  • PDF

Atomic Unit-based Post Editing for Hallucination Reduction (환각 현상 완화를 위한 단위 사실 기반 사후 교정)

  • Yonghwan Lee;Jeongwan Shin;Hyun-Je Song
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.222-227
    • /
    • 2023
  • 환각 현상이란 LLM이 생성 태스크에서 사실이 아닌 내용을 생성하거나 근거가 없는 내용을 생성하는 현상을 말한다. 환각 현상은 LLM이 생성한 출력물에 대한 사용자의 신뢰를 떨어뜨리기 때문에 환각을 완화할 수 있는 방법이 필요하다. 최근 사후 편집 모델 중 하나인 RARR는 입력 텍스트를 질문들 순서에 따라 순차적으로 편집하여 환각을 완화하였지만 이전 단계의 편집 오류가 전파되거나 같은 작업을 반복하는 등의 단점이 있었다. 본 논문은 환각 현상 완화를 위한 단위 사실 기반 사후 교정을 제안한다. 제안한 방법은 입력 텍스트를 단위 사실로 분해하고 각 사실에 대응하는 질문을 생성한 후 검색된 관련 문서로 환각 여부를 판단한다. 환각이라 판단되면 편집을 수행하여 환각을 완화한다. 병렬적으로 편집을 진행하기 때문에 기존 연구의 순차적인 오류 전파 문제를 해결하고 기존 연구에 비해 더 빠른 사후 편집을 진행할 수 있다. 실험 결과, 제안 방법이 RARR보다 Preservation Score, 원문과의 사실성 일치여부, 의도 보존 여부에서 모두 우수한 성능을 보인다.

  • PDF

Generating Label Word Set based on Maximal Marginal Relevance for Few-shot Name Entity Recognition (퓨샷 개체명 인식을 위한 Maximal Marginal Relevance 기반의 라벨 단어 집합 생성)

  • HyoRim Choi;Hyunsun Hwang;Changki Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.664-671
    • /
    • 2023
  • 최근 다양한 거대 언어모델(Large Language Model)들이 개발되면서 프롬프트 엔지니어링의 대한 다양한 연구가 진행되고 있다. 본 논문에서는 퓨삿 학습 환경에서 개체명 인식의 성능을 높이기 위해서 제안된 템플릿이 필요 없는 프롬프트 튜닝(Template-free Prompt Tuning) 방법을 이용하고, 이 방법에서 사용된 라벨 단어 집합 생성 방법에 Maximal Marginal Relevance 알고리즘을 적용하여 해당 개체명에 대해 보다 다양하고 구체적인 라벨 단어 집합을 생성하도록 개선하였다. 실험 결과, 'LOC' 타입을 제외한 나머지 개체명 타입에서 'PER' 타입은 0.60%p, 'ORG' 타입은 4.98%p, 'MISC' 타입은 1.38%p 성능이 향상되었고, 전체 개체명 인식 성능은 1.26%p 향상되었다. 이를 통해 본 논문에서 제안한 라벨 단어 집합 생성 기법이 개체명 인식 성능 향상에 도움이 됨을 보였다.

  • PDF

Vulnerability Analysis on Digital Signature Function of Word Processors (워드프로세서의 전자서명 기능에 대한 취약성 분석)

  • Lee, Chang-Bin;Park, Sun-Woo;Lee, Kwang-Woo;Kim, Jee-Yeon;Nam, Jung-Hyun;Lee, Young-Sook;Won, Dong-Ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.8
    • /
    • pp.109-118
    • /
    • 2011
  • Recently, electronic documents are deployed in many areas. However, trust concerns arise owing to the fact that detecting whether an electronic document is modified or not is not an easy process. To facilitate this process, many word processors provide digital signature capabilities on themselves. However, there were not much research on the security of digital signature function of various programs including Microsoft Word and Hancom Hangul. Therefore, in this paper, we analyze the security of Microsoft Word and Hancom Hangul, and propose improvements for their digital signature schemes.