Search | Korea Science

Towards Korean-Centric Token-free Pretrained Language Model (한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구)

Jong-Hun Shin;Jeong Heo;Ji-Hee Ryu;Ki-Young Lee;Young-Ae Seo;Jin Seong;Soo-Jong Lim
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.711-715
- /
- 2023
본 연구는 대부분의 언어 모델이 사용하고 있는 서브워드 토큰화 과정을 거치지 않고, 바이트 단위의 인코딩을 그대로 다룰 수 있는 토큰-프리 사전학습 언어모델에 대한 것이다. 토큰-프리 언어모델은 명시적인 미등록어 토큰이 존재하지 않고, 전 처리 과정이 단순하며 다양한 언어 및 표현 체계에 대응할 수 있는 장점이 있다. 하지만 관련 연구가 미흡, 서브워드 모델에 대비해 학습이 어렵고 낮은 성능이 보고되어 왔다. 본 연구에서는 한국어를 중심으로 토큰-프리 언어 이해-생성 모델을 사전 학습 후, 서브워드 기반 모델과 비교하여 가능성을 살펴본다. 또한, 토큰 프리 언어모델에서 지적되는 과도한 연산량을 감소시킬 수 있는 그래디언트 기반 서브워드 토크나이저를 적용, 처리 속도를 학습 2.7배, 추론 1.46배 개선하였다.
PDF

An Mobile Agent Communication Language based on Event Notification Architecture (이벤트 통지 구조를 기반으로 한 이동 에이전트 통신 언어)

Seo, Hyo-Jeong;Bang, Dae-Uk
- Proceedings of the Korea Information Processing Society Conference
- /
- 2000.10a
- /
- pp.609-612
- /
- 2000
최근 들어 에이전트의 관심이 높아지면서 에이전트 시스템의 연구도 많아졌다. 특히 에이전트가 가지는 특성에 의해 여러 분야에서 에이전트의 이용도 높아졌다. 에이전트들은 특성에 의해 고정 에이전트, 이동 에이전트 등 여러 가지로 분류된다. 하지만 이들 모든 에이전트 시스템이 갖추어야 할 요소 중 에이전트 통신은 아주 중요한 부분을 차지한다. 에이전트 통신을 위해서는 에이전트간 통신언어는 없어서는 안될 부분이다. 이제까지 KQML, FIPA ACL과 같이 여러 에이전트 통신 언어가 연구되었지만 이동 에이전트를 위한 통신 언어는 없었다. 이들 언어를 이동 에이전트 통신 언어로 사용하기에는 여러 가지 문제점이 있다. 본 논문은 이를 위해서 이동 에이전트에 적합한 이벤트 통지 통신 구조를 기반으로 한 이동 에이전트 통신 언어인 MACL(Mobile Agent Communication Language)를 제시한다.
PDF

Relation Extraction using Generative Language Models (생성형 언어모델을 이용한 관계추출)

Jeong Heo;Jong-Hun Shin;Soo-Jong Lim;Oh-Woog Kwon
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.707-710
- /
- 2023
관계추출은 문장 내 두 개체 간의 의미적 관계를 추론하는 자연어분석 태스크이다. 딥러닝의 발전과 더불어 관계추출은 BERT 계열의 이해형 언어모델을 이용하였다. 그러나, ChatGPT의 혁신적인 등장과 함께, GPT계열의 생성형 언어모델에 대한 연구가 활발해졌다. 본 논문에서는 소규모의 생성형 언어모델(Kebyt5)을 이용하여 관계추출 성능개선을 위한 프롬프트 구성 및 생각의 사슬(CoT) 학습 방법을 제안한다. 실험결과 Kebyt5-large 모델에서 CoT 학습을 수행하였을 경우, Klue-RoBERTa-base 모델보다 3.05%의 성능개선이 있었다.
PDF

Analysis of Internet Communicative Languages and Problem Resolution Methods (인터넷 상에서 쓰이는 통신 언어에 대한 분석 및 문제점 해결 방안)

조동욱;이현경
- Proceedings of the Korea Contents Association Conference
- /
- 2003.11a
- /
- pp.79-83
- /
- 2003
This paper analyze usage type of the Internet communicative language such as chatting or e-mail. For this, we analyze the communicative language usage type and problems. Also we present the communicative language problems resolution method by analyzing the problem for robust and healthy communicative language environments on Internet.
PDF

Lexical analysis for computer chatting language (컴퓨터 통신어의 어휘 유형 체계)

김윤식;나동열;한경호
- Proceedings of the Korea Multimedia Society Conference
- /
- 2004.05a
- /
- pp.396-400
- /
- 2004
가상공간에서의 정보교류가 늘어나면서 컴퓨터 통신언어도 자연어처리의 새로운 연구 분야로 등장하였다. 가장 일상화된 컴퓨터 통신어이며 인터넷상의 실시간 대화어인 채팅언어는 신속한 정보 전달 매체의 기능과 문자언어로서 정보교류와 대화 상황을 함께 내포해야 하는 문어와 구어의 양면성을 동시에 가는 언어이다. 이러한 특수성으로 컴퓨터 통신언어의 경우 발화자의 개성에 따라한 의미의 단어도 표기법이 다양하여 어휘수가 매우 많다. 본 연구에서는 컴퓨터 통신에서 사용되는 다양한 어휘를 컴퓨터로 처리하기 위한 어휘의 유형을 체계화하는 방안을 제시한다.
PDF

A Study on the Features of Communicative Languages by Frequency Information (자모 빈도에 의한 통신 언어의 특성 연구)

Kang, Seung-Shik;Kim, Bo-Young
- Proceedings of the Korea Information Processing Society Conference
- /
- 2003.05a
- /
- pp.501-504
- /
- 2003
인터넷 채팅과 문자 메시지 등 통신 환경에서 사용되는 어휘들은 일정한 규칙성과 방향성을 가지고 있을 것으로 추정된다. 통신 용어의 생성 규칙과 음운론적 변형 현상을 규명하기 위하여 통신 용어의 사용 빈도의 분석과 언어학적 접근 방법을 통하여 통신 언어의 생성 원인을 분석한다 통신 환경에서 변형되어 사용되는 어휘들의 표준어와 통신상에서 사용되는 어휘 형태에 대해 각각 초성, 중성, 종성 빈도를 계산하고 통신 용어와 표준의 자모 사용 비율 변화를 분석하여 통신 용어가 생성되는 원인을 분석하였다.
PDF

Research Trends on Spontaneous Speech Translation at ETRI (ETRI의 대화체 음성언어번역 연구방향)

양재우
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1994.06c
- /
- pp.275-276
- /
- 1994
본 발표에서는 한국전자통신연구소의 대화체 음성언어번역 연구방향을 기술한다. 한국전자통신연구소에서는 1979년 공중전화 관련 연구를 필두로, 음성분야의 연구를 시작하여 그간 음성인식, 자동통역 등을 연구하였다. 특히 1991년부터 KT와 공동연구체계를 수립하여 특정분야를 대상으로 음성언어번역 연구를 수행하는 중이다. 이러한 경험을 바탕으로 한국전자통신연구소에서는 국내외 공동연구를 통해 대화체 음성언어 번역 연구를 수행하고자 한다. 앞으로 다중매체통신이 더욱 보편화될 것일므로 다중매체 환경을 고려하여 연구를 수행할 계획이다. 아울러 연구의 부산물을 상용화 하는데에 노력을 경주할 계획이다.
PDF

Empathetic Dialogue Generation based on User Emotion Recognition: A Comparison between ChatGPT and SLM (사용자 감정 인식과 공감적 대화 생성: ChatGPT와 소형 언어 모델 비교)

Seunghun Heo;Jeongmin Lee;Minsoo Cho;Oh-Woog Kwon;Jinxia Huang
- Proceedings of the Korea Information Processing Society Conference
- /
- 2024.05a
- /
- pp.570-573
- /
- 2024
본 연구는 대형 언어 모델 (LLM) 시대에 공감적 대화 생성을 위한 감정 인식의 필요성을 확인하고 소형 언어 모델 (SLM)을 통한 미세 조정 학습이 고비용 LLM, 특히 ChatGPT의 대안이 될 수 있는지를 탐구한다. 이를 위해 KoBERT 미세 조정 모델과 ChatGPT를 사용하여 사용자 감정을 인식하고, Polyglot-Ko 미세 조정 모델 및 ChatGPT를 활용하여 공감적 응답을 생성하는 비교 실험을 진행하였다. 실험 결과, KoBERT 기반의 감정 분류기는 ChatGPT의 zero-shot 접근 방식보다 뛰어난 성능을 보였으며, 정확한 감정 분류가 공감적 대화의 질을 개선하는 데 기여함을 확인하였다. 이는 공감적 대화 생성을 위해 감정 인식이 여전히 필요하며, SLM의 미세 조정이 고비용 LLM의 실용적 대체 수단이 될 수 있음을 시사한다.
https://doi.org/10.3745/PKIPS.y2024m05a.570 인용 PDF

Korean Dialogue System for Car Information Service (차량 정보 서비스용 한국어 대화 시스템)

Choi, Sung-Kwon;Kwon, Oh-Woog;Huang, Jin-Xia;Roh, Yoon-Hyung;Lee, Ki-Young;Kim, Young-Gil
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.05a
- /
- pp.281-284
- /
- 2013
한국전자통신연구원(ETRI)에서는 2010 년부터 2015 년까지 5 년간에 걸쳐 모바일 플랫폼 기반 대화모델이 적용된 자연어 음성인터페이스 기술을 개발하고 있다. 2010 년에는 대화 시스템의 전반적인 모습을 설계하였고, 2011 년에는 대상 도메인으로 도시 관광용 영어 대화 시스템을, 2012 년에는 대상 도메인으로 차량공조, 응급조치 등과 같은 차량 정보 서비스용 한국어 대화 시스템을 개발하였다. 본 논문에서는 2012 년에 개발한 차량 정보 서비스용 한국어 대화 시스템을 기술하는 것을 목표로 한다. 차량 정보 서비스용 한국어 대화 시스템의 성능 평가는 운전 경험이 있는 평가자 20 명에 의해 이루어졌다. 평가자는 웹 평가 도구에 원격으로 접속하여 주어진 40 개의 차량 정보 관련 대화 미션을 태스크로 하여 차량 정보 서비스용 대화 시스템과 대화를 하였다. 평가는 태스크 성공률과 대화턴 성공률로 나누어 측정되었으며 태스크 성공률은 87.8%, 대화턴 성공률은 86.7%였다.
https://doi.org/10.3745/PKIPS.y2013m05a.281 인용 PDF

Korean Generation-based Dialogue State Tracking using Korean Token-Free Pre-trained Language Model KeByT5 (한국어 토큰-프리 사전학습 언어모델 KeByT5를 이용한 한국어 생성 기반 대화 상태 추적)

Kiyoung Lee;Jonghun Shin;Soojong Lim;Ohwoog Kwon
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.644-647
- /
- 2023
대화 시스템에서 대화 상태 추적은 사용자와의 대화를 진행하면서 사용자의 의도를 파악하여 시스템 응답을 결정하는데 있어서 중요한 역할을 수행한다. 특히 목적지향(task-oriented) 대화에서 사용자 목표(goal)를 만족시키기 위해서 대화 상태 추적은 필수적이다. 최근 다양한 자연어처리 다운스트림 태스크들이 사전학습 언어모델을 백본 네트워크로 사용하고 그 위에서 해당 도메인 태스크를 미세조정하는 방식으로 좋은 성능을 내고 있다. 본 논문에서는 한국어 토큰-프리(token-free) 사전학습 언어모델인 KeByT5B 사용하고 종단형(end-to-end) seq2seq 방식으로 미세조정을 수행한 한국어 생성 기반 대화 상태 추적 모델을 소개하고 관련하여 수행한 실험 결과를 설명한다.
PDF

Search Result 1,236, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)