Search | Korea Science

KoQuality: Curation of High-quality Instruction Data for Korean Language Models (KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션)

Yohan Na;Dahye Kim;Dong-Kyu Chae
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.306-311
- /
- 2023
최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.
PDF

A Study on Office Automation for Management of School Record Work with HancomOffice 97 (한컴오피스 97을 이용한 성적처리 업무 자동화에 관한 연구)

천두억
- Journal of the Korea Society of Computer and Information
- /
- v.4 no.1
- /
- pp.85-91
- /
- 1999
The first line school system is complexed. In result school affairs is subdividing and complicating more and more. It increased school affairs of teachers and they spend more soluting of their work than studying of teaching materials . The performance evaluation was introduced into the management of school record work as a part of educational reform. This is the evaluation of a studying course and a heavy burden of teachers was aggravated. So they have to depend on computer. In this study. I want to present the efficient method of management of school record work by using Hnagul 97 and Hangul approach 97. That will be able to make out a record easily. It is possible to design a individual pattern and to alter it.
PDF

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.125-129
- /
- 2017
채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.
PDF

Korean Zero Anaphora Resolution Guidelines (한국어 생략어복원 가이드라인)

Ryu, Jihee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyunki
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.213-219
- /
- 2017
말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.
PDF

Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering (색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델)

Lee, Hyeon-gu;Kim, Minkyoung;Kim, Jintae;Kim, Harksoo;Lee, Yeonsoo;Choi, Maengsik
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.197-200
- /
- 2017
채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.
PDF

Design of an Version-Compatible HL7 Parser (버전 상호 호환 가능한 HL7 파서의 설계)

Lee, In Keun;Hwang, Dosam
- Annual Conference on Human and Language Technology
- /
- 2017.10a
- /
- pp.201-202
- /
- 2017
의료정보시스템의 상호운용을 위해 개발된 의료정보 교환 국제 표준인 HL7은 복잡한 구조와 문법으로 인해 컴퓨터 소프트웨어로 관리되고 있다. 현재 개발되고 있는 HL7 인터페이스 소프트웨어에서는 다양한 버전 간 호환이 되지 않아 의료정보시스템에서 버전 상호 간의 호환을 위해 변환 소프트웨어 모듈을 개발하여 사용한다. 그러나 다양한 버전(V2.1~V2.8)의 HL7 메시지 간 상호 변환을 위해 소프트웨어 모듈을 모두 개발하는 것은 많은 시간과 막대한 비용 및 노력이 필요한 비효율적인 방법이다. 따라서 본 연구에서는 HL7 버전 호환성 정의에 기반을 두어 버전별 상호변환이 가능한 HL7 파서(Parser)를 설계하고, 객체 지향적 구조에 기반을 두어 하위 버전과의 호환(Backward Compatibility)뿐만 아니라 상위 버전과 호환(Forward Compatibility) 가능한 파서를 제안한다. 또한, 버전 간 변환 실험을 통해 효용성을 검증하였다.
PDF

Conceptual Structures of Anaphoric Expressions in English (영어 조응표현의 개념구조)

Jung, Mi-Ae
- Annual Conference on Human and Language Technology
- /
- 1995.10a
- /
- pp.300-309
- /
- 1995
언어표현에 대한 해석은 그 구성요소들의 통사적-어휘적 구조에 덧붙여 대명사의 동일지시를 살펴야 할 필요가 있다. 조응의 분석과 조응적 선행사를 찾기 위한 효과적인 방법을 발견하는 것이 컴퓨터 언어학(computational linguistics), 특히 자연언어 이해체계(Natural Language understanding system)에 관한 연구의 중심적인 문제라고 할 수 있다. 이 논문의 목적은 영어 조응표현을 개념구조 이론(Conceptual Structure Theory)의 개념도식(conceptual graph)에 의하여 기술함으로써 단문에서뿐만 아니라 복문, 양화구문, 그리고 담화에 이르기까지 언어 전반에 걸쳐 나타나는 동일지시성(coreferenciality)을 간단하고 일관성 있게 설명하는 것이다. 이러한 조응현상을 설명하기 위하여 필자는 개념도식상의 개념을 중심개념, 직접개념, 간접개념으로 구분하고 이들이 문맥깊이 등과 더불어 동일지시성을 설명하는데 중심적 역할을 함을 보이고자 한다.
PDF

Plasmid-DNAgram : Anagram Solving by Molecular Computing Based on GFP-Expressing Plasmid DNA (Plasmid-DNAgram : 녹색형광단백질 발현 Plasmid DNA 기반 분자컴퓨팅에 의한 언어 퍼즐 문제 해결)

Kim, Su-Dong;Lee, Eun-Seok;Zhang, Byoung-Tak
- Annual Conference on Human and Language Technology
- /
- 2003.10d
- /
- pp.293-299
- /
- 2003
인간 게놈 프로젝트가 완료됨에 다라 생체서열과 언어 사이의 대응 관계가 부각되고 있다. 본고에서는 Lewis Carroll의 언어 유희 사례를 컴퓨터생물학의 측면에서 재조명하고, Carroll이 제시한 문제 중에서 간단한 anagram 문제의 해결을 다루고자 한다. 우선 DNA 컴퓨팅의 방법론을 적용한 DNAgram의 개념을 확장하여 plasmid-DNAgram의 개념을 새롭게 도입하였다. 이 개념을 형광단백질에 대한 DNAgram의 개념을 확장하여 plasmid-DNAgram의 개념을 새롭게 도입하였다. 이 개념을 형광단백질에 대한 FRET(fluorescent resonance energy transfer)분석기법의 응용 사례인 cameleon 형광단백질에 대한 FRET 분석기법에 적용함으로써 anagram 문제의 어휘론적, 구문론적, 의미론적, 화용론적 측면에 대응하는 바이오분자 컴퓨팅 방법론을 제안하였다.
PDF

Corpus Linguistics as Necessary Concept for Korean Lexicography (뭉치 언어학 : 사전 편찬의 필수적 개념)

Lee, Sang-Sup
- Annual Conference on Human and Language Technology
- /
- 1989.10a
- /
- pp.73-76
- /
- 1989
기존 한국어 사전들은 자연 언어로서의 한국어에 대한 실질적 조사 연구에 근거하고 있지 않다는 점에서 치명적 결함을 안고 있다. 최근 유럽에서 개발 응용되고 있는 ${\ulcorner}$뭉치 언어학${\lrcorner}$(corpus linguistics) 은 컴퓨터의 급격한 발전에 힘입어 대규모 용량의 자연언어 자료를 다각적으로 처리할 수 있는 방법을 고안할 수 있게 해주고 있다. 예컨대 영국 버밍엄 대학의 COBUILD 계획은 전혀 새로운 개념의 영어 사전을 편찬하는 데에 성공했다. 한국어 사전의 편찬도 뭉치 언어학적 방법의 도입으로 가능할 것으로 믿어, 필자가 작성한 작은 ${\ulcorner}$뭉치${\lrcorner}$로부터의 실례를 제시한다.
PDF

Korean Morphological Analysis Algorithms for Automatic Indexing (자동색인을 위한 한국어 형태소 분석 알고리즘)

Lee, Young-Joo
- Annual Conference on Human and Language Technology
- /
- 1989.10a
- /
- pp.240-246
- /
- 1989
자동색인이라 함은 기존의 수작업에 의한 색인어 선정 대신 컴퓨터에 의해서 자동화하는 것을 말한다. 한국어는 색인어가 될 수 있는 어근에 조사 및 어미가 붙어서 한 어절을 이루는 언어학 적인 특성을 갖고 있다. 지금까지는 어근을 분리하기 위해 어근에 대한 사전을 구축하고 이를 Top-down 방법에 의해 처리하는 것이 통례였다. 그러나 이러한 방법은 외래어나 고유명사 등 새로 발생하는 어휘가 많은, 뉴스 원고와 같은 보도자료에는 쉽게 적용할 수가 없으며, 자연어를 다루는 타 분야에서도 미등록어에 대한 처리 방안이 시급한 실정이다. 본 논문은 어휘사전 없이 조사 및 어미의 생성 규칙을 이용한 Bottom-up 방식으로 처리하여 후보 색인어를 추론하고, 어절 상호간의 관계를 밝히는 구문분석을 통하여 이를 확정하는 알고리즘을 제안하였다.
PDF

Search Result 347, Processing Time 0.022 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)