• 제목/요약/키워드: 학습 한국어

검색결과 1,338건 처리시간 0.028초

언어 모델 다중 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Joint Learning with Language Model)

  • 김병재;박찬민;최윤영;권명준;서정연
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.333-337
    • /
    • 2017
  • 본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.

  • PDF

한글 학습 기능성게임 '단어수집가' 개발 (Development of Serious Game 'Word Collector' for Learning Hangul)

  • 이범로
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.613-614
    • /
    • 2022
  • 전 세계적인 주목을 받기 시작한 한류 콘텐츠의 확산으로 한국어 교육에 대한 수요가 폭발적으로 증가하고 있는 상황에서 효과적인 한국어 학습용 기능성 게임에 대한 가능성이 주목 받고 있다. 본 논문에서는 한국어 교육의 진입 과정에 해당 될 수 있는 한글을 게임 통해 학습하고 익숙해지는 경험을 제공할 수 있는 한글 학습 RPG '단어수집가'개발을 기획하고 해당 게임의 프로토타입을 개발한다. 제안 게임의 주인공은 가상의 공간에서의 체험을 통해 한글의 자음과 모음을 게임 아이템으로 획득하고 이를 조합하여 한글 단어를 합성하여 이를 게임에 활용하는 구조를 가지도록 설계되었고, 전체 게임 시나리오의 학습 적합성과 재미 요소들의 점검을 위해 실제 기획 의 핵심 내용을 적용한 프로토타입을 활용한다. 또한 본 게임에서 기획된 한글 학습용 게임은 미국 워싱턴에 위치한 조지워싱턴대학교에서 발행하는 미국인 대상의 한국어 교재와 스토리 등을 연동하여 온오프라인 연계 한글 교육 실현을 목표로 한다.

  • PDF

DAKS: 도메인 적응 기반 효율적인 매개변수 학습이 가능한 한국어 문장 분류 프레임워크 (DAKS: A Korean Sentence Classification Framework with Efficient Parameter Learning based on Domain Adaptation)

  • 김재민;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.678-680
    • /
    • 2023
  • 본 논문은 정확하면서도 효율적인 한국어 문장 분류 기법에 대해서 논의한다. 최근 자연어처리 분야에서 사전 학습된 언어 모델(Pre-trained Language Models, PLM)은 미세조정(fine-tuning)을 통해 문장 분류 하위 작업(downstream task)에서 성공적인 결과를 보여주고 있다. 하지만, 이러한 미세조정은 하위 작업이 바뀔 때마다 사전 학습된 언어 모델의 전체 매개변수(model parameters)를 학습해야 한다는 단점을 갖고 있다. 본 논문에서는 이러한 문제를 해결할 수 있도록 도메인 적응기(domain adapter)를 활용한 한국어 문장 분류 프레임워크인 DAKS(Domain Adaptation-based Korean Sentence classification framework)를 제안한다. 해당 프레임워크는 학습되는 매개변수의 규모를 크게 줄임으로써 효율적인 성능을 보였다. 또한 문장 분류를 위한 특징(feature)으로써 한국어 사전학습 모델(KLUE-RoBERTa)의 다양한 은닉 계층 별 은닉 상태(hidden states)를 활용하였을 때 결과를 비교 분석하고 가장 적합한 은닉 계층을 제시한다.

ManiFL : 얕은 학습 기반의 더 나은 자연어처리 도구 (ManiFL : A Better Natural-Language-Processing Tool Based On Shallow-Learning)

  • 신준철;김완수;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.311-315
    • /
    • 2021
  • 근래의 자연어처리 분야에서는 잘 만들어진 도구(Library)를 이용하여 생산성 높은 개발과 연구가 활발하게 이뤄지고 있다. 이 중에 대다수는 깊은 학습(Deep-Learning, 딥러닝) 기반인데, 이런 모델들은 학습 속도가 느리고, 비용이 비싸고, 사용(Run-Time) 속도도 느리다. 이뿐만 아니라 라벨(Label)의 가짓수가 굉장히 많거나, 라벨의 구성이 단어마다 달라질 수 있는 의미분별(동형이의어, 다의어 번호 태깅) 분야에서 딥러닝은 굉장히 비효율적인 문제가 있다. 이런 문제들은 오히려 기존의 얕은 학습(Shallow-Learning)기반 모델에서는 없던 것들이지만, 최근의 연구경향에서 딥러닝 비중이 급격히 증가하면서, 멀티스레딩 같은 고급 기능들을 지원하는 얕은 학습 기반 언어모델이 새로이 개발되지 않고 있었다. 본 논문에서는 학습과 태깅 모두에서 멀티스레딩을 지원하고, 딥러닝에서 연구된 드롭아웃 기법이 구현된 자연어처리 도구인 혼합 자질 가변 표지기 ManiFL(Manifold Feature Labelling : ManiFL)을 소개한다. 본 논문은 실험을 통해서 ManiFL로 다의어태깅이 가능함을 보여주고, 딥러닝과 CRFsuite에서 높은 성능을 보여주는 개체명 인식에서도 비교할만한 성능이 나옴을 보였다.

  • PDF

두 단계 대조 학습 기반 한국어 리뷰 의견 표현벡터 학습 (Two-Stage Contrastive Learning for Representation Learning of Korean Review Opinion)

  • 서지수;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-267
    • /
    • 2022
  • 이커머스 리뷰와 같은 특정 도메인의 경우, 텍스트 표현벡터 학습을 위한 양질의 오픈 학습 데이터를 구하기 어렵다. 또한 사람이 수동으로 검수하며 학습데이터를 만드는 경우, 많은 시간과 비용을 소모하게 된다. 따라서 본 논문에서는 수동으로 검수된 데이터없이 양질의 텍스트 표현벡터를 만들 수 있도록 두 단계의 대조 학습 시스템을 제안한다. 이 두 단계 대조 학습 시스템은 레이블링 된 학습데이터가 필요하지 않은 자기지도 학습 단계와 리뷰의 특성을 고려한 자동 레이블링 기반의 지도 학습 단계로 구성된다. 또한 노이즈에 강한 오류함수와 한국어에 유효한 데이터 증강 기법을 적용한다. 그 결과 스피어먼 상관 계수 기반의 성능 평가를 통해, 베이스 모델과 비교하여 성능을 14.03 향상하였다.

  • PDF

딥러닝을 이용한 전이 기반 한국어 품사 태깅 & 의존 파싱 통합 모델 (A Transition based Joint Model for Korean POS Tagging & Dependency Parsing using Deep Learning)

  • 민진우;나승훈;신종훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.97-102
    • /
    • 2017
  • 형태소 분석과 의존 파싱은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있다. 이러한 핵심적인 역할을 수행하는 형태소 분석과 의존 파싱에 대해 일괄적으로 학습하는 통합 모델에 대한 필요성이 대두 되었고 이에 대한 많은 연구들이 수행되었다. 기존의 형태소 분석 & 의존 파싱 통합 모델은 먼저 형태소 분석 및 품사 태깅에 대한 학습을 수행한 후 이어서 의존 파싱 모델을 학습하는 파이프라인 방식으로 진행되었다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 형태소 분석과 파싱이 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱에서 형태소 분석에 대한 전이 액션을 포함하도록 전이 액션을 확장하여 한국어 형태소 분석 & 의존파싱에 대한 통합모델을 제안하였고 성능 측정 결과 세종 형태소 분석 데이터 셋에서 F1 97.63%, SPMRL '14 한국어 의존 파싱 데이터 셋에서 UAS 90.48%, LAS 88.87%의 성능을 보여주어 기존의 의존 파싱 성능을 더욱 향상시켰다.

  • PDF

MASS와 복사 메커니즘을 이용한 한국어 문서 요약 (Korean Text Summarization using MASS with Copying Mechanism)

  • 정영준;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

자동 문제 생성 기술을 이용한 한국어 어휘학습시스템 (Korean Word Learning System Using Automatic Question Generation Technique)

  • 최수일;임지희;최호섭;옥철영
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.271-286
    • /
    • 2006
  • 본 논문은 한국어 어휘에 대한 풍부한 정보를 담고 있는 한국어사전과 사용자 어휘지능망(User-Word Intelligent Network: U-WIN)등의 언어자원을 이용한 자동 문제 생성 기술을 소개하고, 이 기술을 이용한 한국어 어휘학습시스템을 제시한다. 대부분의 학습시스템에서 사용하는 문제 은행식 출제 방식의 문제점을 해소하기 위하여, 자동 문제 생성을 위한 한국어 어휘 문제의 유형을 8가지로 분류하고, 각 문제 유형별 자동 문제 생성 패턴을 구축하였다. 이러한 자동 문제 생성 패턴에 따라 언어자원이 가지고 있는 한국어 어휘의 형태적 정보와 의미적 정보를 이용하여 어휘 문제를 자동으로 출제하는 한국어 어휘학습 시스템을 구현하였다.

  • PDF

디자인 사고 분석을 통한 외국인의 한국 언어 학습의 연구 (A Study on Foreigners' Korean Language Learning Experiences through Design Thinking Analysis)

  • 리페이즈;김보연
    • 디지털융복합연구
    • /
    • 제15권5호
    • /
    • pp.345-351
    • /
    • 2017
  • 국어를 공부하는 외국인 학생들이 몇 년간 급격하게 증가하면서 한국어의 국제적인 지위가 올라가고 있다. 하지만 외국인 학생들의 입장에서는 한국어를 배우는 과정에 많은 어려움을 겪는 점이 드러나고 있다. 또한 이에 더해 한국 학생들과 외국인 학생들간의 이해관계가 어려워지는 점을 지적하는 연구가 나오고 있다. 에린 샌더의 디자인 연구 스파이럴을 통해서 이 논문은 한국에 있는 외국인 학생들의 한국어 교육경험을 조사했다. 또한 이 학생들의 한국어 학습에 대한 인식과 효과적인 요인들을 분석하였다. 결론적으로 본 연구는 디자인 연구를 통해 한국어 학습에 중요한 통찰을 결과로 도출했으며, 외국인 학생들이 한국어를 효과적으로 공부하는데 기여할 디자인 기회를 도출한 의의가 있다.

Deep CNN 기반의 한국어 음소 인식 모델 연구 (Korean Phoneme Recognition Model with Deep CNN)

  • 홍윤석;기경서;권가진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2018
  • 본 연구에서는 심충 합성곱 신경망(Deep CNN)과 Connectionist Temporal Classification (CTC) 알고리즘을 사용하여 강제정렬 (force-alignment)이 이루어진 코퍼스 없이도 학습이 가능한 음소 인식 모델을 제안한다. 최근 해외에서는 순환 신경망(RNN)과 CTC 알고리즘을 사용한 딥 러닝 기반의 음소 인식 모델이 활발히 연구되고 있다. 하지만 한국어 음소 인식에는 HMM-GMM 이나 인공 신경망과 HMM 을 결합한 하이브리드 시스템이 주로 사용되어 왔으며, 이 방법 은 최근의 해외 연구 사례들보다 성능 개선의 여지가 적고 전문가가 제작한 강제정렬 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 또한 RNN 은 학습 데이터가 많이 필요하고 학습이 까다롭다는 단점이 있어, 코퍼스가 부족하고 기반 연구가 활발하게 이루어지지 않은 한국어의 경우 사용에 제약이 있다. 이에 본 연구에서는 강제정렬 코퍼스를 필요로 하지 않는 CTC 알고리즘을 도입함과 동시에, RNN 에 비해 더 학습 속도가 빠르고 더 적은 데이터로도 학습이 가능한 합성곱 신경망(CNN)을 사용하여 딥 러닝 모델을 구축하여 한국어 음소 인식을 수행하여 보고자 하였다. 이 모델을 통해 본 연구에서는 한국어에 존재하는 49 가지의 음소를 추출하는 세 종류의 음소 인식기를 제작하였으며, 최종적으로 선정된 음소 인식 모델의 PER(phoneme Error Rate)은 9.44 로 나타났다. 선행 연구 사례와 간접적으로 비교하였을 때, 이 결과는 제안하는 모델이 기존 연구 사례와 대등하거나 조금 더 나은 성능을 보인다고 할 수 있다.