• Title/Summary/Keyword: 한글 학습

Search Result 879, Processing Time 0.028 seconds

Novel Intent Category Discovery using Contrastive Learning (대조학습을 활용한 새로운 의도 카테고리 발견)

  • Seungyeon Seo;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF

Language Model Smoothing for Korean Morpheme Recovery (한국어 형태소 복원을 위한 언어모델의 평탄화(smoothing))

  • Lee, Daniel;Kim, Bo-Gyum;Lee, Jae-Sung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.309-311
    • /
    • 2012
  • 형태소 복원은 형태소 분석의 한 단계로 문장에 나타난 형태소의 변형 현상을 분석하여 규칙화하고 이를 이용하여 형태소 원형을 복원하는 것이다. 본 논문에서는 형태소 품사 부착 말뭉치로부터 다양한 형태소 변화 규칙을 학습하여 효과적으로 형태소 원형을 복원하기 위한 계산 방법을 비교한다. 이를 위해 계산 모델, 한글 코드, 학습 자료를 다르게 하여 학습하고 그에 따른 성능을 비교 분석한다.

The Study on the Method which escapee from Local maxima of Error-Backpropagation Algorithm (오류역전파 알고리즘의 Local maxima를 탈출하기 위한 방법에 관한 연구)

  • 서원택;조범준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.313-315
    • /
    • 2001
  • 본 논문에서 소개하는 알고리즘을 은닉층의 뉴런의 수를 학습하는 동안 동적으로 변화시켜 역전파 알고리즘의 단점인 Local maxima를 탈출하고 또한 은닉층의 뉴런의 수를 결정하는 과정을 없애기 위해 연구되었다. 본 알고리즘의 성능을 평가하기 위해 두 가지 실험에 적용하였는데 첫번째는 Exclusive-OR 문제이고 두번째는 7$\times$8 한글 자음과 모음의 폰트 학습에 적용하였다. 이 실험의 결과로 네트웍이 local maxima에 빠져드는 확률이 줄어드는 것을 알 수 있었고 학습속도 또한 일반적인 역전파 알고리즘보다 빠른 것으로 증명되었다.

  • PDF

A Text Classification System based on a Supervised Learning Algorithm (교사학습 알고리즘을 이용한 텍스트 분류 시스템)

  • 김진상;성정호;김성주
    • Proceedings of the Korea Database Society Conference
    • /
    • 1998.09a
    • /
    • pp.421-430
    • /
    • 1998
  • 지식경영을 위한 다양한 대상 업무중에서 텍스트 데이터의 마이닝은 특히 중요하다. 그 이유는 텍스트 데이터가 양적인 면에서 가장 풍부하고, 또 발견할 수 있는 지식을 가장 많이 포함하고 있기 때문이다. 본 논문에서는 텍스트 데이터베이스에서 지식발견을 위한 한 과정으로 텍스트 데이터베이스 내의 텍스트들을 분류하는 기법을 기술한다. 특히 문서 분류 방법은 데이터베이스의 일부 데이터를 훈련, 예제로 간주하여 교사 학습 알고리즘을 통해 학습한 후 나머지 데이터를 이용해 분류 정확성을 검증 및 향상시킨다. 시험 데이터로는 인터넷의 뉴스그룹의 기사를 이용하였고, 시험 결과 분류의 정확성은 한글 및 영문 모두 최소 70% 이상으로 나타났다.

  • PDF

Fluent Text Generation Using GANs with Graph-search (GAN에서 그래프 탐색을 이용한 유창한 문장 생성)

  • Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.404-408
    • /
    • 2019
  • 비지도 학습 모델인 GAN은 학습 데이터 구축이 어려운 여러 분야에 활용되고 있으며, 알려진 문제점들을 보완하기 위해 다양한 모델 결합 및 변형으로 발전하고 있다. 하지만 문장을 생성하는 GAN은 풀어야 할 문제가 많다. 그중에서도 문제가 되는 것은 완성도가 높은 문장을 생성하는데 어려움이 있다는 것이다. 본 논문에서는 단어 그래프를 구성하여 GAN의 학습에 도움을 주며 완성도가 높은 문장을 생성하는 방법을 제안한다.

  • PDF

Relation Extraction based on Neural-Symbolic Structure (뉴럴-심볼릭 구조 기반의 관계 추출)

  • Oh, Jinyoung;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.115-118
    • /
    • 2020
  • 딥러닝은 자연어처리 분야에서 우수한 성능을 보이고 있다. 하지만 우수한 성능을 달성하려면 많은 학습 데이터와 오랜 학습 시간이 필요하다. 우리는 딥러닝과 기호 규칙을 함께 사용하는 뉴럴-심볼릭 방법을 이용하여 딥러닝만으로 학습한 모델의 성능을 능가하는 방법을 제안한다. 딥러닝의 한계를 극복하기 위해서 관계추출에서 규칙 결과와 딥러닝 결과와의 불일치도를 추가한 구조를 설계하였다. 제안한 구조는 한국어 데이터에 대해서 우수한 성능을 보였으며, 빠른 성능 수렴이 이루어지는 것을 확인하였다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Fake news detection using deep learning (딥러닝 기법을 이용한 가짜뉴스 탐지)

  • Lee, Dong-Ho;Lee, Jung-Hoon;Kim, Yu-Ri;Kim, Hyeong-Jun;Park, Seung-Myun;Yang, Yu-Jun;Shin, Woong-Bi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.384-387
    • /
    • 2018
  • SNS가 급속도로 확산되며 거짓 정보를 언론으로 위장한 형태인 가짜뉴스는 큰 사회적 문제가 되었다. 본 논문에서는 이를 해결하기 위해 한글 가짜뉴스 탐지를 위한 딥러닝 모델을 제시한다. 기존 연구들은 영어에 적합한 모델들을 제시하고 있으나, 한글은 같은 의미라도 더 짧은 문장으로 표현 가능해 딥러닝을 하기 위한 특징수가 부족하여 깊은 신경망을 운용하기 어렵다는 점과, 형태소 중의성으로 인한 의미 분석의 어려움으로 인해 기존 오델들을 적용하기에는 한계가 있다. 이를 해결하기 위해 얕은 CNN 모델과 음절 단위로 학습된 단어 임베딩 모델인 'Fasttext'를 활용하여 시스템을 구현하고, 이를 학습시켜 검증하였다.

Phoneme-level Embedding based Korean Language Model (음소 단위 임베딩 기반 한국어 모델)

  • Choi, Woosung;Hyun, Kyungseok;Chung, Jaehwa;Jung, Soon Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1026-1029
    • /
    • 2019
  • 최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

Development of the Kolb LSI 3.1 Korean Version (Kolb학습유형검사의 한글버전 개발)

  • Lim, Se-Yung;Lee, Byoung-Chul;Choi, Hyeon-Sook;Ahn, Mi-Sun;Lee, Woong-Il
    • The Journal of Korean Institute for Practical Engineering Education
    • /
    • v.4 no.1
    • /
    • pp.30-44
    • /
    • 2012
  • The purposes of this study were to develop Korean version of the Kolb learning Style Inventory (version 3.1) by systematic translation process and to test learning style of 596 K University-students. First, Korean version of LSI was successfully developed and tested for ensuring internal consistency reliability and internal validity. Second, K University students' average scores of learning modes were as follows: 27.75 of Concrete Experience(CE), 27.93 of Reflective Observation(RO), Abstract 31,95 of Conceptualization (AC), and 32.37 of Active Experimentation(AE). In addition, the study reported KUT students learning style distribution: 32% of accommodating style, 27.2% of Diverging one, 26.5% of Assimilating one, and 14.3% of Converging one.

  • PDF