• 제목/요약/키워드: 교착어

검색결과 48건 처리시간 0.026초

상대적 위치 표현을 이용한 한국어 BERT 학습 방법 (Korean BERT Learning Method with Relative Position Representation)

  • 오연택;전창욱;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-114
    • /
    • 2019
  • BERT는 자연어처리 여러 응용 분야(task)에서 우수한 성능을 보여줬으나, BERT 사전학습 모델을 학습하기 위해서는 많은 학습 시간과 학습 자원이 요구된다. 본 논문에서는 빠른 학습을 위한 한국어 BERT 학습 방법을 제안한다. 본 논문에서는 다음과 같은 세 가지 학습 방법을 적용했다. 교착어인 한국어 특성을 반영하기 위해 형태소 분석 기반의 사전을 사용하였으며, 단어 간 상대적 위치 표현을 추가하여, 상대적 위치 정보를 학습했다. 또한 BERT 베이스 모델의 12-레이어 중 3-레이어만을 사용하여, 모델을 경량화시켰다.

  • PDF

사전 정보를 활용한 신경망 기계 번역 (Neural Machine Translation with Dictionary Information)

  • 전현규;김지윤;최승호;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-90
    • /
    • 2023
  • 최근 생성형 언어 모델이 주목받고 있으며, 이와 관련된 과제 또한 주목받고 있다. 언어 생성과 관련하여 많은 연구가 진행된 분야 중 하나가 '번역'이다. 번역과 관련하여, 최근 인공신경망 기반의 신경망 기계 번역(NMT)가 주로 연구되고 있으며, 뛰어난 성능을 보여주고 있다. 하지만 교착어인 한국어에서 언어유형학 상의 다른 분류에 속한 언어로 번역은 매끄럽게 번역되지 않는다는 한계가 여전하다. 따라서, 본 논문에서는 이러한 문제점을 극복하기 위해 한-영 사전을 통한 번역 품질 향상 방법을 제안한다. 또한 출력과 관련하여 소형 언어모델(sLLM)을 통해 CoT데이터셋을 구축하고 이를 기반으로 조정 학습하여 성능을 평가할 것이다.

  • PDF

한국어 헬스케어 개체명 인식을 위한 거대 언어 모델에서의 형태소 기반 Few-Shot 학습 기법 (Morpheme-Based Few-Shot Learning with Large Language Models for Korean Healthcare Named Entity Recognition)

  • 강수연;김건우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.428-429
    • /
    • 2023
  • 개체명 인식은 자연어 처리의 핵심적인 작업으로, 특정 범주의 명칭을 문장에서 식별하고 분류한다. 이러한 기술은 헬스케어 분야에서 진단 지원 및 데이터 관리에 필수적이다. 그러나 기존의 사전 학습된 모델을 특정 도메인에 대해 전이학습하는 방법은 대량의 데이터에 크게 의존하는 한계를 가지고 있다. 본 연구는 방대한 데이터로 학습된 거대 언어 모델(LLM) 활용을 중심으로, 한국어의 교착어 특성을 반영하여 형태소 정보를 활용한 Few-Shot 프롬프트를 통해 한국어 헬스케어 도메인에서의 개체명 인식 방법을 제안한다.

한국어 문장 생성을 위한 Variational Recurrent Auto-Encoder 개선 및 활용 (Application of Improved Variational Recurrent Auto-Encoder for Korean Sentence Generation)

  • 한상철;홍석진;최희열
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.157-164
    • /
    • 2018
  • 딥러닝의 급속한 발전은 패턴인식 분야의 성능을 혁신했으며 몇몇 문제에서는 인간 수준을 넘어서는 결과들을 보여주고 있다. 데이타를 분류하는 패턴인식과 달리 본 논문에서는 주어진 몇개의 한국어 문장으로부터 비슷한 문장들을 생성하는 문제를 다룬다. 이를위해 생성모델 중의 하나인 Variational Auto-Encoder 기반의 모델을 한국어 생성에 맞게 개선하고 적용하는 방법들을 논의한다. 첫째, 교착어인 한국어의 특성상 띄어쓰기를 기준으로 단어 생성시 단어의 개수가 너무 많아 이를 줄이기 위해 조사 및 어미들을 분리할 필요가 있다. 둘째, 한국어는 어순이 비교적 자유롭고 주어 목적어 등이 생략되는 경우가 많아 기존의 단방향 인코더를 양방향으로 확장한다. 마지막으로, 주어진 문장들을 기반으로 비슷하지만 새로운 문장들을 생성하기 위해 기존 문장들의 인코딩된 벡터표현들로부터 새로운 벡터를 찾아내고, 이 벡터를 디코딩하여 문장을 생성한다. 실험 결과를 통해 제안한 방법의 성능을 확인한다.

언어유형론의 비판적 고찰 한국어는 교착어, 불어는 굴절어라는 것의 의미를 묻다 (A Critical Review of Language Typology: for the subjecthood of Korean linguistics)

  • 목정수
    • 인문언어
    • /
    • 제6권
    • /
    • pp.185-211
    • /
    • 2004
  • Korean linguistics or linguistics In Korea has the viviparous limitation that on the one hand, it was influxed from Europe and Japan and on the other hand, these days the American linguistics takes the initiative in Korea. That's why Korean linguistics cannot be free of the problems of 'dependence/independence', 'central/marginal', etc. It calls for two conditions to study the nature of Korean itself and to establish the independence of Korean linguistics in this situation. The first condition is that we should reveal some peculiarities of Korean in itself. The second condition is that we should reveal universals of Korean by comparing it objectively with other languages which are typologically and genealogically different. 1 think the first is important but the latter is more important. To meet the second condition, we analysed the expansion structure of NP in Korean and French, and suggested a new tree-diagram for describing equivalently the NP structure of the two languages. As for VP structure, we suggested some possibilities of comparing the final endings in Korean with personal pronouns in French, and of comparing the prefinal ending 'si' in Korean with the second plural pronoun 'vous', etc. As a result of the comparison of Korean and French, we came to conclusion that Korean is a inflectional agglutinative language while French is a agglutinative inflectional one. In other words, they are same in 'typus', are different in 'topos'. This may be a surprising/unexpected conclusion. But this, we think, can lead us to much closer approach to the nature of the two languages Korean and French.

  • PDF

다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets)

  • 한지윤;이진;이찬영;김한샘
    • 비교문화연구
    • /
    • 제53권
    • /
    • pp.163-192
    • /
    • 2018
  • 이 논문은 형태통사적 특성이 유사한 한국어와 일본어의 다국어 범용 의존관계 주석체계(Universal Dependencies, 이하 UD) 적용 사례를 살펴보고 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰하는 것을 목적으로 한다. 한국어와 일본어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 적용하는 데에 많은 어려움이 있다. 이에 본고에서는 UD를 구성하는 범용 품사 주석(Universal POS, 이하 UPOS)과 범용 의존관계 주석(Universal Dependency Relations, 이하 DEPREL)의 적용과 그에 따른 논의들을 검토하였다. UPOS의 경우 AUX(조동사 표지), ADJ(형용사 표지), VERB(동사 표지)처럼 서술어와 관련된 주석 표지의 처리와 조사, 어미와 같은 기능어의 처리 방안을 살펴보았으며 접속사 및 이와 관련된 단위를 어떻게 처리하고 있는지 검토하였다. DEPREL과 관련해서는, 구문 표지를 주석하는 기본 단위의 문제에서 출발하여 통사적 문제를 어떻게 반영하고 있는지 살펴보았다. 지배소 설정 방식과 병렬 구조의 주석 방식, case(격 관계 표지)와 aux(조동사 관계 표지) 주석 방식을 검토하였다. 다양한 관계 주석 표지 중에서 특히 case와 aux에 집중하여 논의한 것은 한국어와의 주석 표지 적용 양상을 비교했을 때 분포 상 가장 두드러지는 차이를 나타내기 때문이다. case는 한국어와 일본어 모두 조사와 관련이 있고, aux는 한국어에서는 보조용언, 일본어에서는 조동사와 관련이 있는 표지이다. 구체적인 주석 양상을 살펴본 결과 일본어의 aux는 서법 조동사뿐만 아니라 동사에 문법적 의미를 더하는 요소, 한국어의 어미에 해당하는 형태에도 aux를 할당하기 때문에 주석이 차지하는 비율이 크게 차이가 나는 것으로 밝혀졌다. iobj(간접목적어 관계 표지)와 관련해서는 일본어에서 간접목적어를 인정하는 데에 반해 한국어에서는 간접목적어를 인정하지 않는 경우가 더 많았다. 일본어의 UD 주석에서 형태 분석 기본 단위인 '단단위'를 기본 구문 주석 단위로 하되 '장단위'와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 의존관계 주석의 정보로 활용하는 방안에 대해서 고려할 필요가 있다.

TAKTAG: 통계와 규칙에 기반한 2단계 학습을 통한 품사 중의성 해결 (TAKTAG: Two phase learning method for hybrid statistical/rule-based part-of-speech disambiguation)

  • 신상현;이근배;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.169-174
    • /
    • 1995
  • 품사 태깅은 형태소 분석 이후 발생한 모호성을 제거하는 것으로, 통계적 방법과 규칙에 기 반한 방법이 널리 사용되고 있다. 하지만, 이들 방법론에는 각기 한계점을 지니고 있다. 통계적인 방법인 은닉 마코프 모델(Hidden Markov Model)은 유연성(flexibility)을 지니지만, 교착어(agglutinative language)인 한국어에 있어서 제한된 윈도우로 인하여, 중의성 해결의 실마리가 되는 어휘나 품사별 제대로 참조하지 못하는 경우가 있다. 반면, 규칙에 기반한 방법은 차체가 품사에 영향을 받으므로 인하여, 새로운 태그집합(tagset)이나 언어에 대하여 유연성이나 정확성을 제공해 주지 못한다. 이러한 각기 서로 다른 방법론의 한계를 극복하기 위하여, 본 논문에서는 통계와 규칙을 통합한 한국어 태깅 모델을 제안한다. 즉 통계적 학습을 통한 통계 모델이후에 2차적으로 규칙을 자동학습 하게 하여, 통계모델이 다루지 못하는 범위의 규칙을 생성하게 된다. 이처럼 2단계의 통계와 규칙의 자동 학습단계를 거치게 됨으로써, 두개 모델의 단점을 보강한 높은 정확도를 가지는 한국어 태거를 개발할 수 있게 하였다.

  • PDF

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정 (Error Correction in Korean Morpheme Recovery using Deep Learning)

  • 황현선;이창기
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1452-1458
    • /
    • 2015
  • 한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원 작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘 수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, '들/VV'과 '듣/VV'의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링 (Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features)

  • 손대능;신중휘;이정태;이승욱;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2008
  • 본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

  • PDF

대어휘 음성인식을 위한 의사형태소 분석 시스템의 구현 (Implementation of A Morphological Analyzer Based on Pseudo-morpheme for Large Vocabulary Speech Recognizing)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.102-108
    • /
    • 1999
  • 교착어인 한국어를 대상으로 대용량의 대화체 어휘를 포함하는 연속 음성을 인식하는 데에는 인식단위를 결정하는 것이 매우 중요하다. 본 논문에서는 어절이나 형태소를 사용하는 기존의 음성인식 시스템에서의 난점을 해소하고 새로운 인식단위인 의사형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기와 태거를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 인식의 출력을 인식의 다음 단계인 언어처리부의 처리단위와 일치시킬 수 있으므로 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 시스템은 일반 형태소를 대상으로 하는 시스템과 동일한 수준의 성능을 보였다.

  • PDF