• 제목/요약/키워드: 품사부착

검색결과 84건 처리시간 0.02초

가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델 (A Korean Homonym Disambiguation Model Based on Statistics Using Weights)

  • 김준수;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1112-1123
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중 한국어에서 그 심각성이 큰 동형이의어 중의성을 해결하기 위하여, 사전 뜻풀이 말뭉치에서 구축한 의미정보(Semantic Information)와 이를 이용한 기존의 통계기반 동형이의어 분별 모델에 대한 실험 결과를 분석하여, 정확률 향상을 위한 새로운 동형이의어 NPH(New Prior Probability of Homonym sense) 가중치 및 인접 어절에 대한 거리 가중치 적용 모델을 제안한다. 사전 뜻풀이 말뭉치의 상위 고빈도 동형이의어 200개 중 중의성이 높은 46개(명사 30개, 동사 16개)를 선별하고, 21세기 세종 계획에서 제공하는 350만 어절 품사 부착 말뭉치에서 이들 동형이의어를 포함하는 47,977개의 문장을 추출하여 실험을 하였다. 기존의 통계기반 동형이의어 분별 모델에서는 72.08%(명사78.12%, 동사 62.45%)의 정확률을 나타냈으나, NPH 가중치를 부여한 실험 결과 정확률이 평균 1.70% 향상되었으며, NPH와 거리 가중치를 함께 이용한 결과 평균 2.01% 정확률이 향상되었다.

사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기 (A Morpheme Analyzer based on Transformer using Morpheme Tokens and User Dictionary)

  • 김동현;김도국;김철희;신명선;서영덕
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.19-27
    • /
    • 2023
  • 형태소는 한국어에서 의미를 가진 최소단위이기 때문에, 한국어 언어모델의 성능을 높이기 위해서는 정확한 형태소 분석기의 개발이 필요하다. 기존의 형태소 분석기는 대부분 어절 단위 토큰을 입력 값으로 학습하여 형태소 분석 결과를 제시한다. 하지만 한국어의 어절은 어근에 조사나 접사가 부착된 형태이기 때문에 어근이 같은 어절이어도 조사나 접사로 인해 의미가 달라지는 성향이 있다. 따라서 어절 단위 토큰을 사용하여 형태소를 학습하면 조사나 접사에 대한 오분류가 발생할 수 있다. 본 논문에서는 형태소 단위의 토큰을 사용하여 한국어 문장에 내재된 의미를 과악하고, Transformer를 사용한 시퀀스 생성 방식의 형태소 분석기를 제안한다. 또한, 미등록 단어 문제를 해결하기 위해 학습 말뭉치 데이터를 기반으로 사용자 사전을 구축하였다. 실험 과정에서 각 형태소 분석기가 출력 한 형태소와 품사 태그를 함께 정답 데이터와 비교하여 성능을 측정하였으며, 실험 결과 본 논문에서 제시한 형태소 분석기가 기존 형태소 분석기에 비해 성능이 높음을 증명하였다.

동형이의어 분별에 의한 한국어 의존관계 분석 (An Analysis of Korean Dependency Relation by Homograph Disambiguation)

  • 김홍순;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권6호
    • /
    • pp.219-230
    • /
    • 2014
  • 의존관계 분석은 문장의 어절 간에 의존소-지배소를 결정하는 작업이다. 용언은 문형 및 하위범주화 정보의 선택제약에 의해 다른 어절과의 의존관계를 형성한다. 본 논문은 형태소 분석 단계에서 동형이의어 분별된 용언의 문형을 이용하여 용언의 의존관계를 분석하는 방법을 제안한다. 특히, 형태소분석 단계에서 품사 및 동형이의어 태깅을 위해 사용하는 단계별 전이모델의 학습사전을 재활용하여 {명사+격조사, 용언} 간의 의존관계를 확정하는 방안을 제안하고 그의 정확률 및 영향을 분석한다. 동형이의어가 부착되고 의존관계로 변경된 21개의 세종구문분석말뭉치를 이용하여 실험한 결과, 동형이의어 분별된 의존관계 분석 정확률이 80.38%로, 동형이의어가 분별되지 않은 의존관계분석에 비해 0.42%의 정확률 향상이 있었으며, 유의수준 1%의 검정통계량 Z는 ${\mid}Z{\mid}=4.63{\geq}z_{0.01}=2.33$으로 동형이의어 분별이 의존관계 분석에 영향이 있음을 보였다. 또한, 단계별 전이모델이 의존관계 분석 정확률에 약 7.14% 영향을 미치는 것을 알 수 있었다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.