• 제목/요약/키워드: 동형이의어 구별

검색결과 3건 처리시간 0.018초

한국어 사전학습 모델 KE-T5 기반 동형이의어 구별 (Homonym Identification Using Korean Pre-trained Model KE-T5)

  • 문선아;서현태;신사임;김산
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-508
    • /
    • 2021
  • 최근 한국어 자연어처리 과제에서 대형 언어 모델을 통해 다양한 언어처리 작업에 대한 연구가 활발히 이루어지고 있다. 특히 동형이의어를 구분하는 작업은 문장의 문법성을 정확히 판단하고 비교해야 되기 때문에 어려운 작업이다. KE-T5는 큰 규모의 한국어를 통해 학습된 한국어 대형 언어 모델로 대부분의 자연어처리 과제에서 활용할 수 있으며 복잡한 언어처리 작업에서 높은 성능을 기대할 수 있다. 본 논문에서는 큰 규모의 한국어를 통해 학습된 KE-T5를 활용하여 동형이의어 구별 문제를 수행하고 평가한다.

  • PDF

한글 시소러스에서 저자와 저작에 대한 관계 설정과 동형 이의어의 기술 (A Study on the Description of Relationships and Homographs in Terms of Creator and Work in the Korean Thesaurus)

  • 한상길;최석두
    • 한국문헌정보학회지
    • /
    • 제45권4호
    • /
    • pp.139-155
    • /
    • 2011
  • 개인 저자 집합과 저작 집합 간의 관계를 기술할 때 두 집합 내에서 동형 이의어(즉, 동명이인과 동일 저작명)를 구별하지 못하면 두 집합 간에 전단사(全單射) 관계가 형성되지 않으므로 정확한 정보 검색을 위한 정보로는 사용하기가 어렵다. 실제로 저자명과 저작명을 다루는 도서관 시스템, 문헌, 포털사이트 등에서 동형 이의어를 명확하게 구별하고 있지 않아 색인과 검색 시 다의성에 의한 혼란과 불편을 초래하고 있다. 이에 대한 필요성은 일찍이 전거 데이터의 구축 시 대두된 문제였으나 우리나라에서는 일부 기관이 개별적으로 구축하였을 뿐 국가 차원의 전거 데이터가 없어서 이들의 동형 이의어를 구별하기 위한 기준이 없다. 이에 본 연구자는 개체명 인식을 위한 작업의 일환으로 주제어뿐만 아니라 고유 명사류도 포함되는 한글 통합 시소러스 구축 작업에서 얻은 결과를 바탕으로 저자와 저작의 용어 관계 설정 방법과 두 집합 내에서 그리고 두 집합이 기타 용어와의 관계에서 발생하는 동형 이의어의 기술 방법을 대중 문화 예술 분야를 중심으로 제시하였다.

동형이의어의 구별을 위한 한글한정어 사용에 관한 연구 (A Study on Hangul Qualifier for Homographic Descriptors)

  • 김태수;최석두
    • 정보관리학회지
    • /
    • 제14권1호
    • /
    • pp.107-124
    • /
    • 1997
  • 다의성이 있는 용어를 색인어로 사용하게 되면 탐색자의 요구와 관계없는 주제가 검색되므로 잡음률이 높아지게 된다. 이를 방지하기 위하여 거의 모든 통제어휘시스템에서 색인어로 사용될 기입어가 다의성을 가질 때 한글, 한자, 외국어 등을 이용하여 동형이의어와 세부분야을 한정하고 있다. 그러나 여러 학문분야에 걸친 대단위 어휘사전을 구축하려고 할 때 이들을 이용하여 다의성을 해소하는 데는 미흡한 점이 많으며, 흔히 사용하고 있는 한자한정어도 많은 문제점을 안고 있다. 본 고에서는 색인어로 사용될 기입어가 다의성이 있을 때 한글 한정어를 부기하여 이들을 구별할 것을 제안한다. 한글한정어의 타당성, 사용범위, 사용원칙등에 대하여 시소러스를 중심으로 논하고 이 개념의 확대적용방안에 대하여 언급한다.

  • PDF