• Title/Summary/Keyword: 의미정보 말뭉치

Search Result 177, Processing Time 0.028 seconds

Ontology Construction and Its Application to Disambiguate Word Senses (온톨로지 구축 및 단어 의미 중의성 해소에의 활용)

  • Kang, Sin-Jae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.491-500
    • /
    • 2004
  • This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

Korean Head-Tail POS-Tagger by using Transformer (Transformer를 이용한 한국어 Head-Tail 품사 태거)

  • Kim, Jung-Min;Suh, Hyun-Jae;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

Korean Named Entity Recognition using ManiFL (ManiFL을 이용한 한국어 개체명 인식)

  • Kim, Wansu;Shin, Joon-choul;Park, Seoyeon;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction (문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법)

  • Park, SeongSik;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

Multiple Semantic Role Labeling Problems Solving using CRFs (CRF를 이용한 복수 의미역 문제 해결)

  • Park, Tae-Ho;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.276-279
    • /
    • 2016
  • 의미역 결정에서 하나의 의미 논항이 둘 이상의 의미역을 가지는 경우는 복수의 레이블을 할당하기 때문에 어려운 문제이다. 본 논문은 복수의 의미역을 가지는 항의 의미역 결정을 위한 새로운 자질을 제안한다. 복수의 의미역을 결정하기 위해서 체언보다 선행되어 나타나는 용언에 대한 자질을 추가하였다. 또한 문장의 용언에 따라 의미역을 결정하기 위해서 문장 내의 용언 수만큼 각각에 용언에 대한 의미역을 결정할 수 있도록 반복적으로 레이블링하는 방법을 제시하였다. 본 논문의 실험 결과로 제안한 방법은 74.90%의 성능(F1)을 보였다.

  • PDF

Design and Implementation of Short-Essay Marking System by Using Semantic Kernel and WordNet (의미 커널과 워드넷을 이용한 주관식 문제 채점 시스템의 설계 및 구현)

  • Cho, Woo-Jin;Chu, Seung-Woo;O, Jeong-Seok;Kim, Han-Saem;Kim, Yu-Seop;Lee, Jae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.1027-1030
    • /
    • 2005
  • 기존 의미커널을 적용한 주관식 채점 시스템은 여러 답안과 말뭉치에서 추출한 색인어들과의 상관관계를 벡터방식으로 표현하여 자연어 처리에 대한 문제를 해결하려 하였다. 본 논문에서는 기존 시스템의 답안 및 색인어의 표현 한계로 인한 유사도 계산오차 가능성에 대한 문제를 해결하고자 시소러스를 이용한 임의 추출 방식의 답안 확장을 적용하였다. 서술형 주관식 평가에서는 문장의 문맥보다는 사용된 어휘에 채점가중치가 높다는 점을 착안, 출제자와 수험자 모두의 답안을 동의어, 유의어 그룹으로 확장하여 채점 성능을 향상시키려 하였다. 우선 두 답안을 형태소 분석기를 이용해 색인어를 추출한 후 워드넷을 이용하여 동의어, 유의어 그룹으로 확장한다. 이들을 말뭉치 색인을 이용하여 단어들 간 상관관계를 측정하기 위한 벡터로 구성하고 의미 커널을 적용하여 정답 유사도를 계산하였다. 출제자의 채점결과와 각 모델의 채점 점수의 상관계수 계산 결과 ELSA 모델이 가장 높은 유사도를 나타내었다..

  • PDF

A Treebank-Based Approach to Preferred Nominal Words in Grammatical Relations and their Semantic Types (구문분석 말뭉치를 이용한 문법 관계의 선호 체언 어휘와 의미 유형 연구)

  • Hong, Jungha
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.35-41
    • /
    • 2008
  • 이 논문은 각 문법 관계(grammatical relation)에서 선호되는 체언 어휘를 파악하고, 이 어휘들의 의미적 유형 및 그 위계를 파악하는 것이 목적이다. 이를 위해 80만 어절의 21세기 세종계획 구문분석 말뭉치에서 그 분포를 추출하고, 통계적 검증을 통해 각 문법 관계에서 선호되는 체언 어휘를 선별한다. 이 연구에서 관찰하는 문법 관계는 주어, 목적어, 용언수식어로 하며, 이들 문법 관계에서 선호되는 어휘 추출 대상 품사는 대명사, 고유명사, 일반명사로 한다. 한정성의 강도에 따라 주어 분포 경향이 나타나며, 이에 따라 대명사 > 고유명사 > 일반명사 순으로 주어 분포 경향이 나타난다. 그러나 일반적 예측과 다르게 한정성의 강도가 더 강한 것으로 알려진 대명사가 고유명사보다 목적어와 용언수식어에서 분포 경향이 더 강하여, 일반명사 > 대명사 > 고유명사의 순으로 분포 경향이 나타난다. 대명사, 고유명사, 일반명사는 공통적으로 주어에서는 사람 지시어, 목적어에서는 사물과 장소 지시어, 그리고 용언수식어에서는 시공간 표현이 선호되어 분포한다. 특히 대명사는 각 문법기능에서 인칭대명사의 경우 인칭에 따라, 그리고 지시대명사의 경우 원근칭에 따라 선호도의 차이를 보인다. 이러한 체언 어휘의 의미적 분포 특성은 문법 관계에 통사적 기능 외에도 의미적 경향이 반영된 것으로 고려될 수 있다.

  • PDF

On Word Embedding Models and Parameters Optimized for Korean (한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구)

  • Choi, Sanghyuk;Seol, Jinseok;Lee, Sang-goo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

Multiple Semantic Role Labeling Problems Solving using CRFs (CRF를 이용한 복수 의미역 문제 해결)

  • Park, Tae-Ho;Cha, Jeong-Won
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.276-279
    • /
    • 2016
  • 의미역 결정에서 하나의 의미 논항이 둘 이상의 의미역을 가지는 경우는 복수의 레이블을 할당하기 때문에 어려운 문제이다. 본 논문은 복수의 의미역을 가지는 항의 의미역 결정을 위한 새로운 자질을 제안한다. 복수의 의미역을 결정하기 위해서 체언보다 선행되어 나타나는 용언에 대한 자질을 추가하였다. 또한 문장의 용언에 따라 의미역을 결정하기 위해서 문장 내의 용언 수만큼 각각에 용언에 대한 의미역을 결정할 수 있도록 반복적으로 레이블링하는 방법을 제시하였다. 본 논문의 실험 결과로 제안한 방법은 74.90%의 성능(F1)을 보였다.

  • PDF

KMM: A Detailed Morphological Analysis for Korean (구조화된 상세 정보를 제공하는 한국어 형태소 분석기: KMM)

  • Kim, Soora
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.202-206
    • /
    • 2010
  • 이 논문에서는 한국어 형태소 분석기 KMM(Korean Malaga Morphology)을 소개하고자 한다. KMM의 개발 동기는 이후 자연언어 처리 단계의 기반으로 사용될 수 있을 뿐 아니라 이론 형태론 연구의 도구로도 사용될 수 있도록 상세한 형태 동사 의미 정보를 제공하는 것이었다. 이론적 틀은 좌연접 문법(Left-Associative Grammar)에 기초한 LA-MORPH이며, 좌연접 기반 문법 개발 도구인 MALAGA로 구현되었다. LA-MORPH에 기반한 KMM은 분석 실행중이 아닐 때에는 사전의 규모를 최소한으로 유지하다가 분석에 필요할 때에만 분석용 사전을 자동으로 생성한다. 형태소 분석은 분석용 사전에 근거하여, 매칭과 결합이라는 단순한 알고리즘만을 사용한다. KMM의 분석은 동사 어절의 경우, 시제, 서법, 문형, 대우법, 명사 어절의 경우 격정보, 수사 결합어절의 경우 추출된 수랑 정보 등과 같은 상세한 정보를 제시한다. 세종 말뭉치와 KIBS 말뭉치를 KMM 을 이용해서 분석한 결과 각각의 94.96%와 94.59%의 분석률과 88.4%와 90.7%의 정확도를 보였다.

  • PDF