• 제목/요약/키워드: 한국어 품사 태거

검색결과 28건 처리시간 0.021초

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

질의-응답 시스템을 위한 한국어 시간 표현의 인식 및 정규화 (The Recognition and Normalization of Korean Temporal Expression for Question-Answering System)

  • 윤도상;이도길;정후중;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.46-52
    • /
    • 2004
  • 본 논문에서는 질의-응답 시스템의 질의에서 많이 나타나는 시간 표현을 인식하고, 인식한 시간 표현에 대해서 정규화 하는 방법을 제안한다. 본 논문에서 사용하는 질의-응답 시스템의 도메인은 TV방송 스케줄, 날씨 정보이며, 이러한 도메인에서는 시간 표현이 매우 빈번하게 사용되기 때문에 질의에 나타나는 시간 표현을 정확하게 인식해서 정규화 하는 것이 중요하다. 제안하는 방법은 시간 표현을 의미와 기능에 따라 분류하고 각 유형마다 적절한 인식 및 정규화 기법을 사용한다. 질의에서 시간 표현은 시간 개체명 태거. 품사 태거, 시간 파서를 사용하여 인식하고, 시간 추론기와 시간 표현 사전을 이용하여 정규화 한다. TV방송 스케줄과 날씨 정보 도메인의 280개 질의에서 184개의 시간표현을 이용하여 평가한 결과, 시간 표현의 인식과 정규화는 각각 93%와 96%의 정확률, 97%와 93%의 재현율을 보였다.

  • PDF

중한 기계 번역 시스템을 위한 형태소 분석기 (A Morph Analyzer For MATES/CK)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높이기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태깅 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태깅 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석 (Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus)

  • 윤준태;이충희;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

가중치를 가지는 의존관계를 이용한 구문분석 후보의 순위화 방법 (A Method for Ranking Candidate Parse Trees using Weighted Dependency Relation)

  • 류재민;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.924-927
    • /
    • 2017
  • 통계 모형에 기반을 둔 구문분석기는 자료 부족 문제에 취약하거나 장거리 의존관계와 같은 특정 언어현상에 대한 처리가 어렵다는 단점이 있다. 이러한 한계점을 극복하고자 본 연구진은 규칙에 기반을 둔 한국어 구문분석기를 개발하고 있다. 다른 구문 분석기와 다르게 형태소 단위 구문분석을 시도하며 생성 가능한 모든 구문분석 후보를 보여주는 것이 특징이다. 본 연구진의 기존 연구에서 개발한 한국어 구문분석기는 형태소의 입력순서와 구문분석 후보의 생성 순서에 의존하여 구문분석 후보를 순서화하였다. 그러나 생성되는 구문분석 후보 중 가장 정답에 가까운 구문분석 후보의 순위를 낮추기 위해서는 각 구문분석 트리가 특정한 점수를 가질 필요가 있다. 본 논문에서는 품사 태거(tagger)에서 출력하는 어절별 형태소의 순위에 따른 가중치, 수식 거리에 따른 가중치, 특정한 지배-의존 관계에 대한 가중치를 이용해 가중치 합을 가지는 구문분석 후보를 구성하고 이를 정렬하여 이전 연구보다 향상된 성능을 가진 한국어 구문분석기 모델을 제안한다. 실험은 본 연구진이 직접 구축한 평가데이터를 기반으로 진행하였으며 기존의 Unlabeled Attachment Score(UAS) 87.86%에서 제안 모델의 UAS 93.34%로 약 5.48의 성능향상을 확인할 수 있었다.

학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기 (A Noun Extractor based on Dictionaries and Heuristic Rules Obtained from Training Data)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.151-156
    • /
    • 1999
  • 텍스트로부터 명사를 추출하기 위해서 다양한 기법이 이용될 수 있는데, 본 논문에서는 학습 데이터를 이용하여 생성한 규칙과 사전을 이용하는 단순한 모델을 통해 명사를 효과적으로 추출할 수 있는 기법에 대하여 기술한다. 사용한 모델은 기본적으로 명사, 어미, 술어 사전을 사용하고 있으며 명사 추정은 학습 데이터를 통해 생성한 규칙을 통해 이루어진다. 제안한 방법은 복잡한 언어학적 분석 없이 명사 추정이 가능하며, 복합명사 사전을 이용하지 않고 복합 명사를 추정할 수 있는 장점을 지니고 있다. 또한, 명사추정의 주 요소인 규칙이나 사전 등록어의 추가, 갱신 등이 용이하며, 필요한 경우에는 특정 분야의 텍스트 분석을 위한 새로운 사전의 추가가 가능하다. 제안한 방법을 이용해 "제1회 형태소 분석기 및 품사 태거 평가대회(MATEC '99')"의 명사 추출기 분야에 참가하였으며, 본 논문에서는 성능평가 결과를 제시하고 평가결과에 대한 분석을 기술하고 있다. 또한, 현재의 평가기준 중에서 적합하지 않은 부분을 규정하고 이를 기준으로 삼아 자체적으로 재평가한 평가결과를 제시하였다.

  • PDF

LGKMA의 구조 및 특성 (The structure and features of the LGKMA)

  • 곽종근;은종진;강윤선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.137-144
    • /
    • 1999
  • LGKMA 시스템은 형태소 분석기와 품사 태거 및 명사 추출기로 구성되며, LG 종합기술원에서 연구 개발 중인 다국어 정보 검색, 음성 합성, 개인정보처리 에이전트 및 디지털 TV의 프로그램 안내문을 분석, 검색하는 EPG(Electronic Program Guide) 응용 둥 다양한 응용 프로그램에서 사용되고 있다. 본 논문에서는 형태소 분석기와 태거의 기반 기술보다는 LGKMA(LG Korean Morphological Analyser)의 전반적인 구조와 다른 시스템과 비교했을 때의 특성, 그리고 실제 응용되는 사례를 소개하고자 한다. 또 표준화를 위해서 열렸던 MATEC99에 참가하기 위해서 수행했던 작업들을 보고한다.

  • PDF

언어자료 검색을 위한 계층구조형 형태소 분석 프로그램 (The Layered Structural Tagging Program for Seaching)

  • 강용희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 2001
  • 1999년 제1회 형태소 분석기 및 품사태거 평가 워크숍 이후 표준안에 대한 새로운 대안이나 문제제기등을 제시한 논문은 전무하다. 본 연구에서는 평가대회 참가 이후 표준안을 수정한 새로운 유형의 형태소 분석 프로그램을 제작하여 그 실용성과 앞으로의 발전 가능성과 문제점을 밝혀, 계층구조형의 형태소분석 시스템을 채택하고 있는 일본의 JUMAN을 참조 새로운 유형의 형태소 분석형식을 제시한다. 본 연구는 일본방송협회 방송기술연구소(이하 NHK기술 연구소)의 의뢰에 인한 것이며 어절단위의 표준안과 다른 형태소 단위를 기본요소로 삼고 있으며 활용형을 갖고 있는 용언에 대해서는 활용형의 전개를 하고 있다. 어절단위로 탈피한 이유는 형태소 분석의 기본요소로써 어절단위 보다는 형태소 단위를 기준으로 삼는 것이 생산성이 높다고 생각된다. 어절정보와 문장정보는 XML(extensible makrup language)등의 별도의 정보를 주는 방법을 채택했다. 음절말음이 자음인지 모음인지의 음운 정보에 따라 활용형을 차별했으며 표준안과 달리 명사의 종류와 개념을 세분화했다. 아울러 조사와 어미등의 검색어와 함께 음절을 형성하고 있는 비검색어 대상은 배제하는 프로그램과 표준안의 어절방식으로 출력하는 3가지 프로그램을 작성했다. 본 연구에서는 계층구조의 형태소분석 프로그램의 가능성과 한국어의 특성을 고려한 출력항목등을 고찰하는 것을 목적으로 한다.

  • PDF