• Title/Summary/Keyword: 한국어 말뭉치

Search Result 523, Processing Time 0.027 seconds

Measuring Reliability of POS Tagging Systems (품사 태깅 시스템의 신뢰도 측정)

  • Kim, Jae-Hun
    • The KIPS Transactions:PartB
    • /
    • v.8B no.4
    • /
    • pp.365-372
    • /
    • 2001
  • 본 논문에서는 품사 태깅 시스템에서 신뢰도 측정 방법에 대해서 기술한다. 품사 태깅 시스템의 신뢰도는 품사 태깅 결과에 오류가 포함되지 않을 확률이다. 일반적으로 신뢰도 측정은 오류확률에 기반한다. 정확한 오류확률을 추정하기 위해서는 일반적으로 품사 태깅 시스템에서 사용되는 말뭉치보다 훨씬 더 많은 양의 말뭉치가 필요하다. 이 문제를 다소 완화시키기 위해서, 본 논문에서는 좀더 정확한 오류확률 추정하기 위해 교차확인 방법을 이용한다. 본 논문에서 사용된 품사 태깅 시스템은 시험말뭉치에 대해서 61%의 신뢰도를 보였다. 이는 한국어 문장의 형태소 수가 평균 20개이고, 품사 태깅 시스템의 정확률이 97.5%일 때의 신뢰도에 해당한다. 본 논문에서 사용된 품사 태깅 시스템이 미등록어가 없을 경우에 97.68%의 정확률을 보이므로 제안된 신뢰도 측정 방법이 어느 정도 타당함을 알 수 있었다. 제안된 신뢰도 측정 방법은 구문분석, 정보검색 등 여러 분야에 응용이 가능할 것이며, 본 논문에서는 품사태깅의 오류검출에 적용해보았다.

  • PDF

Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction (음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation)

  • Choi, Junhwi;Ryu, Seonghan;Yu, Hwanjo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

Morphological disambiguation using Local Context (국소 문맥을 이용한 형태적 중의성 해소)

  • Lee, Chung-Hee;Yoon, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.48-55
    • /
    • 2000
  • 본 논문은 국소문맥을 사용하여 만들어진 Decision List를 통해 단어의 형태적 중의성을 제거하는 방법을 기술한다. 최초 종자 연어(Seed Collocation)로 1차 Decision List를 만들어 실험 말뭉치에 적용하고 태깅된 결과를 자가 학습하는 반복과정에 의해 Decision List의 수행능력을 향상시킨다. 이 방법은 단어의 형태적 중의성 제거에 일정 거리의 연어가 가장 큰 영향을 끼친다는 직관에 바탕을 두며 사람의 추가적인 교정을 필요로 하지 않는 비교사 방식(대량의 원시 말뭉치에 기반한)에 의해 수행한다. 학습을 통해 얻어진 Decision List는 연세대 형태소 분석기인 MORANY의 형태소 분석 결과에 적용되어 태깅시 성능을 향상시킨다. 실험 말뭉치에 있는 중의성을 가진 12개의 단어들에 본 알고리즘을 적용하여 긍정적인 결과(90.61%)를 얻었다. 은닉 마르코프 모델의 바이그램(bigram) 모델과 비교하기 위하여 '들었다' 동사만을 가지고 실험하였는데 바이그램 모델의 태깅결과(72.61%)보다 뛰어난 결과 (94.25%)를 얻어서 본 모델이 형태적 중의성 해소에 유용함을 확인하였다.

  • PDF

Derivational Morphology in a Tagged Corpus (형태소 분석 말뭉치의 파생명사 처리)

  • Cha, Joon-Kyung;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.390-394
    • /
    • 2000
  • 이 논문은 형태소 분석 말뭉치를 구축하면서 제기되었던 파생 명사 처리의 문제점을 논의하고 그 해결 방안을 모색한 것이다. 파생 명사의 분석에서 국어학적 전산 언어학적으로 유의미한 분석 범위를 정할 때 몇가지 고려해야 할 사항이 있다. 접두사는 어기가 불규칙하므로 규칙으로 자동처리가 어렵다. 형태소 분석의 대상은 생산성이 높고, 어기와 범주를 변화시키는 서술성 접두사로 그 범위를 정할 수 있을 것이다. 접미사의 분석은 생산성이 높고 규칙적인 굴절 접미사가 분석의 대상이 되며, 또한 서술성을 갖는 한자어계 접미사도 분석 대상이 된다. 파생 명사의 분석에 있어서 접사는 그 위상이 동요되므로 접두사는 관형사와 구별이 어렵고 접미사는 의존명사와 구별이 어렵다. 그러므로, 대용량의 형태소 분석 말뭉치를 효율적으로 구축하기 위해서는 접사에 대한 다각적인 검토가 필요할 것이다.

  • PDF

Korean Part-of-Speech Tagging Error Correction Method Based on Statistical Decision Graph Learning (통계적 결정 그래프 학습 방법을 이용한 한국어 품사 부착 오류 수정)

  • Ryu, Won-Ho;Lee, Sang-Zoo;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.123-129
    • /
    • 2001
  • 지금까지 한국어 품사 부착을 위해 다양한 모델이 제안되었고 95% 이상의 높은 정확도를 보여주고 있다. 그러나 4-5%의 오류는 실제 응용 분야에서 많은 문제를 야기시킬 수 있다. 이러한 오류를 최소화하기 위해서는 오류를 분석하고 이를 수정할 수 있는 규칙들을 학습하여 재사용하는 방범이 효과적이다. 오류 수정 규칙을 학습하기 위한 기존의 방법들은 수동학습 방법과 자동 학습 방법으로 나눌 수 있다 수동 학습 방법은 많은 비용이 요구되는 단점이 있다. 자동 학습 방법의 경우 모두 변형규칙 기반 접근 방법을 사용하였는데 어휘 정보를 고려할 경우 탐색 공간과 규칙 적용 시간이 매우 크다는 단점이 있다. 따라서 본 논문에서는 초기 모델에 대한 오류 수정 규칙을 효율적으로 학습하기 위한 새로운 방법으로 결정 트리 학습 방법을 확장한 통계적 결정 그래프 학습 방법을 제안한다. 제안된 방법으로 두 가지 실험을 수행하였다. 초기 모델의 정확도가 높고 말뭉치의 크기가 작은 첫 번째 실험의 경우 초기 모델의 정확도 95.48%를 97.37%까지 향상시킬 수 있었다. 초기 모델의 정확도가 낮고 말뭉치 크기가 큰 두 번째 실험의 경우 초기 모델의 정확도 87.22%를 95.59%로 향상시켰다. 또한 실험을 통해 결정 트리 학습 방법에 비해 통계적 결정 그래프 학습 방법이 더욱 효과적임을 알 수 있었다.

  • PDF

Word Sense Disambiguation using Korean Word Space Model (한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소)

  • Park, Yong-Min;Lee, Jae-Sung
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.6
    • /
    • pp.41-47
    • /
    • 2012
  • Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model which builds word vectors from a large scale of sense-tagged corpus and disambiguates word senses with the similarity calculation between the word vectors. Experiment with Sejong morph sense-tagged corpus showed 94% precision for 200 sentences(583 word types), which is much superior to the other known methods.

Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two (두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwangmo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF

Automatic Generation of Named Entity Tagged Corpus using Web Search Engine (웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제)

  • An, Joo-Hui;Lee, Seung-Woo;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

Translation Dictionary Tuning System By using of Auto-Evaluation Method (자동 평가 방법을 이용한 번역 지식 튜닝 시스템)

  • Park, Eun-Jin;Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Shun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.147-150
    • /
    • 2011
  • 본 논문에서는 병렬 말뭉치에서 오류가 있을 것으로 추정되는 문장을 자동 추출하여, 다수의 번역 사전 구축 작업자가 자동 번역시스템을 직접 사용하면서 번역 사전을 튜닝하는 방법에 대하여 제안하고자 한다. 작업자는 병렬 말뭉치의 대역문을 이용하여 자동 번역 결과의 BLEU를 측정하고, 사전 수정 전과 후의 BLEU 차이를 정량적으로 제시해 줌으로써 양질의 번역 사전을 구축하도록 하였다. 대량의 번역 사전이 이미 구축된 자동 번역시스템에서 추가적인 성능향상을 위해 대량의 말뭉치에서 미등록어, 번역패턴 등을 추출하여, 대량으로 구축하는 기존 방법에 비해 사전 구축 부작용이 적으며, 자동번역 성능향상에 더 기여하는 것을 실험을 통해 증명하였다. 이를 위해 본 논문에서는 중한 자동 번역시스템을 대상으로, 중국어 문장 2,193문장에 대해, 사전 구축 작업자 2명이 2주간 튜닝한 결과와 15만 말뭉치에서 추출한 미등록어 후보 2만 엔트리를 3명의 사전 구축 작업자가 미등록어 선별, 품사 및 대역어 부착한 결과 7,200 엔트리를 대상으로 자동평가를 실시하였다. 실험결과 미등록어 추가에 의한 BLEU 성능향상은 +3인데 반해, 약 2,000문장 튜닝 후 BLEU를 +12 향상시켰다.

  • PDF

Case Particle Restoration as Preprocessing for Syntactic Analysis (격조사 복원: 구문분석 전처리)

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.3-7
    • /
    • 2012
  • 본 논문은 구문분석의 전처리로서 생략된 한국어 격조사의 복원 방법을 제안한다. 격조사 생략은 체언과 용언 사이의 관계가 아주 밀접하여 생략하여도 의사 전달에 문제가 없을 경우에 자주 발생한다. 이렇게 생략된 조사는 구문분석의 복잡도를 크게 높일 뿐 아니라 구문 분석의 오류의 원인이 되기도 한다. 본 논문에서는 구문구조 부착 말뭉치를 분석하여 생략된 조사는 그 체언과 용언 사이의 거리가 매우 가깝다는 사실을 발견하였고 이 성질을 이용해서 기계학습 방법을 이용해서 생략된 조사를 복원하는 방법을 제안한다. 본 논문에서는 ETRI 구문구조 부착 말뭉치를 이용해서 실험한 결과, 생략된 조사의 81%를 정확하게 복원할 수 있었다.

  • PDF