• Title/Summary/Keyword: 한국어 말뭉치

Search Result 523, Processing Time 0.021 seconds

Morphological Analyzer and Tagger Evaluation Contest(MATEC 99) Overview (형태소분석기 및 품사 태거 평가대회(MATEC99) 개요)

  • Lee, Jae-Sung;Park, Jay-Duke;Cha, Keon-Hoe;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.13-22
    • /
    • 1999
  • 한국어 정보처리에서 기본 모듈로 많이 사용되는 형태소분석기, 태거 및 명사추출기에 대한 객관적인 평가를 위해서는 실제 사용되는 언어에 대한 평가기준과 방대한 양의 평가자료 구축이 필수적이다. 전자통신연구원(ETRI)에서는 표준적인 평가기준과 평가자료(말뭉치)를 구축하여 "제 1회 형태소분석기 및 품사 태거 평가대회" 을 개최하였으며, 이 대회는 학습기간을 포함하여 1999년 6월 7일부터 10월 1일까지 진행되었다. 평가에는 총 15개팀이 참가하였고, 명사추출, 태거, 형태소분석기의 각 분야에 대해 약 25만 4천어절의 학습 말뭉치를 제공한 후, 시험말뭉치 약3만 3천어절에 대해 평가가 이루어졌다. 이 글에서는 이 대회의 취지, 진행과정, 평가 방식, 평가결과 등에 대해 소개한다.

  • PDF

A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus (교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델)

  • Lee, Se-Hee;Kim, Hark-Soo
    • The KIPS Transactions:PartB
    • /
    • v.16B no.5
    • /
    • pp.427-434
    • /
    • 2009
  • With the rapid evolution of the Internet and mobile environments, text including spelling errors such as newly-coined words and abbreviated words are widely used. These spelling errors make it difficult to develop NLP (natural language processing) applications because they decrease the readability of texts. To resolve this problem, we propose a spelling error correction model using a spelling error correction dictionary and a newspaper corpus. The proposed model has the advantage that the cost of data construction are not high because it uses a newspaper corpus, which we can easily obtain, as a training corpus. In addition, the proposed model has an advantage that additional external modules such as a morphological analyzer and a word-spacing error correction system are not required because it uses a simple string matching method based on a correction dictionary. In the experiments with a newspaper corpus and a short message corpus collected from real mobile phones, the proposed model has been shown good performances (a miss-correction rate of 7.3%, a F1-measure of 97.3%, and a false positive rate of 1.1%) in the various evaluation measures.

Part-of-speech Tagged Corpus Construction for ETRI Standardization (표준안에 따른 품사 부착 말뭉치 구축)

  • Lee, Hyun-A;Lee, Won-Il;Lim, Sun-Suk;Her, Eun-Kyung;Lee, Jae-Sung;Cha, Keon-Hoe;Park, Jay-Duke
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.40-43
    • /
    • 1999
  • 본 논문에서는 한국전자통신 연구원 지식정보 연구부에서 제안하는 자연어 정보처리 기술 표준안을 적용하여 품사 부착 말뭉치를 구축하는 과정에서 논란의 여지가 있었던 대표적인 사항들에 대해 기술한다. 아울러 ETRI 표준안이 도출된 원칙과 취지 등을 품사 부착 말뭉치 구축과 관련하여 설명하고, 현재의 ETRI 표준안이 앞으로 어떤 식으로 개선되어야 할 지에 대해 제안한다.

  • PDF

Dealing with Compouds in the Construction of a POS Tagged Korean Corpus (형태 분석 말뭉치 구축을 위한 합성어의 처리 방법 - 띄어쓰기를 고려하여 -)

  • Cho, Jin-Hyun;Kim, Il-Hwan;Lee, Hyun-Hee;Lee, Young-Je;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.9-15
    • /
    • 2002
  • 이 연구는 형태 분석 정보가 부착된 말뭉치를 구축할 때 합성어를 처리하기 위한 방법론을 제시하고, 그 타당성을 검증해 보는 데 있다. 그동안 합성어 처리를 위해서 합성어 선정 기준을 이용하거나 목록을 이용하는 방법이 이용되었는데, 본고에서는 ${\ulcorner}$표준국어대사전${\lrcorner}$의 합성어 목록을 참조하는 것이 적절한 방법이 될 수 있음을 보이고자 한다. 또한 이 방법을 실제 말뭉치 구축에 활용할 경우, 원문의 띄어쓰기 정보가 합성어 처리에서 중요한 요인이 될 수 있다는 점을 지적하고, 이러한 처리가 가지는 한계와 의의에 대해서도 논의하고자 한다.

  • PDF

Principles, methods, and some problems in compiling a Korean treebank (구문 분석 말뭉치 구축을 위한 분석의 원칙, 방법, 문제)

  • Kim, Ui-Su;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.155-162
    • /
    • 2002
  • 본고는 21세기 세종계획의 일환으로 현재 구축 중인 구문 분석 말뭉치의 분석 방안에 대한 연구이다 논의하고자 하는 내용은 첫째, 구문 분석에서의 기본 원칙과 표지의 종류 및 세부 원칙에 대한 것이다. 둘째, 이러한 구문 분석 방안을 마련하는 데 있어 심각하게 고려된 몇 가지 유형의 문제들에 관한 논의이다. 특히 이 문제들은 자연언어처리에서뿐만 아니라 이론적인 국어학의 연구에서도 매우 중요하다. 화자의 직관에 의해서라기보다는 실제 말뭉치 구축 작업을 통해서 그 실체가 확연하게 드러나는 문제들이라는 점에서 이들은 우리의 관심을 끌기에 충분하다. 본고에서는 이러한 문제들이 실제 구문 분석에서 어떻게 발생하고 어떻게 해결될 수 있는지를 보일 것이다.

  • PDF

Segmenting and Classifying Korean Words based on Syllables Using Instance-Based Learning (사례기반 학습을 이용한 음절기반 한국어 단어 분리 및 범주 결정)

  • Kim, Jae-Hoon;Lee, Kong-Joo
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.47-56
    • /
    • 2003
  • Korean delimits words by white-space like English, but words In Korean Is a little different in structure from those in English. Words in English generally consist of one word, but those in Korean are composed of one word and/or morpheme or more. Because of this difference, a word between white-spaces is called an Eojeol in Korean. We propose a method for segmenting and classifying Korean words and/or morphemes based on syllables using an instance-based learning. In this paper, elements of feature sets for the instance-based learning are one previous syllable, one current syllable, two next syllables, a final consonant of the current syllable, and two previous categories. Our method shows more than 97% of the F-measure of word segmentation using ETRI corpus and KAIST corpus.

An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier (문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자)

  • 허준희;고수정;김태용;최준혁;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

Bayesian Model based Korean Semantic Role Induction (베이지안 모형 기반 한국어 의미역 유도)

  • Won, Yousung;Lee, Woochul;Kim, Hyungjun;Lee, Yeonsoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.111-116
    • /
    • 2016
  • 의미역은 자연어 문장의 서술어와 관련된 논항의 역할을 설명하는 것으로, 주어진 서술어에 대한 논항인식(Argument Identification) 및 분류(Argument Labeling)의 과정을 거쳐 의미역 결정(Semantic Role Labeling)이 이루어진다. 이를 위해서는 격틀 사전을 이용한 방법이나 말뭉치를 이용한 지도 학습(Supervised Learning) 방법이 주를 이루고 있다. 이때, 격틀 사전 또는 의미역 주석 정보가 부착된 말뭉치를 구축하는 것은 필수적이지만, 이러한 노력을 최소화하기 위해 본 논문에서는 비모수적 베이지안 모델(Nonparametric Bayesian Model)을 기반으로 서술어에 가능한 의미역을 추론하는 비지도 학습(Unsupervised Learning)을 수행한다.

  • PDF

Word and class-based language modeling for Korean (단어와 클래스 기반의 한국어 언어 모델링)

  • Kim, Kil-Youn;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.221-225
    • /
    • 2001
  • 본 논문에서는 대량의 말뭉치를 바탕으로 한국어에 대해 단어 기반의 n-gram 언어 모델과 클래스 기반의 언어 모델을 구축하고, 이를 실험적으로 검증한다. 단어 기반의 n-gram 모델링의 경우 Katz의 백오프와 Kneser-ney의 스무딩(smoothing) 알고리즘에 대해 실험을 수행한다. 클래스 기반의 언어 모델의 경우에는 품사 태그를 단어의 클래스로 사용한 경우와 말뭉치로부터 자동으로 구축된 클래스를 사용한 경우로 나누어 실험한다. 마지막으로 단어 기반 모델과 클래스 기반 모델을 결합하여 각각의 모델과 그 성능을 비교한다. 실험 결과 단어 기반의 언어 모델의 경우 Katz의 백오프에 비해 Knerser-ney의 스무딩이 보다 조은 성능을 나타내었다. 클래스 기반의 모델의 경우 품사 기반의 방범보다 자동 구축된 단어 클래스를 이용하는 방법의 성능이 더 좋았다. 또한, 단어 모델과 클래스 모델을 결합한 모델이 가장 좋은 성능을 나타냈다. 논문의 모든 알고리즘은 직접 구현되었으며 KLM Toolkit이란 이름으로 제공된다.

  • PDF

Word Segmentation System Using Extended Syllable bigram (확장된 음절 bigram을 이용한 자동 띄어쓰기 시스템)

  • Lim, Dong-Hee;Chun, Young-Jin;Kim, Hyoung-Joon;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.189-193
    • /
    • 2005
  • 본 논문은 통계 기반 방법인 음절 bigram을 이용한 자동 띄어쓰기를 기본 방법으로 하고 경우의 수를 세분화한 확장된 음절 bigram을 이용한 공백 확률, 띄어쓰기 통계를 바탕으로 최종 띄어쓰기 임계치 차등 적용, 에러 사전 적용 3가지 방법을 추가로 사용하는 경우 기본적인 방법만을 쓴 경우보다 띄어쓰기 정확도가 향상된다는 것을 확인하였다. 그리고 해당 음절에 대한 bigram이 없는 경우 확장된 음절 unigram을 통해 근사적으로 계산해 데이터부족 문제를 개선하였다. 한국어 말뭉치와 중국어 말뭉치에 대한 실험을 통해 본 논문에서 제안하는 방법이 한국어 자동 띄어쓰기뿐만 아니라 중국어 단어 분리에 적용할 수 있다는 것도 확인하였다.

  • PDF