• Title/Summary/Keyword: 한국어 말뭉치

Search Result 522, Processing Time 0.021 seconds

The Study Of Lexical Statistics Analysis For Elementary School Textbook : Focusing On Comparing The SEJONG Corpus In Korean (초등학교 교과서의 어휘 통계 분석 연구 : 한국어 세종 코퍼스와의 비교를 중심으로)

  • Yu, Wonhee;Lim, Heuiseok
    • The Journal of Korean Association of Computer Education
    • /
    • v.18 no.1
    • /
    • pp.99-108
    • /
    • 2015
  • In this paper, we build a primary school textbook corpus and a statistical analysis was performed with respect to the vocabulary found in elementary textbooks. also We performed the Spearman's correlation coefficient in order to explore whether similar elementary textbooks in general life used vocabulary. the result of this study shows that corpus building in the form of elementary school textbooks and actual examples. then numerically shown correlation of the elementary textbooks and general corpus.

A Study of Automatic Extraction of Domain Specified Dictionary (병렬 말뭉치를 이용한 도메인 특화 사전 자동 추출 연구)

  • Park, Eun-Jin;Hwang, Kum-Ha;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.237-241
    • /
    • 2009
  • 본 논문에서는 도메인별 병렬 말뭉치를 이용하여 해당 도메인에 특화된 한영 대역쌍을 Moses Toolkit을 이용하여 자동 추출하였다. 이렇게 추출된 대역쌍은 도메인 특화 자동 번역 시스템의 번역 사전으로 사용하기에는 많은 오류가 포함되어 있기 때문에, 본 논문에서는 이를 효율적으로 제거할 수 있는 식을 제안하였다. 본 논문에서 제안한 식으로 오류를 제거한 결과, 임계값 0.5를 기준으로 추출된 한영 대역쌍이 1,098개였고, 이는 실험에 사용한 기업 분야 병렬 말뭉치 42,200문장 중에서 29,292문장(69.4%)에 영향을 주었다. 자동으로 추출한 도메인 특화 번역 지식을 기존 자동 번역 시스템의 번역 지식에 적용한 결과 BLEU가 0.0054 향상되었다.

  • PDF

Korean Noun Clustering Via Incremental Conceptual Clustering (개념분류기법을 적용한 한국에 명사분류)

  • Jung, Yeon-Su;Cho, Jeong-Mi;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.50-55
    • /
    • 1995
  • 많은 언어관계들이 의미적으로 유사한 단어들의 집합에 적응된다. 그러므로 단어들을 의미가 비슷한 것들의 집합으로 분류하는 것은 아주 유용한 일이다. 본 논문에서는 말뭉치로부터의 동사와 명사의 분포정보를 이용하여 명사들을 분류하고자 한다. 한국어에서는 명사마다 문장에서 그 명사를 특정한 격으로 사용할 수 있는 동사들이 제한되어 있다. 그러므로 본 논문에서는 말뭉치에서 나타나는 명사와 그 명사를 특정한 격으로 사용하는 동사들의 분포정보로부터 명사들을 분류하는 방법을 제시한다. 형태소 해석된 50만 단어 말뭉치에서 가장 빈도수가 높은 명사 85단어를 대상으로 실험하였다. 명사와 동사의 구문정보를 사용하므로 의미적으로는 다르지만 쓰임이 비슷한 단어들도 같은 부류로 분류되었다. 의미적으로 애매성을 가지는 명사들의 경우도 실험결과를 나쁘게하는 요인이 되었다. 그리고, 좀더 좋은 결과를 얻기 위해서는 동사들도 의미가 유사한 것들로 분류한 후, 명사와 동사의 분포정보가 아닌 명사와 동사들의 집합의 분포정보를 이용하는 것도 종은 방법이 될 것이다.

  • PDF

Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction (음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation)

  • Choi, Junhwi;Ryu, Seonghan;Yu, Hwanjo;Lee, Gary Geunbae
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

Semi-automatic Semantic Role Labelling Tool based on Korean Case Frame (한국어 격틀사전 기반 의미역 반자동 부착 도구)

  • Kim, Wansu;Ock, CheolYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.251-254
    • /
    • 2014
  • 의미역 결정은 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제로, 기계학습에 의한 의미역을 부착하기 위해서는 의미역 부착 말뭉치를 필요로 한다. 본 논문에서 격틀 사전을 사용하여 각 서술어의 논항의 의미역을 제한하여 작업자가 빠르게 의미역 말뭉치를 구축할 수 있도록 하는 의미역 반자동 부착 도구(UTagger-SR)를 개발하였다.

  • PDF

Korean Spelling Corrector Based on Corpus Analysis (말뭉치를 기반으로 한 한국어 철자 교정기의 구현)

  • Lee, Byeong-Hun;Yun, Jun-Tae;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.285-293
    • /
    • 1993
  • 대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

  • PDF

Unsupervised Semantic Role Labeling for Korean Adverbial Case (비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정)

  • Kim, Byoung-Soo;Lee, Yong-Hun;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.112-122
    • /
    • 2007
  • Training a statistical model for semantic role labeling requires a large amount of manually tagged corpus. However. such corpus does not exist for Korean and constructing one from scratch is a very long and tedious job. This paper suggests a modified algorithm of self-training, an unsupervised algorithm, which trains a semantic role labeling model from any raw corpora. For initial training, a small tagged corpus is automatically constructed iron case frames in Sejong Electronic Dictionary. Using the corpus, a probabilistic model is trained incrementally, which achieves 83.00% of accuracy in 4 selected adverbial cases.

Detecting and Interpreting Terms: Focusing Korean Medical Terms (전문용어 탐지와 해석 모델: 한국어 의학용어 중심으로 )

  • Haram-Yeom;Jae-Hoon Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.407-411
    • /
    • 2022
  • 최근 COVID-19로 인해 대중의 의학 분야 관심이 증가하고 있다. 대부분의 의학문서는 전문용어인 의학용어로 구성되어 있어 대중이 이를 보고 이해하기에 어려움이 있다. 의학용어를 쉬운 뜻으로 풀이하는 모델을 이용한다면 대중이 의학 문서를 쉽게 이해할 수 있을 것이다. 이런 문제를 완화하기 위해서 본 논문에서는 Transformer 기반 번역 모델을 이용한 의학용어 탐지 및 해석 모델을 제안한다. 번역 모델에 적용하기 위해 병렬말뭉치가 필요하다. 본 논문에서는 다음과 같은 방법으로 병렬말뭉치를 구축한다: 1) 의학용어 사전을 구축한다. 2) 의학 드라마의 자막으로부터 의학용어를 찾아서 그 뜻풀이로 대체한다. 3) 원자막과 뜻풀이가 포함된 자막을 나란히 배열한다. 구축된 병렬말뭉치를 이용해서 Transformer 번역모델에 적용하여 전문용어를 찾아서 해석하는 모델을 구축한다. 각 문장은 음절 단위로 나뉘어 사전학습 된 KoCharELECTRA를 이용해서 임베딩한다. 제안된 모델은 약 69.3%의 어절단위 BLEU 점수를 보였다. 제안된 의학용어 해석기를 통해 대중이 의학문서를 좀 더 쉽게 접근할 수 있을 것이다.

  • PDF

Morphological Analyzer using Adjacent Attribute and Near Word Information (형태소 접속 특성과 인접 말마디 정보를 이용한 형태소 분석기)

  • Kim, Byung-Hi;Lim, Kwon-Mook;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.395-404
    • /
    • 1993
  • 본 논문은 형태소간의 접속 특성과 대형 말뭉치(Corpus)에서 추출된 인접 말마디의 정보를 이용해서 한국어 형태소 분석기를 구현한다. 언어는 단지 규칙으로만 처리하기에는 불가능한 복잡한 구조와 중의성을 갖고 있기 때문에 과거에 주로 연구되었던 형태소들간의 접속 특성과 규칙을 이용한 형태소 분석은 실제로 구문분석 단계에서 사용될 수 있는 실용성을 제시하지 못했다. 따라서 형태소 접속 특성뿐만 아니라 인접 말마디와의 관계를 사전에 기술함으로써 보다 실용성 있는 형태소 분석기의 구현을 시도한다. 아울러 본 형태소 분석기의 효능은 정착하고 풍부한 정보를 사전에 효율적으로 수록함으로써 이룩될 것이며, 이를 위해 기존 사전의 보강에 필요한 정보들을 대형 말뭉치로부터 추출하여 사전에 첨가시킨다.

  • PDF

Automatic Generation of Vocabulary Problem for Learning Korean as a Foreign Language (외국인의 한국어 학습을 위한 어휘 문제 자동 생성)

  • Kim, Seong-Uk;Lim, JaeHyun;Kim, Yein;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.247-250
    • /
    • 2014
  • 국내에서 거주하는 외국인들을 대상으로 한 여러 정책들이 만들어지고 있다, 그에 따른 한국어 교육의 수요는 증가하고 있지만 그에 적합한 한국어 교육시스템의 자동화 및 발전은 미약하다. 본 논문에서는 사전예문과 획득이 용이한 말뭉치를 가공하여 적절한 수준의 문제를 자동으로 생성하는 방법을 제안한다. 자동문제생성에서는 말뭉치와 사전 예문에서 문제와 보기문항을 생성하고, 보기 리스트를 생성한다. 웹문서 검색빈도를 이용하여 생성된 보기리스트의 적합성을 분석하여 정제된 보기 리스트를 획득한다. 얻어진 보기들을 임의로 선택하여 출력함으로써 사용자들이 다양한 문제를 접할 수 있도록 한다.

  • PDF