• Title/Summary/Keyword: 단어 오류

Search Result 213, Processing Time 0.057 seconds

Word Sense Disambiguation Method Using Co-occurrence Information (공기정보를 이용한 단어 의미 중의성 해결 방안)

  • Park, Yo-Sep;Kim, Gyeong-Im;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.177-178
    • /
    • 2010
  • 단어 의미 중의성은 자연언어처리 분야에서의 주요 관심 분야이다. 한국어에서의 단어 의미 중의성 문제는 다른 언어에 비하여 연구가 미흡한 상태이다. 기존 연구에서는 빈도 수에 기반한 공기 정보 벡터를 이용한 방법에서 처리되지 못하는 경우가 발생하였다. 또한 사전에 기반한 상위어 추출 시에 정형화된 형태가 아닌 경우에 어려움이 발생하였다. 본 논문에서는 상호정보량을 추가하여 공기 정보 처리 과정 시에 발생하는 오류를 최소화 하였다. 또한 대상 명사의 상위어 추출 문제를 해결하기 위해 어휘 지식 베이스를 적용하였다.

  • PDF

Korean Spell Correction Using Collocation of Morphemes (형태소간의 의존 관계에 따른 오류 유형 추정 함수를 이용한 한국어 철자 오류 교정)

  • Sim, Chul-Min;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.493-498
    • /
    • 1994
  • 기존 철자 검사/교정기들은 한 어절을 구성하는 형태소들의 품사 정도만을 이용하고 있다. 때문에 철자 검사나 교정의 정확도 면에서 한계를 가진다. 본 논문에서는 한국어의 구문적 연관 관계 및 구문 내에 존재하는 단어들 간의 의미적 연관관계 등을 바탕으로 오류 유형을 추정하는 오류 유형 추정 함수를 제안하고, 이를 이용한 철자 교정기를 구현하였다. 본 논문에서 구현한 오류 유형 추정 함수를 이용한 철자 검사/교정기는 한 어절에 국한되었던 철자 검사/교정의 범위를 여러 어절로 확장하고자 하는 시도의 시발이라 할 수 있다. 따라서 구문 검사 및 의미 검사를 수행하는 문체 검사기의 원형으로서 그 의의를 가진다.

  • PDF

Spelling Correction in Korean Using the `Eojeol` generation Dictionary (어절 생성 사전을 이용한 한국어 철자 교정)

  • Lee, Yeong-Sin;Park, Yeong-Ja;Song, Man-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.1
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF

The error character Revision System of the Korean using Semantic relationship of sentence component (문장 성분의 의미 관계를 이용한 한국어 오류 문자 교정 시스템)

  • Park, Hyun-Jae;Park, Hae-Sun;Kang, One-Il;Sohn, Young-Sun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.1
    • /
    • pp.28-32
    • /
    • 2004
  • Till now, Korean spelling proofreading system has corrected words of a sentence from the relationship of a collocation or the grammatical information of the sentence. In this paper, we propose a system that corrects a word using the relationship among the sememes in a single sentence and substitutes an apt word for a word of the sentence that has the meaningful mistake by a mistyping. The proposed system makes several sentences that are able to communicate with each sememe. The substantives forms meaning tree according to the meaning of the word and the predicate of a sentence defines the meaningful relationship between a substantives of the subject and the object. After this system compares and analyzes the relationship of meaning, it corrects the mistyping of a word in a single sentence that includes an error. If the system finds out the semantic error by the mistyping, it applies the spelling proofreading method that proposed in this paper.

STANDARDIZATION OF WORD/NONWORD READING TEST AND LETTER-SYMBOL DISCRIMINATION TASK FOR THE DIAGNOSIS OF DEVELOPMENTAL READING DISABILITY (발달성 읽기 장애 진단을 위한 단어/비단어 읽기 검사와 글자기호감별검사의 표준화 연구)

  • Cho, Soo-Churl;Lee, Jung-Bun;Chungh, Dong-Seon;Shin, Sung-Woong
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • v.14 no.1
    • /
    • pp.81-94
    • /
    • 2003
  • Objectives:Developmental reading disorder is a condition which manifests significant developmenttal delay in reading ability or persistent errors. About 3-7% of school-age children have this condition. The purpose of the present study was to validate the diagnostic values of Word/Nonword Reading Test and Letter-Symbol Discrimination Task for the purpose of overcoming the caveats of Basic Learning Skills Test. Methods:Sixty-three reading-disordered patients(mean age 10.48 years old) and sex, age-matched 77 normal children(mean age 10.33 years old) were selected by clinical evaluation and DSM-IV criteria. Reading I and II of Basic Learning Skills Test, Word/Nonword Reading Test, and Letter-Symbol Discrimination Task were carried out to them. Word/Nonword Reading Test:One hundred usual highfrequency words and one hundred meaningless nonwords were presented to the subjects within 1.2 and 2.4 seconds, respectively. Through these results, automatized phonological processing ability and conscious letter-sound matching ability were estimated. Letter-Symbol Discrimination Task:mirror image letters which reading-disordered patients are apt to confuse were used. Reliability, concurrent validity, construct validity, and discriminant validity tests were conducted. Results:Word/Nonword Reading Test:the reliability(alpha) was 0.96, and concurrent validity with Basic Learning Skills test was 0.94. The patients with developmental reading disorders differed significantly from normal children in Word/Nonword Reading Test performances. Through discriminant analysis, 83.0% of original cases were correctly classified by this test. Letter-Symbol Discrimination Task:the reliability(alpha) was 0.86, and concurrent validity with Basic Learning Skills test was 0.86. There were significant differences in scores between the patients and normal children. Factor analysis revealed that this test were composed of saccadic mirror image processing, global accuracy, mirror image processing deficit, static image processing, global vigilance deficit, and inattention-impulsivity factors. By discriminant analysis, 87.3% of the patients and normal children were correctly classified. Conclusion:The patients with developmental reading disorders had deficits in automatized visuallexical route, morpheme-phoneme conversion mechanism, and visual information processing. These deficits were reliably and validly evaluated by Word/Nonword Reading Test and Letter-Symbol Discrimination Task.

  • PDF

The Detection and Correction of Context Dependent Errors of The Predicate using Noun Classes of Selectional Restrictions (선택 제약 명사의 의미 범주 정보를 이용한 용언의 문맥 의존 오류 검사 및 교정)

  • So, Gil-Ja;Kwon, Hyuk-Chul
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.1
    • /
    • pp.25-31
    • /
    • 2014
  • Korean grammar checkers typically detect context-dependent errors by employing heuristic rules; these rules are formulated by language experts and consisted of lexical items. Such grammar checkers, unfortunately, show low recall which is detection ratio of errors in the document. In order to resolve this shortcoming, a new error-decision rule-generalization method that utilizes the existing KorLex thesaurus, the Korean version of Princeton WordNet, is proposed. The method extracts noun classes from KorLex and generalizes error-decision rules from them using the Tree Cut Model and information-theory-based MDL (minimum description length).

Improving of the Correction Methods for a Korean Spell/Grammar Checker (한국어 철자 검사기의 교정기법 개선)

  • 김광영;남현숙;박수호;박진희;권혁철
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.89-94
    • /
    • 2000
  • 본 논문은 부산대 철자 검사/교정기의 기존 성능을 보완하고 기능을 추가하는데 중점을 두었다. 웹 문서, 신문 등을 통해서 사용자들이 자주 틀리는 오류 단어에 대해서 오류 유형을 분류했다. 이 결과를 철자 검사 및 교정 시스템에 적용하여 교정기법 개선을 통하여 띄어쓰기 교정 기능을 향상 시켰다. 이렇게 새로 구현한 시스템과 이전 시스템의 성능을 실험을 통해 비교 분석하였다. 본 연구를 진행하면서 발견한 문제점과 한계를 이후 더 발전 해야할 과제로 고찰하고 결론을 맺는다.

  • PDF

Performance Comparison of Out-Of-Vocabulary Word Rejection Algorithms in Variable Vocabulary Word Recognition (가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교)

  • 김기태;문광식;김회린;이영직;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.2
    • /
    • pp.27-34
    • /
    • 2001
  • Utterance verification is used in variable vocabulary word recognition to reject the word that does not belong to in-vocabulary word or does not belong to correctly recognized word. Utterance verification is an important technology to design a user-friendly speech recognition system. We propose a new utterance verification algorithm for no-training utterance verification system based on the minimum verification error. First, using PBW (Phonetically Balanced Words) DB (445 words), we create no-training anti-phoneme models which include many PLUs(Phoneme Like Units), so anti-phoneme models have the minimum verification error. Then, for OOV (Out-Of-Vocabulary) rejection, the phoneme-based confidence measure which uses the likelihood between phoneme model (null hypothesis) and anti-phoneme model (alternative hypothesis) is normalized by null hypothesis, so the phoneme-based confidence measure tends to be more robust to OOV rejection. And, the word-based confidence measure which uses the phoneme-based confidence measure has been shown to provide improved detection of near-misses in speech recognition as well as better discrimination between in-vocabularys and OOVs. Using our proposed anti-model and confidence measure, we achieve significant performance improvement; CA (Correctly Accept for In-Vocabulary) is about 89%, and CR (Correctly Reject for OOV) is about 90%, improving about 15-21% in ERR (Error Reduction Rate).

  • PDF

The phoneme segmentatioi with MLP-based postprocessor on speech synthesis corpora (합성용 운율 DB 구축에서의 MLP 기반 후처리가 포함된 음소분할)

  • 박은영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.344-349
    • /
    • 1998
  • 음성/언어학적 및 음성의 과학적 연구를 위해서는 대량의 음소 단위 분절 레이블링된 데이터베이스 구축이 필수적이다. 따라서, 본 논문은 음성 합성용 DB 의 구축 및 합성 단위 자동 생성 연구의 일환으로 자동 음소 분할기의 경계오류를 보상할 목적으로 MLP 기반 호처리기가 포함된 음소 분할 방식을 제안한다. 최근 자동 음소 분할기의 성능 향상으로 자동 분절 결과를 이용하여 음성 합성용 운율 DB를 작성하고 있으나, 여전히 경계오류를 수정하지 않고서는 합성 단위로 직접 사용하기 어렵다. 이로 인해 보다 개선된 자동 분절 기술이 요구된다. 따라서, 본 논문에서는 음성에 내제된 음향적 특징을 다층 신경회로망으로 학습하고, 자동 분절기 오류의 통계 특성을 이용하여 자동 분절 경계 수정에 용이한 방식을 제안한다. 고립단어로 발성된 합성 데이터베이스에서, 제안된 후처리기를 도입 후, 기존 자동 분절 시스템이 분할율에 비해 약 25% 의 향상된 성능을 보였으며, 절대 오류는 약 39%가 향상되었다.

  • PDF

Detecting errors on Korean POS tagged corpus using GMM (GMM을 이용한 품사 부착 말뭉치의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.246-251
    • /
    • 2019
  • 품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

  • PDF