• Title/Summary/Keyword: Spelling Error

Search Result 38, Processing Time 0.022 seconds

Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing (영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기)

  • Choi, Yong Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.4 no.1
    • /
    • pp.45-56
    • /
    • 2015
  • In this paper, we present a method that can detect context-sensitive word errors and generate correction candidates. Spelling error detection is one of the most widespread research topics, however, the approach proposed in this paper is adjusted for an automated English scoring system. A common strategy in context-sensitive word error detection is using a pre-defined confusion set to generate correction candidates. We automatically generate a confusion set in order to consider the characteristics of sentences written by second-language learners. We define a word error that cannot be detected by a conventional grammar checker because of part-of-speech ambiguity, and propose how to detect the error and generate correction candidates for this kind of error. An experiment is performed on the English writings composed by junior-high school students whose mother tongue is Korean. The f1 value of the proposed method is 70.48%, which shows that our method is promising comparing to the current-state-of-the art.

Detecting and correcting errors in Korean POS-tagged corpora (한국어 품사 부착 말뭉치의 오류 검출 및 수정)

  • Choi, Myung-Gil;Seo, Hyung-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Journal of Advanced Marine Engineering and Technology
    • /
    • v.37 no.2
    • /
    • pp.227-235
    • /
    • 2013
  • The quality of the part-of-speech (POS) annotation in a corpus plays an important role in developing POS taggers. There, however, are several kinds of errors in Korean POS-tagged corpora like Sejong Corpus. Such errors are likely to be various like annotation errors, spelling errors, insertion and/or deletion of unexpected characters. In this paper, we propose a method for detecting annotation errors using error patterns, and also develop a tool for effectively correcting them. Overall, based on the proposed method, we have hand-corrected annotation errors in Sejong POS Tagged Corpus using the developed tool. As the result, it is faster at least 9 times when compared without using any tools. Therefore we have observed that the proposed method is effective for correcting annotation errors in POS-tagged corpus.

Error Analysis of Chinese Learners of the Korean Language: Focus on Analysis of Vocabulary (중국어 모어 화자의 한국어 학습자의 쓰기에 나타난 오류 분석 -어휘 오류를 중심으로-)

  • Noh, Byung-ho
    • Journal of the Korea Convergence Society
    • /
    • v.6 no.5
    • /
    • pp.131-142
    • /
    • 2015
  • The aim of study is to present a better teaching strategy to reduce writing errors of Chinese learners of Korean language after finding out what reasons of errors were after analyzing of their writing errors in Korean language. Analyzed contents were writhing in Korean language of 'how I think Korean', 'about Chinese and Korean culture', 'friends' and analyzed what errors were occurred. The vocabulary errors frequencies were counted by the criteria which was set by a researcher. The results were as follows. The frequency of substitute error was the most and were followed by spelling error, wrong type error, omission error and adding error. It is suggested when we teach Korean Language to Chinese learners and develop text for them, the vocabularies should be presented with examples of how to be used in context instead of presenting only vocabulary on the text. It would be a better way to reduce writing errors of Chinese learners of Korean language.

Detecting Spelling Errors by Comparison of Words within a Document (문서내 단어간 비교를 통한 철자오류 검출)

  • Kim, Dong-Joo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.12
    • /
    • pp.83-92
    • /
    • 2011
  • Typographical errors by the author's mistyping occur frequently in a document being prepared with word processors contrary to usual publications. Preparing this online document, the most common orthographical errors are spelling errors resulting from incorrectly typing intent keys to near keys on keyboard. Typical spelling checkers detect and correct these errors by using morphological analyzer. In other words, the morphological analysis module of a speller tries to check well-formedness of input words, and then all words rejected by the analyzer are regarded as misspelled words. However, if morphological analyzer accepts even mistyped words, it treats them as correctly spelled words. In this paper, I propose a simple method capable of detecting and correcting errors that the previous methods can not detect. Proposed method is based on the characteristics that typographical errors are generally not repeated and so tend to have very low frequency. If words generated by operations of deletion, exchange, and transposition for each phoneme of a low frequency word are in the list of high frequency words, some of them are considered as correctly spelled words. Some heuristic rules are also presented to reduce the number of candidates. Proposed method is able to detect not syntactic errors but some semantic errors, and useful to scoring candidates.

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

Improving the Performance of Statistical Context-Sensitive Spelling Error Correction Techniques Using Default Operation Algorithm (Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상)

  • Lee, Jung-Hun;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.165-170
    • /
    • 2016
  • 본 논문에서 제안하는 문맥의존 철자오류 교정은 통계 정보를 이용한 방법으로 통계적 언어처리에서 가장 널리 쓰이는 샤논(Shannon)이 발표한 노이지 채널 모형(noisy channel model)을 기반으로 한다. 선행연구에서 부족하였던 부분의 성능 향상을 위해 교정대상단어의 오류생성 및 통계 데이터의 저장 방식을 개선하여 Default 연산을 적용한 모델을 제안한다. 선행 연구의 모델은 교정대상단어의 오류생성 시 편집거리의 제약을 1로 하여 교정 실험을 하지만 제안한 모델은 같은 환경에서 더욱 높은 검출과 정확도를 보였으며, 오류단어의 편집거리(edit distance) 제약을 넓게 적용하더라도 신뢰도가 있는 검출과 교정을 보였다.

  • PDF

A joint statistical model for word spacing and spelling error correction (띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델)

  • Noh, Hyung-Jong;Cha, Jeong-Won;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.25-31
    • /
    • 2006
  • 본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대 된다.

  • PDF

Context-sensitive Spelling Error Correction using Feed-Forward Neural Network (Feed-Forward Neural Network를 이용한 문맥의존 철자오류 교정)

  • Hwang, Hyunsun;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.124-128
    • /
    • 2015
  • 문맥의존 철자오류는 해당 단어만 봤을 때에는 오류가 아니지만 문맥상으로는 오류인 문제를 말한다. 이러한 문제를 해결하기 위해서는 문맥정보를 보아야 하지만, 형태소 분석 단계에서는 자세한 문맥 정보를 보기 어렵다. 본 논문에서는 형태소 분석 정보만을 이용한 철자오류 수정을 위한 문맥으로 사전훈련(pre-training)된 단어 표현(Word Embedding)를 사용하고, 기존의 기계학습 알고리즘보다 좋다고 알려진 딥 러닝(Deep Learning) 기술을 적용한 시스템을 제안한다. 실험결과, 기존의 기계학습 알고리즘인 Structural SVM보다 높은 F1-measure 91.61 ~ 98.05%의 성능을 보였다.

  • PDF

Context-sensitive Spelling Error Correction using Deep Learning (답 러닝을 이용한 문맥 의존 철자 오류 교정)

  • Hwang, Hyunsun;Choi, Kyoungho;Lee, Changki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.819-821
    • /
    • 2015
  • 문맥 철자 오류란 단어만 봤을 때에는 오류가 아니지만 문맥상으로는 오류인 문제를 말한다. 이 문제를 해결하기 위해서는 문맥 정보를 보아야 하는데 기존의 방법들은 언어학의 전문가가 설계한 규칙을 사용하거나, 통계적인 분석 방법을 사용하였다. 하지만 이 방법들은 많은 시간과 노력을 필요로 하지만 높은 성능을 얻지 못한다. 본 논문에서는 최근 자연언어처리에서 연구되고 있는 딥러닝을 사용하여 문맥 철자 오류 교정을 시도하였다. 실험 결과 자질 설계 등의 복잡한 작업 없이 워드 임베딩 만을 사용하여 해당 단어들에 대해 F1-measure 91.43 ~ 97.27%의 성능을 보였다.

An Implementation of a Lightweight Spacing-Error Correction System for Korean (한국어 경량형 띄어쓰기 교정 시스템의 구현)

  • Song, Yeong-Kil;Kim, Hark-Soo
    • The Journal of Korean Association of Computer Education
    • /
    • v.12 no.2
    • /
    • pp.87-96
    • /
    • 2009
  • We propose a Korean spacing-error correction system that requires small memory usage although the proposed method is a mixture of rule-based and statistical methods. In addition, to train the proposed model to be robust in mobile colloquial sentences in which spelling errors and omissions of functional words are frequently occurred, we propose a method to automatically transform typical colloquial corpus to mobile colloquial corpus. The proposed system uses statistical information of syllable uni-grams in order to increase coverages on new syllable patterns. Then, the proposed system uses error correction rules of two or more grams of syllables in order to increase accuracies. In the experiments on fake mobile colloquial sentences, the proposed system showed relatively high accuracy of 92.10% (93.80% in typical colloquial corpus, 94.07% in typical balanced corpus) spite of small memory usage of about 1MB.

  • PDF