• 제목/요약/키워드: 오류교정

검색결과 197건 처리시간 0.025초

철자오류에 기인한 가의미 오류의 검출 및 교정 방법 (A Method for Detection and Correction of Pseudo-Semantic Errors Due to Typographical Errors)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.173-182
    • /
    • 2013
  • 전자 문서의 초안 작성과정에서 추가되는 철자오류는 다른 유형의 오류보다 압도적으로 높은 비율을 차지한다. 입력 실수로 인한 이들 오류는 결과적으로 여전히 철자오류일 수도 있지만 상당수는 구문오류나 의미오류로 발전한다. 이러한 오류들 중 철자오류에서 발전된 가의미 오류는 순수 의미오류에 비해 문장 내에서 주변 단어의 의미에 대해 두드러진 상이성을 갖게된다. 따라서 이러한 의미 오류는 그것이 가지는 두드러진 문맥 상이성으로 인해 간단한 동시발생 빈도에 기초한 알고리즘으로 검출 및 교정이 가능하다. 본 논문에서는 이러한 오류들을 검출하고 교정하기 위한 동시발생 빈도에 기초한 알고리즘을 제안한다. 제안하는 방법에서 동시발생 빈도는 의존 구조상에서 직접 의존관계에 놓인 단어만을 대상으로 계산하며, 가의미 오류 여부를 판단하기 위해서 코사인 유사도 측정 방법을 사용한다. 제시하는 실험으로부터 제안한 방법은 전체 맞춤법 검사기 검출율을 약 2~3% 수준까지 향상 시킬 수 있을 것으로 예측하였다.

동적 윈도우를 갖는 조건부확률 모델을 이용한 한국어 문맥의존 철자오류 교정 규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules using Conditional Probability Model with Dynamic Window Sizes)

  • 최현수;권혁철;윤애선
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.629-636
    • /
    • 2015
  • 한국어 맞춤법 검사기가 교정하는 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이 중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 올바르지만, 문맥을 고려하였을 때 오류가 되는 유형으로, 교정 난도가 매우 높다. 문맥의존 철자오류는 글을 쓰는 사람들도 자주 저지르는 오류이므로, 이를 잘 검색하여 정확하게 교정하는 것이 맞춤법 검사기의 사용자가 갖는 신뢰도에 큰 영향을 미친다. 높은 정확도가 매우 중요하므로, 문맥의존 철자오류의 교정 방법은 대부분 규칙에 기반한다. 반대 급부로 재현율이 매우 낮다는 단점을 갖는다. 문맥의존 철자오류의 교정에서 재현율을 높이기 위한 방법은 크게 언어지식을 이용하여 규칙을 일반화하는 방법과 통계 정보에 기반을 하여 공기 어휘의 제약 조건을 확장하는 방법으로 나뉠 수 있다. 기존 연구는 언어지식을 이용하여 규칙을 일반화하는 다양한 방식을 연구했으나, 최고 성능이 평균 정확도 95.19%, 평균 재현율 37.56%을 보였다. 본 논문에서는 통계정보에 기반한 규칙의 확장 방식을 제안한다. 동적 윈도우를 갖는 조건부확률 모델을 이용한 방법이며, 최고 성능은 평균 정확도 97.23%, 평균 재현율 50.50%을 보여주었다.

효율적인 문서처리를 위한 띄어쓰기 교정 기법 개선 (Improving Word Spacing Correction Methods for Efficient Text Processing)

  • 강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.486-488
    • /
    • 2003
  • 한국어 문서에서 가장 많이 나타나는 띄어쓰기 오류는 의미적이고 통사적인 중의성이나 오류를 야기한다. 이 논문은 부산대 인공지능 연구실에서 개발한 부분 문장 분석을 기반으로 하는 한국어 걸자 및 운법 검사기(2.2)에 구현되어 있는 어절 내 한 번 띄어쓰기 오류 교정 기법 및 어절 간 띄어쓰기 오류 교점 기법을 확장하고 개선하며 어절 내 여러 번 띄어쓰기 기법을 개발함을 목표로 한다.

  • PDF

자료보호를 위한 오류 탐지 및 교정 (Error Detection & Correction for the Data Protection)

  • 최우영
    • 정보보호학회논문지
    • /
    • 제4권2호
    • /
    • pp.119-135
    • /
    • 1994
  • 위성을 이용한 통신에서 오류의 검출과 교정은 중요한 과제중의 하나이다. 이 논문에서는 위성통신에 많이 응용되는 컨벌루션 부호에 있어서 전송되는 데이터에 패리티 비트를 부가하고 인터리브를 행하여, 채널상에서 나타나는 집단적 오류에 대해 능률적으로 대처할 수 있는 방법을 제시하고 있다. 이 방법은 부호화 과정에서 패리티비트를 얻기 위한 추가적 계산이 필요 없어서 계산의 복잡도를 증가시키지 않는다. 또 부호해석 과정에서는 개선된 알고리즘의 적용을 통하여, 예상되는 오류의 발생량이 큰 경우에만 패리티 정보를 참조케함으로써 불필요한 계산량의 증가를 줄이고 있다.

다중 PCM 데이터를 이용한 텔레메트리 데이터 복구 방법 (Telemetry Data Recovery Method Using Multiple PCM Data)

  • 정혜승;김주년
    • 항공우주기술
    • /
    • 제11권2호
    • /
    • pp.96-102
    • /
    • 2012
  • 최근 여러 개의 지상국에서 수신한 PCM 데이터를 병합하여 잡음에 의한 프레임 오류를 제거하는 방법에 관한 관심이 증가하고 있다. 단순 병합 방식은 이미 나로우주센터의 데이터처리 시스템에 적용되어, 나로호의 1, 2차 비행시험 데이터 분석에 사용된 바 있다. 본 논문은 단순 데이터 병합방식에 데이터 치환, 비트단위 투표 등의 오류교정 알고리즘 및 시간지연데이터를 이용한 교정알고리즘을 적용하여 오류율을 더 낮추는 데 초점을 맞추고 있다. 네 개 지상국에서 수신된 나로호 비행시험 데이터에 제안된 알고리즘을 적용한 결과 단순 병합방식보다 1.32%의 오류율이 개선된 것으로 나타났다. 제시된 알고리즘은 향후 다양한 텔레메트리 병합데이터 생성에 유용하게 사용될 수 있으리라 판단된다.

문장 성분의 의미 관계를 이용한 한국어 오류 문자 교정 시스템 (The error character Revision System of the Korean using Semantic relationship of sentence component)

  • 박현재;박해선;강원일;손영선
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.28-32
    • /
    • 2004
  • 현재 구현되어 있는 한국어 철자 교정 시스템은 문장의 문법 정보나 연어 관계로부터 문장의 오류를 처리하는 방식을 쓰고 있다. 본 논문에서는. 홑문장에서 의미소 사이의 관계를 이용하여 오타 문자를 교정하고, 오타에 의한 의미적인 오류가 있을 때에는 적절한 의미를 가지는 단어로 대체하는 시스템을 제안한다. 상기의 제안된 시스템을 이용하여 의미소들 간의 의미가 통하는 여러 개의 문장들이 제공된다. 단어의 뜻에 따라 체언은 의미 트리를 형성하고, 서술어는 주어 및 목적어의 체언과 의미 관계를 정의한다. 오류가 포함된 문장에서, 의미 관계를 비교, 분석하여 주어 및 목적어의 체언이 틀렸을 경우에는 서술어로부터, 서술어가 틀렸을 경우에는 주어 및 목적어의 체언으로부터, 수식어가 틀렸을 경우에는 체언 또는 서술어로부터 정의된 상호 의미 관계를 이용하여 한 문자에 대한 오타를 교정하고 오타에 의한 의미적 오류가 발견될 때에는 상기와 같은 철자 교정 방법을 적용하였다.

한국어 맞춤법 교정을 위한 초거대 언어 모델의 잠재적 능력 탐색 (Examining the Feasibility of Utilizing a Large Language Model for Korean Grammatical Error Correction)

  • 구선민;박찬준;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-65
    • /
    • 2023
  • 최근, 대부분의 태스크가 초거대 언어 모델로 통합되고 있을 정도로 많은 관심 및 연구되고 있다. 초거대 언어 모델을 효과적으로 활용하기 위해서는 모델의 능력에 대한 분석이 선행되어야 하나, 한국어에 대한 분석 및 탐색은 상대적으로 부족하다. 본 논문에서는 한국어 맞춤법 교정 태스크를 통해 초거대 언어 모델의 능력을 탐색한다. 맞춤법 교정 태스크는 문장의 구조 및 문법을 이해하는 능력이 필요하며, 사용자의 만족도에 영향을 미칠 수 있는 중요한 태스크이다. 우리는 맞춤법 세부 유형에 따른 ChatGPT의 제로샷 및 퓨샷성능을 평가하여 초거대 언어 모델의 성능 분석을 수행한다. 실험 결과 제로샷의 경우 문장부호 오류의 성능이 가장 우수했으며, 수사 오류의 성능이 가장 낮았다. 또한, 예제를 더 많이 제공할수록 전체적인 모델의 성능이 향상되었으나, 제로샷의 경우보다 오류 유형 간의 성능 차이가 커지는 것을 관찰할 수 있었다.

  • PDF

통계적 문맥의존 철자오류 교정 기법의 향상을 위한 지역적 문서 정보의 활용 (The Utilization of Local Document Information to Improve Statistical Context-Sensitive Spelling Error Correction)

  • 이정훈;김민호;권혁철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권7호
    • /
    • pp.446-451
    • /
    • 2017
  • 본 논문에서의 문맥의존 철자오류(Context-Sensitive Spelling Error) 교정 기법은 샤논(Shannon)의 노이지 채널 모형(noisy channel model)을 기반으로 한다. 논문에서 제안하는 교정 기법의 향상에는 보간(interpolation)을 사용하며, 일반적인 보간 방법은 확률의 중간 값을 채우는 방식으로 N-gram에 존재하지 않는 빈도를 (N-1)-gram과 (N-2)-gram 등에서 얻는다. 이와 같은 방식은 동일 통계 말뭉치를 기반으로 계산하는데 제안하는 방식에서는 통계 말뭉치와 교정 문서간의 빈도 정보를 이용하여 보간 한다. 교정 문서의 빈도를 이용하였을 때 이점은 다음과 같다. 첫째 통계 말뭉치에 존재하지 않고 교정 문서에서만 나타나는 신조어의 확률을 얻을 수 있다. 둘째 확률 값이 모호한 두 교정 후보가 있더라도 교정 문서를 참고로 교정하게 되어 모호성을 해소한다. 제안한 방법은 기존 교정 모형보다 정밀도와 재현율의 성능향상을 보였다.

도메인 특화 기계번역 사후교정 모델 검증 연구 (Verification of the Domain Specialized Automatic Post Editing Model)

  • 문현석;박찬준;서재형;어수경;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2021
  • 인공지능 기술이 발달함에 따라 기계번역 기술도 많은 진보를 이루었지만 여전히 기계번역을 통한 번역문 내에는 사람이 교정해야 하는 오류가 다수 포함되어있다. 이렇게 번역 모델에서 생성되는 오류를 교정하는 전문인력의 요구를 경감시키기 위하여 기계번역 사후교정 연구가 등장하였고, 해당 연구는 현재 WMT를 주축으로 활발하게 연구되고 있다. 이러한 사후교정 연구는 최근 도메인 특화 관점에서 주로 연구가 이루어지고 있으며 현재 많은 도메인에서 유의미한 성과를 내고 있다. 하지만 이런 연구들은 기존 번역문의 품질을 얼만큼 향상시켰는가에 초점을 맞출 뿐, 다른 도메인 특화 번역모델의 성능과 비교했을 때 얼마나 뛰어난지는 밝히지 않기 때문에 사후교정 연구가 도메인 특화에서 효과적으로 작용하는지 명확하게 알 수 없다. 이에 본 연구에서는 도메인 특화 번역 모델과 도메인 특화 사후교정 모델간의 성능을 비교함으로써, 도메인 특화에서 사후교정을 통해 얻을 수 있는 실제적인 성능을 검증한다. 이를 통해 사후교정이 도메인 특화 번역모델과 비교했을 때 미미한 수준의 성능을 보임을 실험적으로 확인하였고, 해당 실험 결과를 분석함으로써 향후 도메인특화 사후교정 연구의 방향을 제안하였다.

  • PDF

교정률 최적화를 위한 한국어 철자교정기의 모듈 배열 (A Research on Module Arrangement of Korean Spelling Corrector to Optimize Correction Rate)

  • 윤근수;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.366-377
    • /
    • 2005
  • 본 논문은 한국어 철자교정기의 최적교정률을 보이는 모듈들의 나열순서를 찾는 연구이다. 철자교정기의 모듈 개수가 n개이면 모듈나열 경우의 수는 n!가지가 가능하므로 철자교정기의 최적 교정률을 계산하기가 힘들어 진다. 실험에 사용한 한국어 철자교정기는 현재 19개 모듈들로 구성되어 있다. 입력데이타에 대해서 19!개 모듈을 적용하여 최적교정률을 찾는 것은 현실적으로 불가능하다. 따라서 주어진 입력데이타에 대해 이론적인 최대교정률과 최소교정률을 구하여 교정률 범위를 구하고, 최대교정률에 근접한 최적교정률에 대한 모듈나열순서를 구하는 것이 논문의 목적이다. 최적교정률을 구하기 위해 경험적 지식을 사용하였다. 실험에 사용한 입력데이타는 신문사에서 몇 년간 발생한 오류어절 753,191개의 집합이다. 이 오류집합에 대해 철자교정기의 이론적인 최대교정률은 $97.28\%$ (732,764개/753,191개)이나 경험적으로 우리가 찾은 최적교정률은 $96.62\%$ (727,750개 /733,191개)이다. 철자교정기의 성능은 $99.31\%$ (727,750개 /732,764개)이다.