• 제목/요약/키워드: 한국어 교정

검색결과 117건 처리시간 0.024초

동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정 (Using Dynamic Programming for Word Segmentation in OCR)

  • 박호민;김창현;노경목;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

의미소를 이용한 한국어 오류 문자 교정 시스템 (The error character Revision System of the Korean using Sememe)

  • 박현재;박해선;강원일;손영선
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.31-34
    • /
    • 2003
  • 현재 구현되어 있는 한국어 철자 교정 시스템은 문장의 문법 정보나 연어 관계로부터 문장의 오류를 처리하는 방식을 쓰고 있다. 본 논문에서는, 홑문장에서 의미소 사이의 관계를 이용하여 오타 문자를 수정하고 오타에 의한 의미적인 오류가 있을 때에는 의미에 해당하는 적절한 단어를 대체하여 제공하는 시스템을 제안한다. 단어의 뜻에 따라 체언은 의미 트리를 형성하고, 서술어는 주어 및 목적어의 체언과 의미 관계를 정의한다. 오류가 포함된 문장에서, 의미 관계를 비교, 분석하여 주어 및 목적어의 체언이 틀렸을 경우에는 서술어로부터, 서술어가 틀렸을 경우에는 주어 및 목적어의 체언으로부터, 수식어가 틀렸을 경우에는 체언 또는 서술어로부터 정의된 상호 의미 관계를 이용하여 한 문자에 대한 오타를 수정하고 오타에 의한 의미적 오류가 발견될 때에는 상기와 같은 철자 교정 방법을 적용하였다.

  • PDF

한국어 문장의띄어 쓰기 오류 교정과 최적 형태소 분석을위한 통합 확률 모델 (A Unified Probablistic Model for Correcting Spacing Errors and Improving Accuracy of Morphological Analysis of Korean Sentences)

  • 이동주;연종흠;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.237-240
    • /
    • 2011
  • 띄어쓰기 오류는 한국어로 작성된 글에서 나타나는 가장 흔한 오류 중 하나로 문장의 의미적 모호성과 중의성을 가져온다. 규칙 기반 혹은 통계적접근 방법으로 띄어쓰기 오류를 교정하는다양한 방법이 제시되었으나, 기존의 방법들은 띄어쓰기를 형태소 분석의 전단계로 여기거나 띄어쓰기를 교정하기 위해서 형태소 분석을이용하는 등 각각을 독립된 과정으로 다루어, 한 과정에서 발생하는 오류가 다른 과정으로 전파되도록 하는 문제를 안고 있다. 본 논문에서는 띄어 쓰기와 최적 형태소 분석을 하나의 통합된 문제로 다루어각과정에서 발생할 수 있는 오류가 다른 과정에 영향을 주지 않도록 하고 상호 오류를 보완하여 좀더 정확한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 하는 확률적 접근 방법을 제시한다.

심층신경망 기반 2단계 한국어 자동 띄어쓰기 모델 (Two Step Automatic Korean Word Spacing Model Based on Deep Neural Network)

  • 최기현;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.593-595
    • /
    • 2018
  • 자동 띄어쓰기는 띄어쓰기가 되어있지 않은 문장에 대하여 띄어쓰기를 해주거나, 문장에 있는 잘못된 띄어쓰기를 교정하는 것을 말한다. 기존의 자동 띄어쓰기 연구는 주로 모든 음절을 붙인 후 새로 띄어쓰기 태그를 입력하는 방법을 사용하여 사용자가 입력한 올바른 띄어쓰기 정보를 활용하지 못하였다. 따라서 본 논문에서는 모두 붙여 쓴 문장에 공백을 넣어주는 띄어쓰기 삽입 모델과 사용자의 입력 정보를 이용하여 문장의 띄어쓰기 오류를 교정해주는 오류교정 모델이 결합된 통합모델을 제안한다. 제안된 모델은 에러율 10%일 때 F1-score가 98.85%까지 향상되었다.

  • PDF

한글 철자 오류 교정 시스템 (A Correcting method of Speller for Hangul)

  • 채영숙;이영식;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.459-468
    • /
    • 1992
  • 문서 속에서 나타나는 철자 오류는 맞춤법을 몰라서 잘못 쓴 경우와 자료 입력 과정에서 잘못 입력된 경우로 볼 수 있다. 이들 각각의 오류들에 대해 맞춤법 및 표준어 규칙을 비롯하여 한국어 자료의 통계적 분석을 통한 교정 기법을 제공하고자 한다. 본 논문은 철자 검사기가 틀리다고 판단한 오류 어절로부터 올바른 어절을 찾아서 교정해 주고 철자가 틀린 원인을 알려줄 수 있는 도움말 기능을 제공하는 철자 교정 시스템을 구현하고자 한다.

  • PDF

효율적인 문서처리를 위한 띄어쓰기 교정 기법 개선 (Improving Word Spacing Correction Methods for Efficient Text Processing)

  • 강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.486-488
    • /
    • 2003
  • 한국어 문서에서 가장 많이 나타나는 띄어쓰기 오류는 의미적이고 통사적인 중의성이나 오류를 야기한다. 이 논문은 부산대 인공지능 연구실에서 개발한 부분 문장 분석을 기반으로 하는 한국어 걸자 및 운법 검사기(2.2)에 구현되어 있는 어절 내 한 번 띄어쓰기 오류 교정 기법 및 어절 간 띄어쓰기 오류 교점 기법을 확장하고 개선하며 어절 내 여러 번 띄어쓰기 기법을 개발함을 목표로 한다.

  • PDF

한국어 철자 검사기의 교정기법 개선 (Improving of the Correction Methods for a Korean Spell/Grammar Checker)

  • 김광영;남현숙;박수호;박진희;권혁철
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.89-94
    • /
    • 2000
  • 본 논문은 부산대 철자 검사/교정기의 기존 성능을 보완하고 기능을 추가하는데 중점을 두었다. 웹 문서, 신문 등을 통해서 사용자들이 자주 틀리는 오류 단어에 대해서 오류 유형을 분류했다. 이 결과를 철자 검사 및 교정 시스템에 적용하여 교정기법 개선을 통하여 띄어쓰기 교정 기능을 향상 시켰다. 이렇게 새로 구현한 시스템과 이전 시스템의 성능을 실험을 통해 비교 분석하였다. 본 연구를 진행하면서 발견한 문제점과 한계를 이후 더 발전 해야할 과제로 고찰하고 결론을 맺는다.

  • PDF

음절수에 따른 한국어 복합 명사 분리 방안 (A Division Method of Korean Compound Noun by number of syllable)

  • 최재혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-267
    • /
    • 1996
  • 한국어 맞춤법 검사기는 문서내에서 발생되는 비표준어 오류, 띄어쓰기/붙여쓰기 오류, 조사/어미 오류, 외래어 오류, 철자 오류 등에 대해서 이에 적합한 대치어를 제시해 준다. 일반적으로 한국어의 맞춤법 오류 중 가장 빈번하게 발생되는 것이 띄어쓰기 오류이며, 이 중에서도 복합 명사에 대한 띄어쓰기 오류가 가장 많이 발생한다. 본 논문에서는 복합 명사에 대한 띄어쓰기 교정 방안으로 복합명사의 음절수에 따라 1개의 결과만을 출력하도록 하는 복합 명사 분리 방안을 제시하며, 또한 복합 명사 분리 시의 사전 참조 횟수를 줄이는 방법을 제안한다.

  • PDF

한국어 자모 Viable Prefix를 이용한 외래어 표기 교정 기법 (Transliteration Correction Method using Korean Alphabet Viable Prefix)

  • 권순호;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.87-92
    • /
    • 2011
  • 한국어 문서에서 외래어 표기는 한 단어에 대해 한 개만 존재하는 것이 아니라 여러 개의 다른 표기로 사용되고 있다. 이러한 표기상 불일치는 하나의 단어가 다른 개념으로 인식되어 정보 검색 시스템의 성능 저하의 원인이 된다. 따라서 정보 검색 시스템에서는 다양한 외래어 표기에 대해 같은 개념으로 인식하여 검색할 수 있도록 외래어 표기법에 맞는 외래어 표기로 교정하는 전처리가 필요하다. 본 논문에서는 질의어로 외래어가 입력되면, 이를 근거로 외래어 표기법에 맞는 외래어 표기로 교정해주는 방법을 제안한다. 제안하는 기법은 한국어 자모의 viable prefix를 이용하여 후보 외래어 표기를 생성하는 가상 트리를 작성하고 불필요한 외래어를 가지치기함으로써 검색 정확도를 높이고 속도를 개선한다.

문법성 품질 예측에 기반한 음성 인식 오류 교정 (Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition)

  • 서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF