• 제목/요약/키워드: 문자 분류

검색결과 349건 처리시간 0.027초

낱자 특징 기반 자소 인식기를 이용한 인쇄체 한글 인식방법 (A Method of Machine-Printed Hangul Recognition using Grapheme Recognizer)

  • 장승익;남윤석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.351-354
    • /
    • 2004
  • 본 논문에서는 낱자에서 추출한 특징을 입력으로 사용하는 자소 인식기를 이용한 저해상도 인쇄체 한글 영상의 인식 방법을 제안하였다. 제안한 방법에서는 입력 문자를 한글 6 형식과 기타 형식의 문자, 총 7 종으로 분류한 뒤, 입력 문자를 인식 대상 문자의 수와 자소 복잡도에 따라 하나 또는 두 개의 인식 단위로 구분하여 인식한다. 각 HRU는 낱자에서 추출한 방향각 특징을 입력으로 사용하는 다층 신경망 인식기를 이용하여 인식한다. 다음으로, 각 다층 신경망 인식기의 신뢰도를 조합하여 최종 인식 결과를 도출한다. 제안한 방법을 사용한 실험에서 98.99%의 인식률을 얻을 수 있었으며, 이는 기존 방법에 비해 15.83%의 오류가 감소한 것이다.

  • PDF

패턴 인식 성능을 향상시키는 새로운 형태의 순환신경망 (A New Thpe of Recurrent Neural Network for the Umprovement of Pattern Recobnition Ability)

  • 정낙우;김병기
    • 한국정보처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.401-408
    • /
    • 1997
  • 인간이 지식을 얻는 대부분의 수단은, 눈으로 사물을 보거나 귀로 소리를 들어 입력되는 패턴.영상또는 소리.을 인식하고 그것을 지식으로 축적하는 연속적인 과정이다. 그중 문자인식은 시각정보를 통하여 문제를 인식하고 나아가 의미를 이해하는 인간의 능력을 컴퓨터로 실현하려는 패턴인식의 한분야로서 신경망을 사용한 패턴인식 시스템으로 발전되고 있다. 신경망의 학습에 있어서를 출력값을 재사용하는 신경망모델로는, 순환신경망( Recurrent Neural Netwrek)이 있다. 최근 들어서 이러한 순환신경망을 오프라인 필기체 문자와 같은 정적인 패턴의 분류에 적용하려는 연구가 많이 진행되고 있다. 그러나 이러한 방법들의 대부분든 오프라인 필기체문자와 같은 정적인 패턴의 분류에 있어서는 효과적으로 적용되지 않는다. 이에 본 연구에서는 오프라인 필기체문자와 같은 정적인 패턴을 효과적으로 분르하기 위한 새로운 형태의 순환신경망을 제안한다.본논문에서는 Jordan과 Elman Model 을 확정 결합한 새로운 J-E(Jordan-Elman) 신경망 모델을 사용하여 숫자 및 필기체 문자와 같은 정적인 패턴의 인식에서 기존의 신명망보다 성능이 향상되었음을 보여 준다.

  • PDF

자연언어 정보 검색을 위한 논리적 표현 (Logic Expression for Information Retrieval of Natural Language)

  • 김길준
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.261-268
    • /
    • 2000
  • 고대 아시리아의 도서관에서는 점토판에 새겨진 계행 문자로 된 문서가 항아리에 주제별로 분류되어 담겨져 있었다고 한다. 수없이 쏟아져 나오는 문서 정보를 관리하기 위하여 이와 같은 분류기술이 발달 된 것이라고 추측된다. (중략)

  • PDF

에듀테인먼트 산업의 분류체계에 관한 연구 (In the Study on the Classification Framework of Edutainment Industry)

  • 최인규;김은정
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.863-866
    • /
    • 2004
  • 초고속 인터넷의 보급과 확산으로 더 이상 문자위주의 단편적인 교육이 아니라 영상과 음향, 각종 놀이 문화가 접목된 에듀테인먼트가 본격적으로 시도되고 있다. 본 논문에서는 에듀테인먼트의 내용분석과 사례분석을 통하여 에듀테인먼트 산업의 분류 체계를 구축하는 것을 제안한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구 (A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja)

  • 김정한;조용주;남궁재찬
    • 한국통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.232-247
    • /
    • 1991
  • 본 논문에서는 한자인식을 위한 전단계로서 인쇄체 한자를 대상으로 한자의 특성과 구조적 정보를 이용한 새로운 분류 알고리즘을 제안하였다. 한자는 자종이 많고 구조가 복잡하여 인식은 물론이고 분류하는 데에도 많은 어려움이 따른다. 이러한 문제점을 해결하기 위해, 본 연구에서는 한자패턴을 형식분류한 후 분류된 패턴에서 공통으로 존재하는 부분패턴을 추출하는 실험을 행하였다. 먼저 입력한 문자 패턴에 대해 전처리를 행한 후, 방향 세그먼트를 추출하여 4방향화면상에서 레이블링을 하고, 문자패턴의 부분패턴 존재 영역에 기초한 구조적 정보를 이용하여 12가지 형식으로 분류한 다음 그 부분패턴을 추출하였다. 중, 고교 교육용한자 1800자에 대해서 실험을 행한 결과 93.07%의 형식분류율을 얻었고, KS C5601표준 삼보 LBP 한자 폰트 4,888자에 대해서는 90.12%의 형식분류율을 얻었으며, 분류된 데이타로 부터 부분패턴을 추출하여 인식에의 적용가능성을 보였다.

  • PDF

변형된 Quadratic 필터를 이용한 PDA로 획득한 명함 영상의 블록 적응 이진화 (Block Adaptive Binarization of Business Card Images Acquired in PDA Using a Modified Quadratic filter)

  • 신기택;장익훈;김남철
    • 한국통신학회논문지
    • /
    • 제29권6C호
    • /
    • pp.801-814
    • /
    • 2004
  • 본 논문에서는 PDA에 장착된 카메라로 얻어진 명함 영상을 효과적으로 이진화하기 위하여 변형된 quadratic 필터(modified quadratic filter: MQF)를 이용한 블록 적응 이진화 방법을 제안한다. 제안된 방법에서는 영상을 8${\times}$8 크기의 블록으로 나누고 각 블록을 문자 블록과 배경 블록으로 분류한다. 그런 다음 분류된 각 문자 블록을 중심으로 24${\times}$24 크기의 사각 창(rectangular window)을 씌우고 그 결과 블록을 전처리 필터인 QF에서 이진화를 위한 역치 선택 과정을 변형한 MQF를 이용하여 개선한다. 마지막으로 MQF에서 선택한 역치를 기준으로 하여 개선된 블록의 8${\times}$8 크기의 중심 블록에 대하여 이진화를 수행하고 영상의 원래의 위치에 채워서 이진화된 영상을 얻는다. 실험 결과 제안된 MQF와 블록 적응 이진화 방법은 PDA로 획득한 시험 명함 영상에 대하여 각각 기존의 QF와 전역 이진화 방법보다 이진화 성능에 미치는 영향이 우수하였다. 그리고 제안된 MQF를 이용한 블록적응 이진화 방법은 기존의 QF를 이용한 전역 이진화 방법에 비하여 문자가 훨씬 선명하게 나타나는 우수한 화질의 이진화 영상을 얻을 수 있었다. 또한 이들 이진화 영상들에 대하여 현재 상용화되고 있는 문자 인식 프로그램으로 문자 인식률을 비교한 결과, 제안된 방법에 의한 이진화 영상이 약 87.7%의 문자 인식률을 보여 약 55.7%의 문자 인식률을 보인 기존의 QF를 이용한 전역 이진화 방법에 의한 이진화 영상에 비하여 약 32.0%의 문자 인식률 증가를 보였다.

지식을 이용한 특정 문서의 논리 구조 추출에 관한 연구 (A Study on the Extraction into the Logical Structure of a Specific Document using Knowledge)

  • 손영우;남궁재찬
    • 정보기술과데이타베이스저널
    • /
    • 제3권1호
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문은 특정문서에서 문서가 갖고 있는 일반적인 지식을 이용하여 논리적 항목을 추출하는 방법에 관한 연구이다. 먼저 입력된 문서의 영역 분할, 분리자 추출, 그리고 문자와 비문자를 구별하였다. 논리구조 추출단계에서는 구별된 요소의 상대적 크기, 위치 및 전후 블록들의 연관성에 관한 지식을 이용하여 각 블록들을 레이블링 하였고, 레이블된 항목들의 위치정보값을 이용하여 각 항목들을 자료화하였다. 마지막으로, 오분류된 항목에 대해서는 배치기술자를 이용한 검증을 통해 정정하였다. 본 논문에서 구현한 방법으로 실험한 결과 96.5%의 논리항목 추출율을 획득함으로써 그 유효성을 입증하였다.

  • PDF

한글 캘리그라피의 문화적 실용성에 관한 연구 (A Study on the Cultural Practicality of Hangul Calligraphy)

  • 문경희;이상화;고광만
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.319-320
    • /
    • 2013
  • 본 연구는 한글 캘리그라피에서 보여지는 문자 형태의 감정적 표현, 문자 의미의 형상적 표현, 한자체와의 이미지 혼합의 표현등으로 분류하여 심미성과 차별성 있는 디자인 가치를 연구하고자한 것이다. 한글의 예술적 독창성과 한글 캘리그라피의 문화적 실용성이 결합된 창의적 생성물을 만드는 것은 중요하다. 따라서 한국의 전통글씨를 현대적으로 재해석한 실용과 미감이 풍부한 서체를 분석하고 문화원형의 대표성을 확인하고자 한다.

  • PDF