• 제목/요약/키워드: 문자추출

검색결과 672건 처리시간 0.022초

Mellin 변환 방식과 BPEJTC를 이용한 영상 문자 인식 (Image Character Recognition using the Mellin Transform and BPEJTC)

  • 서춘원;고성원;이병선
    • 조명전기설비학회논문지
    • /
    • 제17권4호
    • /
    • pp.26-35
    • /
    • 2003
  • 자연계에서 다양한 형태로 입력되는 물체 영상을 효과적으로 인식하려면, 물체의 위치, 회전, 크기 변화에 관계없이 인식할 수 있는 왜곡 불변 특성의 추출이 반드시 요구된다. 이러한 왜곡 불변 특성은 동일한 영상의 변화에 대하여 인식 특성이 같고, 서로 다른 영상의 변화에 대해서는 분리 식별이 용이해야 한다. 이러한 인식 특성을 얻기위해 다각도로 많은 연구가 진행되고 있으며, 특히 회전 및 크기에 불변 특성을 동시에 얻을 수 있는 Mellin변환을 이용한 방법 등이 영상 인식에 많이 이용되고 있다[1][2][3]. 따라서, 본 논문에서는 Mellin 변환 방법에 의한 크기 및 회전에 대한 불변 특성을 얻을 수 있는 문자 인식 시스템을 위한 문자 특징 추출 방법을 제시하고자 하였으며, 영문자 26 문자의 입력 영상에 대하여 무게 중심법에 의한 문자 이동과 Mellin 변환 방법에 의한 특징 추출 방법에 보간법을 이용하여 특징을 추출하였으며, 추출된 특징에 대하여 특징의 이질도를 검사하여, 각 특징의 이질도가 약 50% 이상의 결과를 얻었다. 또한, Mellin 변환 방법에 의해 추출된 특징을 기준 영상으로 하는 BPEJTC(Binary Phase Extraction Joint Transform Correlator)를 이용하여 크기, 회전 및 이동에 따른 입력 문자의 인식이 가능한 BPEJTC 시스템을 구현하였으며, 이에 따라 본 논문에서는 약 90%의 인식률을 얻을 수 있었다. 따라서 본 논문에서 제시하는 Mellin 변환 방법에 따라 추출된 문자의 특징과 BPEJTC를 이용하여 영상 문자를 인식할 수 있는 영상 문자 인식 시스템의 가능성을 제시하였다.

형태학과 문자의 모양을 이용한 뉴스 비디오에서의 자동 문자 추출 (Automatic Text Extraction from News Video using Morphology and Text Shape)

  • 장인영;고병철;김길천;변혜란
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권4호
    • /
    • pp.479-488
    • /
    • 2002
  • 최근 들어 인터넷 사용의 증가와 더불어 디지털 비디오의 수요 또한 급격히 증가하고 있는 추세이다. 따라서 디지털 비디오 데이타베이스의 인덱싱을 위한 자동화된 도구가 필요하게 되었다. 디지털비디오 영상에 인위적으로 삽입되어진 문자와 배경에 자연적으로 포함되어진 배경문자 등의 문자 정보는 이러한 비디오 인덱싱을 위한 중요한 단서가 되어질 수 있다. 본 논문에서는 뉴스 비디오의 정지 영상에서 뉴스 자막과 배경 문자를 추출하기 위한 새로운 방법을 제안한다. 제안된 알고리즘은 다음과 같이 세 단계로 구성된다. 첫 번째 전처리 단계에서는 입력된 컬러 영상을 명도 영상으로 변환하고, 히스토그램 스트레칭을 적용하여 영상의 수준을 향상시킨다. 이 영상에 적응적 임계값 추출에 의한 분할 방법을 수정 적용하여 영상을 분할한다. 두 번째 단계에서는 적응적 이진화가 적용된 결과 영상에 모폴로지 연산을 적절하게 사용하여, 우선 문자 영역은 아니면서 문자로 판단되기 쉬운 양의 오류(false-positive) 요소들이 강조되어 남아있는 영상을 만든다. 또한, 변형된 이진화 결과 영상에 모폴로지 연산과 본 논문에서 제안한 기하학적 보정(Geo-corrertion) 필터링 방법을 적용하여 문자와 문자로 판단되기 쉬운 요소들이 모두 강조되어 남아있는 영상을 만든다. 이 두 영상의 차를 구함으로서 찾고자 하는 문자 요소들이 주로 남고, 문자가 아닌 문자처럼 보이는 오류 요소들은 대부분 제거된 결과 영상을 만든다. 문자로 판단되는 양의 오류 영역들을 남기는데 사용된 모폴로지 연산은 3$\times$3 크기의 구조 요소를 갖는 열림과 (열림닫힘+닫힘열림)/2 이며, 문자 및 문자와 유사한 요소들을 남기는데 사용된 연산은 (열림닫힘+닫힘열림)/2와 기하학적 보정이다. 세 번째 검증 단계에서는 전체 영상 화소수 대비 각 후보 문자 영역의 화소수 비율, 각 후보 문자 영역의 전체 화소수 대비 외곽선의 화소수 비율, 각 외곽 사각형의 폭 대 높이간의 비율 등을 고려하여 비문자로 판단되는 요소들을 제거한다. 임의의 300개의 국내 뉴스 영상을 대상으로 실험한 결과 93.6%의 문자 추출률을 얻을 수 있었다. 또한, 본 논문에서 제안한 방법으로 국외 뉴스, 영화 비디오 등의 영상에서도 좋은 추출을 보임을 확인할 수 있었다.

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

DCT와 LVQ를 이용한 차량번호판 인식 시스템 (Vehicle License Plate Recognition System using DCT and LVQ)

  • 한수환
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.15-25
    • /
    • 2002
  • 본 논문에서는 차량 번호판에서 추출된 문자영역의 DCT(Digital Cosine Transform) 계수와 LVQ(Learning Vector quantization) 신경회로망을 이용하여 상대적으로 간결한 구조로 잡음의 영향을 적게 받는 차량 번호판 인식 시스템을 제안하였다. 입력된 차량영상의 RGB칼라정보를 이용하여 번호판 영역을 추출하고 추출된 번호판의 히스토그램과 문자의 상대적 위치정보를 병합하여 문자영역을 추출하였다. 이렇게 추출된 문자영역의 명암도 영상에 DCT를 적용하여 얻은 특징 벡터를 LVQ신경회로망의 입력으로 사용하여 인식 과정을 수행한다. 본 논문의 실험과정에서는 다양한 환경에서 촬영된 109대의 자가용 차량영상에 대하여 제안된 시스템을 실험하였으며 상대적으로 높은 번호판 영역 추출율과 인식률을 보였다.

  • PDF

코스트 최소화법에 의한 문자영역의 추출 (On Character Region Extraction by Cost Minimization Method)

  • 김석태
    • 한국정보처리학회논문지
    • /
    • 제3권2호
    • /
    • pp.348-358
    • /
    • 1996
  • 범용성을 지닌 문자 영역의 추출을 위해서는 대상화상에 의존하지 않는 정보를 활용 할 필요가 있다. 본 논문에서는 문장영역의 추출문제를 코스트 최소화 개념으로 접근 하여, 문자의 일반적 특징들을 종합적으로 고려하는 결과를 얻을 수 있는 범용성을 띤 영역추출방법을 제안한다. 구체적으로는, 문자의 형상과 배치에 관한 규칙성을 구하고자 하는 해에 대한 조건으로 설정, 그조건을 충족시키는 해가 최소값을 갖는 코스트 함수로 도입하고, 이 함수를 Simulated Annealing법에 의해 최소화하여 영역추출을 한다. 본 방법은 코스트 함수를 정의한다는 점에서 다른 방법과 확연한 차별성을 갖는다. 본 코스 트 함수를 이용한 영역 추출실험 결과, 실험가설에 부합되는 결론을 얻어 제안방법의 유효 성이 확증되었다.

  • PDF

PCA 기반 얼굴 인증과 SOM 알고리즘을 이용한 여권 인식 (Passport Recognition using PCA-based Face Verification and SOM Algorithm)

  • 이상수;장도원;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.285-290
    • /
    • 2006
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 본 논문의 구성은 여권 인식과 얼굴 인증 부분으로 구성되며, 여권 인식 부분에서는 소벨 연산자, 수평 최소값 필터 등을 적용한 후, 8 방향 윤곽선 추적 알고리즘을 적용하여 코드의 문자열 영역을 추출하고 기울기를 보정한다. 추출된 문자열은 반복 이진화 방법을 적용하여 코드의 문자열 영역을 이진화 한다. 이진화된 문자열 영역에 대해 8 방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한 후에 SOM(Self-Organizing Maps) 알고리즘을 적용하여 여권 코드를 인식한다. 얼굴 인증 부분에서는 여권 사진 영역의 특징을 이용하여 얼굴 후보 영역을 추출한 후, RGB와 YCbCr 색공간에서 피부색 정보를 이용하여 얼굴 영역을 추출한다. 추출된 얼굴 영역은 PCA(Principal Component Analysis) 알고리즘을 적용하여 특징 벡터를 구하고 여권 코드가 인식된 결과를 바탕으로 여권 소지자의 데이터 베이스에 있는 얼굴 영상의 특징벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능 평가를 위하여 원본 여권의 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.

  • PDF

연결요소 분석에 기반한 인쇄체 한글 주소와 필기체 한글 주소의 구분 (Classification of Handwritten and Machine-printed Korean Address Image based on Connected Component Analysis)

  • 장승익;정선화;임길택;남윤석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권10호
    • /
    • pp.904-911
    • /
    • 2003
  • 본 논문에서는 우편봉투 상에 기입된 인쇄체 한글 주소와 필기체 한글 주소를 효과적으로 구분할 수 있는 방법을 제안한다. 문자인식 모듈을 포함하는 각종 응용 시스템에서 입력 영상이 인쇄체인지 필기체인지 구분하는 것은 매우 중요하다. 이는 대부분의 경우 인쇄체 영상과 필기체 영상이 갖는 특징이 상이하여, 각 영상에서의 문자 및 문자열 분리 방법, 문자 인식 방법 둥이 매우 상이하게 개발되기 때문이다. 본 논문에서 제안한 구분 방법은 연결요소 추출 및 병합, 특징 추출, 영상 구분 순으로 수행된다. 연결요소 추출 및 병합 단계에서는 입력영상으로부터 연결요소를 추출한 후 일부 연결요소들에 대하여 병합을 시도하며, 특징 추출 단계에서는 병합결과 얻어진 연결요소들의 그룹들로부터 폭과 위치에 관련된 특징을 추출하고, 영상 구분 단계에서는 추출한 특징을 입력으로 제공받는 다충퍼셉트론을 사용하여 구분을 시도한다. 제안한 방법의 우수성을 증명하기 위해 실제 우편물로부터 추출된 3,147개의 한글 주소 영상을 사용하여 실험한 결과, 98.85%의 구분률을 보여주었다.

기하학적 패턴 벡터를 이용한 한.영 글꼴 문자인식 (Hansel and English Text Font Recognition Using Geometrical Pattern Vector)

  • 석영수;홍창희;조정락;강기섭;민종규;이응주
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.425-428
    • /
    • 2001
  • 본 논문에서는 문서 위의 문자를 Off-Line방식으로 컴퓨터에 저장할 수 있도록 기하학적 패턴 벡터를 이용하여 한·영문자 및 글꼴을 인식하는 알고리즘을 제안하였다. 일반적으로 문서에서는 여러 가지 글꼴에 따라 글자의 형태가 다르므로 대표적인 한·영 세 가지 글꼴을 기하학적 패턴(Geometrical Pattern Vector)을 이용하여 크기와 이동에 인식하도록 하였다. 이진 입력 한영혼용 영상에서 잡음을 제거하고 수평·수직 투영 기법을 이용하여 한 문자를 분할하여 문자의 폭에 따라 기하학적 패턴을 추출한다. 추출한 패턴은 각 합계를 계산하여 기준 패턴 합계와 비교한 후 기준 패턴 문자와 글꼴을 인식하게 된다. 마지막으로 제안한 알고리즘의 성능을 평가하기 위해 크기, 이동 변형이 있는 대표적인 한·영 글꼴(신명조, 궁서, 고딕)체와 영어 Time New Roman체를 대상으로 모의 실험을 수행하였다. 제안한 알고리즘은 기존의 원형 패턴 알고리즘보다 문자인식률과 글꼴 그리고 영어의 대·소문자를 구별하는 우수함을 보였다.

  • PDF

초등학생과 외국인을 위한 한글 문자 익히기 시스템의 개발 (A Development of Hanguel Learning System for Elementary School Students and Foreigners)

  • 조동욱
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권3호
    • /
    • pp.285-296
    • /
    • 2001
  • 본 논문에서는 초등학교 학생이나 외국인을 위해 한글을 익히는 교육용 시스템을 개발하고자 한다. 모델이 될 수 있는 표준 문자 패턴을 선정하고 이의 특징을 추출하여 데이터베이스화한다. 이를 위해 환경에 불변인 전처리과정의 수행과 특징 추출 그리고 유사도 함수를 정의한다. 최종적으로 초등학생이나 외국인이 쓴 문자에 대해 표준 문자 패턴과의 유사도를 계산하여 필기체 문자의 미적 평가를 행한다. 본 시스템은 특정 서체에 대해서도 표준 문자 패턴을 선정하여 서체 익히기까지 행할 수 있도록 확정이 가능한 시스템이며 실험에 의해 본 논문의 유용성을 입증하고자 한다.

  • PDF

특징 추출에 기반한 신경망 시스템을 이용한 차량 번호판 문자인식 (Character Recognition of Vehicle Number Plate Using Feature Based Neural Network)

  • 이현숙;김희승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.383-385
    • /
    • 2000
  • 차량 번호판 문자영상으로부터 여러 가지 특징 추출 방법을 조합하여 입력특징소를 재구성하고, 신경망을 이용하여 문자를 인식한다. 속도 개선을 위해 특별한 전처리 과정없이 이치화와 크기 정규화만을 수행한 후 그물망 방법과 BLT 방법, 정규화된 투영값 특정 방법을 조합하여 입력특징소를 구성한다. 본 연구에서는 숫자 인식에서 그물망 방법과 BLT 방법을 이용하여 잡음으로 인한 유사 문자의 오인식을 해결하였고, 문자 인식에서는 정규화된 투영값 특징을 이용하여 문자의 유형을 분류한 후 자소를 개별적으로 인식하였다. 이로써 모음 인식 경우에 중요한 역할을 하는 작은 획의 영역에 BLT 방법을 사용함으로 기존 연구에서의 모음 오인식 문제를 해결하였다.

  • PDF