Font Classification using NMF and EMD

NMF와 EMD를 이용한 영문자 활자체 폰트분류

  • Lee, Chang-Woo (Dept. of Computer Engineering, Kyungpook National Univ.) ;
  • Kang, Hyun (Dept. of Computer Engineering, Kyungpook National Univ.) ;
  • Jung, Kee-Chul (School of Media, College of Information Science, Soongsil Univ.) ;
  • Kim, Hang-Joon (School of Media, College of Information Science, Soongsil Univ.)
  • 이창우 (경북대학교 컴퓨터공학과 인공지능연구실) ;
  • 강현 (경북대학교 컴퓨터공학과 인공지능연구실) ;
  • 정기철 (숭실대학교 정보과학대학 미디어학부) ;
  • 김항준 (경북대학교 컴퓨터공학과 인공지능연구실)
  • Published : 2004.04.01

Abstract

최근 전자화된 문서 영상을 효율적으로 관리하고 검색하기 위한 문서구조분석 방법과 문서의 자동 분류에 관한 많은 연구가 발표되고 있다. 본 논문에서는 NMF(non-negative matrix factorization) 알고리즘을 사용하여 폰트를 자동으로 분류하는 방법을 제안한다. 제안된 방법은 폰트의 구분 특징들이 공간적으로 국부성을 가지는 부분으로 표현될 수 있다는 가정을 바탕으로, 전체의 폰트 이미지들로부터 각 폰트들의 구분 특징인 부분을 학습하고, 학습된 부분들을 특징으로 사용하여 폰트를 분류하는 방법이다. 학습된 폰트의 특징들은 계층적 군집화 알고리즘을 이용하여 템플릿을 생성하고, 테스트 패턴을 분류하기 위하여 템플릿 패턴과의 EMD(earth mover's distance)를 사용한다. 실험결과에서 폰트 이미지들의 공간적으로 국부적인 특징들이 조사되고, 그 특징들의 폰트 식별을 위한 적절성을 보였다. 제안된 방법이 기존의 문자인식. 문서 검색 시스템들의 전처리기로 사용되면. 그 시스템들의 성능을 향상시킬 것으로 기대된다.

Keywords