Study on News Video Character Extraction and Recognition

뉴스 비디오 자막 추출 및 인식 기법에 관한 연구

  • Published : 2003.01.01

Abstract

Caption information in news videos can be useful for video indexing and retrieval since it usually suggests or implies the contents of the video very well. In this paper, a new algorithm for extracting and recognizing characters from news video is proposed, without a priori knowledge such as font type, color, size of character. In the process of text region extraction, in order to improve the recognition rate for videos with complex background at low resolution, continuous frames with identical text regions are automatically detected to compose an average frame. The image of the averaged frame is projected to horizontal and vertical direction, and we apply region filling to remove backgrounds to produce the character. Then, K-means color clustering is applied to remove remaining backgrounds to produce the final text image. In the process of character recognition, simple features such as white run and zero-one transition from the center, are extracted from unknown characters. These feature are compared with the pre-composed character feature set to recognize the characters. Experimental results tested on various news videos show that the proposed method is superior in terms of caption extraction ability and character recognition rate.

비디오 영상에 포함되어 있는 자막은 비디오의 내용을 함축적으로 표현하고 있기 때문에 비디오 색인 및 검색에 중요하게 사용될 수 시다. 본 논문에서는 뉴스 비디오로부터 폰트, 색상, 자막의 크기 등과 같은 사전 지식 없이도 자막을 효율적으로 추출하여 인식하는 방법을 제안한다. 문자 영역의 추출과정에서 문자영역은 뉴스 비디오의 여러 프레임에 걸쳐나 나오기 때문에 인길 프레임의 차영상을 통해서 동일한 자막 영역이 존재하는 프레임을 자동적으로 추출한 후, 이들의 시간적 평균영상을 만들어 인식에 사용함으로써 인식률을 향상한다. 또한, 평균 영상의 외각선 영상을 수평, 수직방향으로 투영한 값을 통해 문자 영역을 찾아 Region filling, K-means clustering을 적용하여 배경들을 완벽하게 제거함으로써 최종적인 자막 영상을 추출한다. 자막 인식과정에서는 문사 영역 추출과정에서 추출된 글자영상을 사용하여 white run, zero-one transition과 같은 비교적 간단한 특징 값을 추출하여 이를 비교함으로써 인식과정을 수행한다. 제한된 방법을 다양한 뉴스 비디오에 적용하여 문자영역 추출 능력과 인식률을 측정한 결과 우수함을 확인하였다.

Keywords

References

  1. 최경주, 변혜란, 이일병, '이진화를 위한 영상 강화 기법에 관한 연구,' 제 10회 영상처리 및 이해에 관한 워크샵 발표 논문집, pp. 176-181, 1998
  2. 곽상신, 김소명, 최영우, 정규식, '효율적인 비디오 자막 인식을 위한 영상 향상 방법,' 제 12회 영상처리 및 이해에 관한 워크샵 발표 논문집, pp. 342-347, 2000
  3. U. Gargi, S. Antani, R. Kasturi, 'Indexing Text Event in Digital Video Database,' Proc. 14th International Conference of Pattern Recognition, pp. 916-919, 1998
  4. A. K. Jain and B. Yu, 'Automatic Text Location in Images and Video Frames,' Pattern Recognition, Vol. 31, No. 12, pp. 2055-2075, 1998 https://doi.org/10.1016/S0031-3203(98)00067-3
  5. S. W. Lee, D. J. Lee, H. S. Park, 'A New Methodology for Grayscale Character Segmentation and Recognition,' IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 18, No. 10, pp. 1045-1050, 1996 https://doi.org/10.1109/34.541415
  6. 전병태, 배영래, 김태윤, '일반화된 문자 및 비디오 자막 영역 추출 방법,' 정보과학회 논문지 : 소프트웨어 및 응용 제 27권 제 6호, pp. 632-641, 2000
  7. A. K. Jain, Y. Zhaong, 'Page Segmentation Using Texture Analysis,' Pattern Recognition, Vol. 29, No. 5, pp. 743-770, 1996 https://doi.org/10.1016/0031-3203(95)00131-X
  8. H. Kuwano, Y. Taniguchi, H. Arai, 'Telop-on-Demand: Video Structuring and Retrieval Based on Text Recognition,' IEEE International Conf. Multimedia and Expo, 759-762, 2000 https://doi.org/10.1109/ICME.2000.871472
  9. Y. Zhong, H. Zhang, A. K. Jin, 'Automatic Caption Localization in Compressed Video,' IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 22, No. 4, pp. 385-392, 2000 https://doi.org/10.1109/34.845381
  10. 박영규, 김성국, 유원영, 김준철, 이준환, 'MPEG II 뉴스 영상에서의 문자영역 추출 및 문자인식,' 신호처리합동 학술대회 논문집, pp. 117-120, 1998