• Title/Summary/Keyword: Caption

Search Result 168, Processing Time 0.028 seconds

Extraction text-region's pixel on caption of video (동영상에 삽입된 자막 내 문자영역화소추출)

  • An, Kwon-Jae;Kim, Gye-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.43-45
    • /
    • 2011
  • 본 논문은 동영상 내 삽입된 자막을 문자인식이 가능하도록 문자영역을 이루는 화소를 추출하는 방법을 제안한다. 최초 자막영상을 통계학적 방법을 이용하여 색상극성을 결정한다. 이 후 색상극성에 따른 잡음제거 방법을 명암값기반과 형태학적기반으로 달리한다. 제안된 방법은 각 색상결정에 따른 적합한 잡음제거를 수행함으로서 추출된 화소들이 이루는 문자영역의 영상을 이용하여 문자인식을 수행하였을 때 기존방법보다 높은 문자인식률을 보였다.

  • PDF

A Study on the Emotional Caption System for Auditory Disabled Person (청각장애인을 위한 감성자막에 관한 연구)

  • Jang, Seung-Mo;Bae, Young-Rim;An, Young-Ki;Lee, Sang-Moon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.195-198
    • /
    • 2011
  • 현재 출시되어 있는 대부분의 콘텐츠들은 일반인들의 감각, 감성 욕구를 채워주고 있다. 하지만 사회의 소외계층인 장애인들을 위한 콘텐츠는 그리 많지 않으며 배제되어 왔다. 이 논문에서는 시각 장애인들을 위한 감성 전달 서비스 기법을 제시하였다. 기존의 콘텐츠는 자막 단순화로 인해 소리를 들을 수 없는 청각장애인들에게 매우 불편함을 주고 있다. 따라서 이 논문에서는 청각 장애인은 물론 일반인들에게도 소리를 들을 수 없는 환경에서 최적의 감성 전달 서비스를 제공할 수 있는 감성 지원 캡션시스템을 구현하여 제시한다.

  • PDF

Caption Processing for MPEG Video Stream in MC-DCT Domain (MPEG 비디오 스트림에 대한 MC-DCT 영역에서의 자막 처리 방법)

  • 권오형;낭종호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.444-446
    • /
    • 2000
  • MPEG은 동영상 압축 규약의 하나로서 고화질을 유지하면서 높은 압축율을 제공하기 때문에 그 사용 범위가 점차로 넓어지고 있으며, 또한 이러한 이유로 인해서 MPEG 데이터에 대한 편집 시스템의 요구도 점차 증가되고 있다. 그러나 MPEG 스트림에 대한 편집은 대부분 공간 영역에서 수행되기 때문에 수행 시간이 오래 걸리고 화질이 저하된다는 단점을 안고 있다. 본 논문에서는 DC 이미지를 이용한 MC-DCT 영역에서의 자막 처리 방법을 제안함으로써 기존의 자막 처리 방법이 안고 있는 단점을 극복하도록 하였다. 제안한 방법에서는 MC-DCT 영역에서의 워터마크 삽입 방법[1]을 응용하여 화면 상태에 따라 자막의 세기를 조절함으로써 P, B 프레임의 처리 과정에서 발생하게 되는 화질 저하를 최소화하도록 하였다. 이러한 MC-DCT 영역에서의 자막 방법을 사용함으로써 기존의 자막 처리 방법 보다 약 4.9배 빠른 수행 속도를 얻을 수 있었으며, 화질 보존의 측면에서도 기존의 자막 처리 방법이 화면 전체에 대해서 화질 저하가 발생하는 반면 제안한 방법은 자막이 들어가는 부분에 대해서만 화질 저하가 발생하는 반면 제안한 방법은 자막이 들어가는 부분에 대해서만 화질 저하가 발생하였다. 이러한 방법을 MPEG 스트림에 대해서 사용하게 된다면, 소프트웨어만을 이용한 저가의 데스크 탑 환경에서도 효율적인 자막 처리가 가능하게 될 것이다.

  • PDF

Automatic Summarization of Basketball Video Using the Score Information (스코어 정보를 이용한 농구 비디오의 자동요약)

  • Jung, Cheol-Kon;Kim, Eui-Jin;Lee, Gwang-Gook;Kim, Whoi-Yul
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.8C
    • /
    • pp.738-744
    • /
    • 2007
  • In this paper, we proposed a method for content based automatic summarization of basketball game videos. For meaningful summary, we used the score information in basketball videos. And the score information is obtained by recognizing the digits on the score caption and analyzing the variation of the score. Generally, important events of basketball are the 3-point shot, one-sided runs, the lead changes, and so on. We have detected these events using score information and made summaries and highlights of basketball video games.

Learning and Transferring Deep Neural Network Models for Image Caption Generation (이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이)

  • Kim, Dong-Ha;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.617-620
    • /
    • 2016
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증하였다.

A Study on the Two Transport Streams Synchronization for Left and Right Videos (좌우영상 전송스트림의 동기화 방법에 관한 연구)

  • Cho, Sukhee;Kim, Jongho;Choo, Hyon-Gon;Choi, Jin Soo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.222-224
    • /
    • 2012
  • 본 논문에서는 듀얼 스트림 기반의 지상파 양안식 3DTV 서비스를 위하여, 상용제품의 MPEG-2 인코더와 AVC/H.264 인코더를 이용하여 부호화할 경우, 두 개의 인코더에서 출력되는 MPEG-2 전송스트림을 입력받아 좌우 영상의 스트림을 프레임단위로 동기화하는 방법을 제안한다. 제안하는 동기화 방법은 좌우 HD-SDI 신호의 수직 보조 데이터 공간(VANC-Vertical ANCillary data space)에 동기정보를 삽입하고, 이 동기정보를 바탕으로 2 개의 DTV 인코더에서 출력되는 좌우영상의 전송스트림을 동기화할 수 있도록 한다. 따라서, 본 논문에서 동기정보는 기존의 상용 DTV 인코더에서 프레임 단위로 부호화를 지원하는 폐쇄자막(Closed caption) 구문에 따라 VANC 에 삽입하는 방법을 제안한다.

  • PDF

Determing intensity value of characters and backgrounds on caption (캡션 내 문자와 배경의 명암값 결정)

  • An, Kwon-Jae;Kim, Gye-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.125-127
    • /
    • 2010
  • 본 논문에서는 동영상에서 비교적 단일 색상의 배경과 문자를 갖는 캡션을 문자인식을 위하여 문자와 배경간의 명암값 결정에 관한 내용이다. 먼저 캡션에 대해 그레이 스케일로 전환을 한 후, Otsu 방법[1]을 이용하여 이진화를 수행한다. 이 후 이진화 영상에서 흰색영역 검은색영역에 대해 각각 최대 내접 정사각형을 산출한다. 다음으로 각각의 영역에서 산출된 최대 내접 정사각형의 분산의 대소를 비교하여 문자영역과 배경영역을 결정한다. 이후 전역적인 잡음을 제거하기 문자영역에 대해 Otsu 방법을 이용하여 최종 문자영역을 결정한다. 제안된 방법의 문자영역의 명암값 결정 정확도는 약 99%로 매우 우수한 성능을 보였다.

  • PDF

UAV Altitude and Attitude Estimation Method Using Stereo Vision (스테레오 비전를 이용한 무인기 고도 및 자세 추정기법)

  • Jung, Ha-Hyoung;Lee, Jun-Min;Lyou, Joon
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.22 no.1
    • /
    • pp.17-23
    • /
    • 2016
  • This paper presents the implementation of altitude and attitude measurement algorithm using stereo camera for an unmanned aerial vehicle (UAV). Depth images are generated by calibrating the stereo cameras, and converted into 3D point cloud data. By applying a plane fitting algorithm to the resultant point cloud, altitude from ground level, and roll and pitch angles are extracted. To verify the performance, experimental results are provided by comparing with those of the motion caption system.

Caption Extraction in News Video Sequence using Frequency Characteristic

  • Youglae Bae;Chun, Byung-Tae;Seyoon Jeong
    • Proceedings of the IEEK Conference
    • /
    • 2000.07b
    • /
    • pp.835-838
    • /
    • 2000
  • Popular methods for extracting a text region in video images are in general based on analysis of a whole image such as merge and split method, and comparison of two frames. Thus, they take long computing time due to the use of a whole image. Therefore, this paper suggests the faster method of extracting a text region without processing a whole image. The proposed method uses line sampling methods, FFT and neural networks in order to extract texts in real time. In general, text areas are found in the higher frequency domain, thus, can be characterized using FFT The candidate text areas can be thus found by applying the higher frequency characteristics to neural network. Therefore, the final text area is extracted by verifying the candidate areas. Experimental results show a perfect candidate extraction rate and about 92% text extraction rate. The strength of the proposed algorithm is its simplicity, real-time processing by not processing the entire image, and fast skipping of the images that do not contain a text.

  • PDF