• Title/Summary/Keyword: Video Caption

Search Result 65, Processing Time 0.029 seconds

A Study on the Content-Based Video Information Indexing and Retrieval Using Closed Caption and Speech Recognition (캡션정보 및 음성인식을 이용한 내용기반 비디오 정보 색인 및 검색에 관한 연구)

  • 손종목;김진웅;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.141-145
    • /
    • 1999
  • 뉴스나 드라마, 영화 등의 비디오에 대한 검색 시 일반 사용자의 요구에 가장 잘 부합되는 결과를 얻기 위해 비디오 데이터의 의미적 분석과 색인을 만드는 것이 필요하다. 일반적으로 음성신호가 비디오 데이터의 내용을 잘 나타내고 비디오와 동기가 이루어져 있으므로, 내용기반 검색을 위한 비디오 데이터 분할에 효율적으로 이용될 수 있다 본 논문에서는 캡션 정보가 주어지는 방송뉴스 프로그램을 대상으로 효율적인 검색, 색인을 위한 비디오 데이터의 분할에 음성인식기술을 적용하는 방법을 제안하고 그에 따른 실험결과를 제시한다.

  • PDF

Soccer Video Summarization Using Event-Caption (이벤트-캡션을 이용한 축구비디오 요약)

  • 신성윤;하연실;고경철;이양원
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.245-248
    • /
    • 2001
  • 비디오 데이터에서 캡션은 비디오의 중요한 부분과 내용을 나타내는 가장 보편적이 방법이다. 본 논문에서는 축구 비디오에서 캡션이 갖는 특징을 분석하고 캡션에 의한 키 프레임을 추출하도록 하며, 비디오 요약 생성 규칙에 따라 요약된 비디오를 생성하도록 한다. 키 프레임 추출은 이벤트 발생에 따른 캡션의 등장과 캡션 내용의 변화를 추출하는 것으로 탬플리트 매칭과 지역적 차영상을 통하여 추출하며 샷의 재설정 통하여 중요한 이벤트를 포함한 요약된 비디오를 생성하도록 한다.

  • PDF

Soccer Video Summarization Using Caption Analysis (자막 분석을 이용한 축구 비디오 요약)

  • 임정훈;국나영;곽순영;강일고;이양원
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.77-80
    • /
    • 2002
  • 비디오 데이터에서 캡션은 비디오의 중요한 부분과 내용을 나타내는 가장 보편적인 방법이다. 본 논문에서는 축구 비디오에서 캡션이 갖는 특징을 분석하고 캡션에 의한 키 프레임을 추출하도록 하며, 비디오 요약 생성 규칙에 따라 요약된 비디오를 생성하도록 한다. 키 프레임 추출은 이벤트 발생에 따른 캡션의 등장과 캡션 내용의 변화를 추출하는 것으로 탬플리트 매칭과 지역적 차영상을 통하여 추출하며 샷의 재설정 통하여 중요한 이벤트를 포함한 요약된 비디오를 생성하도록 한다.

  • PDF

Extraction of open-caption from video (비디오 자막 추출 기법에 관한 연구)

  • 김성섭;문영식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.481-483
    • /
    • 2001
  • 본 논문에서는 동영상으로부터 색상, 서체, 크기와 같은 사전 지식 없이도 글자/자막을 효율적으로 추출하는 방법을 제안한다. 해상도가 낮고 복잡한 배경을 포함할 수 있는 비디오에서 글자 인식률 향상을 위해 먼저 동일한 텍스트 영역의 존재하는 프레임들을 자동적으로 추출한 후 이들의 시간적 평균영상을 만들어 향상된 영상을 얻는다. 평균영상의 외각선 영상의 투영 값을 통해 문자영역을 찾고 각 텍스트 영역에 대해 1차 배경제거 과정인 region filling을 적용하여 글자의 배경들을 제거 함으로써 글자를 추출한다. 1차 배경제거의 결과를 검증하고 추가적으로 k-means를 이용한 color clustering을 적용하여 남아있는 배경들을 효율적으로 제거 함으로써 최종 글자영상을 추출한다.

  • PDF

Korea Information Science Society Caption position retrieval system for sports video (스포츠 비디오를 위한 자막 위치검색 시스템)

  • 임정훈;곽순영;국나영;이지현;이양원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.628-630
    • /
    • 2002
  • 하이라이트를 구성하는데 종전에는 사람의 수작업에 의해서 이루어졌다. 요즘은 이런점을 연구를 통해 계속 자동화시키고 있는 추세이고 많은 논문들이 나오고 있다. 이 논문은 낮은 해상도의 동영상을 향상시키기 위해 Shannon Upsampling을 수행하고 적당한 임계치를 찾아내 이진영상을 만들어 전처리를 수행하고 수평 수직 히스토그램 기법과 다중프레임조함을 혼합해 자막위치를 찾는 방법을 제안한다. 이는 기존의 에지를 사용하는 방법들에 비해 간단하고 비교적 빠른 성능을 보인다.

  • PDF

A Method for Character Segmentation using MST(Minimum Spanning Tree) (MST를 이용한 문자 영역 분할 방법)

  • Chun, Byung-Tae;Kim, Young-In
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.3
    • /
    • pp.73-78
    • /
    • 2006
  • Conventional caption extraction methods use the difference between frames or color segmentation methods from the whole image. Because these methods depend heavily on heuristics, we should have a priori knowledge of the captions to be extracted. Also they are difficult to implement. In this paper, we propose a method that uses little heuristic and simplified algorithm. We use topographical features of characters to extract the character points and use MST(Minimum Spanning Tree) to extract the candidate regions for captions. Character regions are determined by testing several conditions and verifying those candidate regions. Experimental results show that the candidate region extraction rate is 100%, and the character region extraction rate is 98.2%. And then we can see the results that caption area in complex images is well extracted.

  • PDF

Video Copy Detection Algorithm Against Online Piracy of DTV Broadcast Program (DTV 방송프로그램의 온라인 불법전송 차단을 위한 비디오 복사본 검출 알고리즘)

  • Kim, Joo-Sub;Nam, Je-Ho
    • Journal of Broadcast Engineering
    • /
    • v.13 no.5
    • /
    • pp.662-676
    • /
    • 2008
  • This paper presents a video copy detection algorithm that blocks online transfer of illegally copied DTV broadcast programs. Particularly, the proposed algorithm establishes a set of keyframes by detecting abrupt changes of luminance, and then exploits the spatio-temporal features of keyframes. Comparing with the preregistered features stored in the database of DTV broadcast programs, the proposed scheme performs a function of video filtering in order to distinguish whether an uploaded video is illegally copied or not. Note that we analyze only a set of keyframes instead of an entire video frame. Thus, it is highly efficient to identify illegal copied video when we deal with a vast size of broadcast programs. Also, we confirm that the proposed technique is robust to a variety of video edit-effects that are often applied by online video redistribution, such as apsect-ratio change, logo insertion, caption insertion, visual quality degradation, and resolution change (downscaling). In addition, we perform a benchmark test in which the proposed scheme outperforms previous techniques.

Caption Extraction in News Video Sequence using Frequency Characteristic

  • Youglae Bae;Chun, Byung-Tae;Seyoon Jeong
    • Proceedings of the IEEK Conference
    • /
    • 2000.07b
    • /
    • pp.835-838
    • /
    • 2000
  • Popular methods for extracting a text region in video images are in general based on analysis of a whole image such as merge and split method, and comparison of two frames. Thus, they take long computing time due to the use of a whole image. Therefore, this paper suggests the faster method of extracting a text region without processing a whole image. The proposed method uses line sampling methods, FFT and neural networks in order to extract texts in real time. In general, text areas are found in the higher frequency domain, thus, can be characterized using FFT The candidate text areas can be thus found by applying the higher frequency characteristics to neural network. Therefore, the final text area is extracted by verifying the candidate areas. Experimental results show a perfect candidate extraction rate and about 92% text extraction rate. The strength of the proposed algorithm is its simplicity, real-time processing by not processing the entire image, and fast skipping of the images that do not contain a text.

  • PDF

Overlay Text Graphic Region Extraction for Video Quality Enhancement Application (비디오 품질 향상 응용을 위한 오버레이 텍스트 그래픽 영역 검출)

  • Lee, Sanghee;Park, Hansung;Ahn, Jungil;On, Youngsang;Jo, Kanghyun
    • Journal of Broadcast Engineering
    • /
    • v.18 no.4
    • /
    • pp.559-571
    • /
    • 2013
  • This paper has presented a few problems when the 2D video superimposed the overlay text was converted to the 3D stereoscopic video. To resolve the problems, it proposes the scenario which the original video is divided into two parts, one is the video only with overlay text graphic region and the other is the video with holes, and then processed respectively. And this paper focuses on research only to detect and extract the overlay text graphic region, which is a first step among the processes in the proposed scenario. To decide whether the overlay text is included or not within a frame, it is used the corner density map based on the Harris corner detector. Following that, the overlay text region is extracted using the hybrid method of color and motion information of the overlay text region. The experiment shows the results of the overlay text region detection and extraction process in a few genre video sequence.

XMARS : XML-based Multimedia Annotation and Retrieval System (XMARS : XML 기반 멀티미디어 주석 및 검색 시스템)

  • Nam, Yun-Young;Hwang, Een-Jun
    • The KIPS Transactions:PartB
    • /
    • v.9B no.5
    • /
    • pp.541-548
    • /
    • 2002
  • This paper proposes an XML based Multimedia Annotation and Retrieval System, which can represent and retrieve video data efficiently using XML. The system provides a graphical user interface for annotating, searching, and browsing multimedia data. It is Implemented based on the hierarchical metadata model to represent multimedia information. The metadata about video is organized based on multimedia description schema using XML Schema that basically conforms to the MPEG-7 standard. Also, for the effective indexing and retrieval of multimedia data, video segments are annotated and categorized using the closed caption.