• 제목/요약/키워드: 자막생성

검색결과 63건 처리시간 0.026초

청각장애인을 위한 감성자막 편집기 개발 (Development of an emotional subtitle editor for the deaf and hearing impaired people)

  • 김현순;오주현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.469-471
    • /
    • 2020
  • 방송의 디지털화에 따른 비장애인 대비 소외 계층의 정보 접근성의 부족은 소외 계층에 대한 정보 격차를 심화시킬 수 있다. 이에 캐릭터 수화 방송, 자막 방송 등 장애인을 위한 방송 서비스의 양적, 질적 개선에 관한 연구가 진행되고 있다. 자막 방송 서비스의 경우, 관련 법령에 따라 서비스를 실시하고 있으며 지상파 UHD 방송의 경우에도 본 방송을 시작한 이래 폐쇄 자막 서비스 시스템을 구축하여 서비스를 제공하고 있다. 이러한 기존 자막 서비스는 텍스트 형태의 단조로운 내용 전달 방식이어서 다양한 스타일로 풍부하게 내용을 전달하는 것에 대한 요구가 있다. 이에 본 논문에서는 지상파 UHD 방송을 대상으로 개선된 형태의 자막 서비스인 감성자막 서비스를 소개하고 이를 위한 감성 자막 편집기 기술 개발에 대하여 다룬다. 감성자막 서비스는 화자의 감정 정보를 자막 메타데이터에 추가적으로 제공하여, 감정에 따라 다양한 이모티콘이나 다른 종류의 폰트 스타일로 자막 서비스가 가능하게 하는 서비스이다. 감성자막 편집기는 이러한 감성 자막 메타데이터를 추가, 편집하고 감성자막 파일로 생성하기 위한 시스템으로, 지상파 UHD 송출 시스템 및 폐쇄 자막 표준을 고려하여 개발하였다.

  • PDF

자막 정보를 이용한 축구 비디오 하이라이트 생성 (Creation of Soccer Video Highlights Using Caption Information)

  • 신성윤;강일고;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-76
    • /
    • 2005
  • 디지털 비디오는 대용량의 저장 공간을 필요로 하는 매우 긴 데이터이다. 따라서 비디오 시청자들은 원래의 긴 비디오를 시청하기 전에 요약된 버전을 시청하기를 원한다. 특히, 스포츠 분야에서 하이라이트 비디오는 자주 시청된다. 다시 말해서, 하이라이트 비디오는 비디오 시청자에게 그 비디오를 시청할 가치가 있는지를 결정하게 한다. 본 논문에서는 시간과 공간 형태로 된 자막의 구조적 특징을 이용하여 축구 비디오 하이라이트를 생성한다. 이와 같은 구조적 특징들은 자막 프레임 구간과 자막 키 프레임을 추출하는데 사용된다. 하이라이트 비디오는 자막 키 프레임의 장면 재설정, 논리적 색인화, 그리고 하이라이트 생성 규칙에 의하여 생성된다. 마지막으로, 하이라이트 비디오와 비디오 세그먼트들은 비디오 시청자가 브라우저를 통하여 원하는 항목을 선택함으로서 검색되고 브라우징 될 수 있다

  • PDF

축구 비디오 하이라이트 생성 (Creating highlights of Soccer video)

  • 전근환;신성윤;이양원;류근호
    • 정보처리학회논문지B
    • /
    • 제8B권4호
    • /
    • pp.411-418
    • /
    • 2001
  • 비디오 하이라이트(highlights)는 원래의 비디오 보다 짧고 많은 양의 의미를 갖는다. 기존의 파노라마 형태의 추상화 기법은 여러 프레임을 하나의 프레임으로 모자이크하는 형태이었고, TV 드라마 하이라이트 방법은 카메라의 이동이나 특수효과에 의존하기 때문에 스포츠 비디오에 적용은 부적합하다. 이 논문에서는 축구 비디오를 대상으로 시각정보와 자막을 이용하는 새로운 비디오 하이라이트 생성 방법과 이벤트 기반 비디오 인덱싱 방법을 제안한다. 하이라이트 생성은 하이라이트 생성 규칙에 따라 자막에 의해 추출된 TIT을 중심으로 시각정보에 의해 추출된 샷을 합성하여 생성하였고, 인덱싱은 자막으로 추출된 샷은 주요소로, 시각정보에 의해 추출된 샷은 부가적 요소로 구성하였다. 실험에서는 샷 추출기법 중 대표적인 컬러히스토그램과 $\chi$$^2$히스토그램과의 성능을 비교하여 제안한 하이라이트 기법이 다른 방식보다 우수함을 증명하였다.

  • PDF

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류 (A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect)

  • 정현영;김규미;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.397-400
    • /
    • 2020
  • 본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화 (Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming)

  • 오주현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.131-134
    • /
    • 2021
  • 지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

  • PDF

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화 (Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired)

  • 최미애;김승현;조민애;박동영;김용호;윤종후
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

새로운 비디오 자막 영역 검출 기법 (A new approach for overlay text detection from complex video scene)

  • 김원준;김창익
    • 방송공학회논문지
    • /
    • 제13권4호
    • /
    • pp.544-553
    • /
    • 2008
  • 최근 영상 편집 기술의 발달과 더불어 시청자의 이해를 돕기 위해 인위적으로 자막을 삽입하는 경우가 늘고 있다. 인위적으로 삽입된 자막은 해당 장면의 내용이나 편집자의 의도를 잘 표현하고 있기 때문에 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에 유용하다. 기존의 자막 영역 추출 방법은 에지(edge), 색상(color), 텍스처(texture) 정보와 같은 하위 계층(low-level) 특징을 기반으로 하기 때문에 다양한 필체나 밝기 대비를 가진 자막이 동시에 나타나거나 복잡한 배경에 포함된 자막 영역의 경우 잘 검출하지 못한다. 이에 본 논문은 기존의 방법과는 전혀 다른 천이 영역 기반의 새로운 영상 내 자막 영역 검출 기법을 제안하고자 한다. 먼저, 영상 내 삽입된 글자 주변은 시청자에게 영상으로부터의 높이 감을 주기 위해 해당 글자와 다른 색으로 표현된다는 관찰 결과를 바탕으로 천이 지도를 생성한다. 생성된 천이 지도를 이용하여 후보 영역을 추출하고 상태 밀도 개념을 바탕으로 후보 영역 중에서 삽입된 자막 영역을 추출한다. 제안하는 알고리즘은 글자 색, 크기, 위치, 필체, 밝기 대비에 관계없이 적용이 가능하며, 다양한 언어에 관계없이 뛰어난 성능을 보인다. 또한, 프레임 간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.

360 VR 영상에서 효율적인 자막 위치 선정에 관한 연구 (A Study on Efficient Positioning of Subtitles in 360 VR)

  • 김형균
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.93-98
    • /
    • 2020
  • 본 논문에서는 360 VR에서 사용자 시점의 변화에 따라 자막이 팔로잉되는 기법을 제안하였다. Unity의 Scene에 Sphere 객체를 생성하고 Sphere 객체 표면에 360도 영상을 삽입한다. 이때, 시점을 내부로 변환하기 위해서 ReverseNormals 스크립트를 사용한다. 카메라 시점을 수정하기 위해 SightOrbitproved 스크립트를 사용한다. 이 스크립트를 이용해 시점에 따라 자막이 이동할 수 있는 환경을 설정한다. 다음으로 사용자가 원하는 3D Text(자막)를 Main Camera의 하위계층에 추가하고 360 VR 객체를 Build한다. 본 연구를 통해 구현된 3D Text 자막을 사용자 시점의 변화에 따라 비교하였다. 그 결과 시점의 변화가 진행되면서 일반 자막은 사용자의 시점에 따라 시선 밖으로 흘러가고 있으나, 3D Text 자막은 사용자의 시점에 따라 움직이면서 사용자가 항상 자막을 볼 수 있도록 구현되는 것을 확인할 수 있었다.

해리스 코너 검출기를 이용한 비디오 자막 영역 추출 (Text Region Extraction from Videos using the Harris Corner Detector)

  • 김원준;김창익
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권7호
    • /
    • pp.646-654
    • /
    • 2007
  • 최근 많은 TV 영상에서 시청자의 시각적 편의와 이해를 고려하여 자막을 삽입하는 경우가 늘어나고 있다. 본 논문에서는 자막을 비디오 내 하단부에 위치하는 인위적으로 추가된 글자 영역으로 정의한다. 이러한 자막 영역의 추출은 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에서 글자 추출을 위한 첫 단계로 널리 쓰인다. 기존의 자막 영역 추출은 자막의 색, 자막과 배경의 자기 대비, 에지(edge), 글자 필터 등을 이용한 방법을 사용하였다. 그러나 비디오 영상내 자막이 갖는 낮은 해상도와 복잡한 배경으로 인해 자막 추출에 어려움이 있다. 이에 본 논문은 코너검출기(corner detector)를 이용한 효율적인 비디오 자막 영역 추출 방법을 제안하고자 한다. 제안하는 알고리즘은 해리스 코너 검출기를 이용한 코너 맵 생성, 코너 밀도를 이용한 자막 영역 후보군 추출, 레이블링(labeling)을 이용한 최종 자막 영역 결정, 노이즈(noise) 제거 및 영역 채우기의 네 단계로 구성된다. 제안하는 알고리즘은 색 정보를 이용하지 않기 때문에 여러 가지 색으로 표현되는 자막 영역 추출에 적용가능하며 글자 모양이 아닌 글자의 코너를 이용하기 때문에 언어의 종류에 관계없이 사용 될 수 있다. 또한 프레임간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.