• 제목/요약/키워드: 자막 추출

검색결과 82건 처리시간 0.025초

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

블록 정합을 이용한 비디오 자막 영역의 원 영상 복원 방법 (A Method for Reconstructing Original Images for Captions Areas in Videos Using Block Matching Algorithm)

  • 전병태;이재연;배영래
    • 방송공학회논문지
    • /
    • 제5권1호
    • /
    • pp.113-122
    • /
    • 2000
  • 이미 방송된 비디오 영상으로부터 자막 영역을 제거하고 원 영상으로 복원할 필요가 종종 발생한다. 복원될 영상의 량이 적을 경우 수 작업에 의한 복원이 가능하나, 비디오 영상과 같이 복원할 영상이 많아질 경우에는 수 작업에 복원은 어렵다고 볼 수 있다. 따라서 자동으로 자막 영역을 원 영상으로 복원할 수 있는 방법이 필요하게 된다. 기존의 영상 복원에 관한 연구는 주로 블러링(blurring)된 영상을 주파수 필터를 사용하여 선명하게 복원하거나, 영상 통신을 위한 비디오 코딩 방법에 대한 연구가 많이 이루어졌다. 본 논문에서는 블록 정합 알고리즘(Block Matching Algorithm)을 이용하여 자막 영역을 복원하는 방법을 제안하고자한다. 자막 복원을 위한 사전 정보로 자막 영역 정보와 장면 전환 정보를 추출한다. 추출된 자막 정보로부터 자막의 시작 프레임, 끝 프레임, 자막 문자의 구성 요소 정보를 얻을 수 있다. 자막 정보(자막의 시작 프레임, 끝 프레임)와 장면 전환 정보를 이용하여 복원의 방향성 및 복원의 종점을 결정한다. 복원의 방향성에 따라 각 프레임마다 문자의 구성 요소에 대한 블록 정합을 수행하여 원 영상을 복원한다. 실험결과 비교적 움직임이 적은 영상에서는 복원이 잘 됨을 볼 수 있었으며, 복잡한 배경을 갖고 있는 영상의 경우도 복원됨을 볼 수 있었다.

  • PDF

자막의 구조적 특징을 이용한 축구 비디오 하이라이트 생성 (Creation of Soccer Video Highlight Using The Structural Features of Caption)

  • 허문행;신성윤;이양원;류근호
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.671-678
    • /
    • 2003
  • 디지털 비디오는 대용량의 저장 공간을 필요로 하는 시간적으로 매우 긴 데이터이다. 따라서 사용자들은 대용량의 긴 비디오를 시청하기 전에 사전에 제작된 요약된 비디오를 시청하고 싶어 한다. 특히, 스포츠 비디오 분야에서는 하이라이트 비디오를 시청하고자 한다. 결과적으로 하이라이트 비디오는 사용자들이 비디오를 시청하고자 할 경우 그 비디오가 시청할 가치가 있는지를 결정하는데 사용된다. 본 논문에서는 자막의 구조적 특징을 이용하여 축구 비디오 하이라이트를 생성하는 방법을 제시한다. 자막의 구조적 특징은 자막이 갖는 시간적 특징과 공간적 특징으로서 이러한 구조적 특징을 이용하여 자막 프레임 구간과 자막 키 프레임을 추출한다. 그리고 하이라이트 비디오는 자막 키 프레임들에 대한 장면 재설정과 논리적 색인화 및 하이라이트 생성 규칙을 이용하여 생성한다. 마지막으로, 브라우저를 통한 사용자의 항목 선택에 의하여 하이라이트 비디오와 비디오 세그먼트에 대한 검색과 브라우징을 수행할 수 있다.

넷플릭스 <오징어 게임> 폐쇄자막 연구 (A Case Study on Closed Captions: Focusing on on Netflix)

  • 정수아;이지민
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.279-285
    • /
    • 2024
  • 본 연구는 넷플릭스의 <오징어 게임>을 대상으로 한국어와 영어 폐쇄자막(closed caption)의 정확성과 완전성을 평가하고 이에 따른 시사점을 제시하는 것을 목적으로 한다. 이를 위해 미연방통신위원회(FCC), DCMP, 한국방송통신위원회의 페쇄자막 지침을 파악하고 분석 항목을 분류하였다. <오징어 게임> 전편의 자막을 추출해 비교 분석한 결과, 정확성 측면의 경우 한국어 폐쇄자막은 비속어와 호칭은 정확하게 제시하고 있으나, 화자 식별에서는 존재하지 않는 정보를 미리 제시하는 문제점이 관찰되었다. 영어 폐쇄자막의 경우 화자 식별 지침은 준수하고 있으나 비속어 생략과 호칭 오역의 문제가 있었다. 완전성 측면에서는 한국어와 영어 폐쇄자막 모두 일부가 생략되는 문제가 관찰되었다. 이러한 문제 해결을 위해서는 검수 과정을 강화하고, 번역 과정에서 발견한 원문의 문제점을 소통하는 체계를 마련하며, 영어 일반자막을 활용할 것을 제안한다.

ETRI 방송 뉴스 자막 처리 시스템을 위한 미등록어 검출기의 개발 (Unknown Word Extractor Development, for ETRI Broadcast News Caption System)

  • 윤승;정의정;박준;이영직
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.163-166
    • /
    • 2002
  • 본 논문에서는 ETRI 방송 뉴스 자막 처리 시스템의 성능 향상을 도모하기 위해 개발된 미등록어 검출기에 대해 기술한다. 음성 인식 성능 하락에 큰 영향을 미치는 요인들 중 하나로 꼽히는 미등록어 문제를 해결하기 위해 ETRI 방송 뉴스 자막 처리 시스템에서는 오프라인으로 동작하는 미등록어 검출기를 채택하였다. 이 미등록어 검출기는 방송 뉴스 자막 처리 시스템 가동 전에 미리 인터넷을 통해 최신 신문 기사와 방송 뉴스를 수집해와 이를 토대로 두 단계에 걸쳐 미등록어를 사전에 추출하여 인식 어휘 사전에 포함시킴으로써 미등록어로 인한 방송 뉴스의 인식 성능 저하 문제를 해결하도록 하였다.

  • PDF

모폴로지을 이용한 비디오 영상에서의 자동 문자 추출 (Automatic Text Extraction in Video Images using Morphology)

  • 장인영;고병철;김길천;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.418-420
    • /
    • 2001
  • 본 논문에서는 뉴스 비디오의 정지 영상에서 뉴스 자막과 배경 문자를 추출하기 위한 새로운 방법을 제안한다. 본 논문에서는 일차적으로 입력 컬러 영상을 그레이 영상으로 변환한 후 입력 영상의 명암 대비를 강화시키기 위해 명암 대비 스트레칭을 적용한다. 이후 명암 대비 스트레칭된 영상의 분할을 위해 적응적 임계값을 적용하고 다음 단계에서 문자와 유사한 영역들을 적당한 크기 의 structuring element를 이용하여 제거하는 1차 하부 단계와 모폴로지 녹임(erosion)을 적용한 영상과 모폴로지(열림닫힘[OpenClose]+닫힘열림[CloseOpen])/2가 적용된 영상 사이의 차이 영상을 구하는 2차 하부 단계를 적용시킨다. 마지막 단계에서 각 후보 영역들 중 실제 자막 영역을 추출해내기 위해, 후보 문자 영역의 화소수 비율과 외곽선의 화소수의 비율, 그리고 장축과 단축간의 비율 등에 대해 필터링을 적용한다. 본 논문에서는 임의의 300개의 뉴스영상을 입력 값으로 실험한 결과 93.6%의 우수한 인식률을 얻을 수 있었다. 또한 본 논문에서 제안한 방법은 structuring element의 크기 조절을 통해 크기가 다른 다양한 이미지에서도 좋은 성능을 거둘 수 있다.

  • PDF

자막 정보를 이용한 축구 비디오 하이라이트 생성 (Creation of Soccer Video Highlights Using Caption Information)

  • 신성윤;강일고;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-76
    • /
    • 2005
  • 디지털 비디오는 대용량의 저장 공간을 필요로 하는 매우 긴 데이터이다. 따라서 비디오 시청자들은 원래의 긴 비디오를 시청하기 전에 요약된 버전을 시청하기를 원한다. 특히, 스포츠 분야에서 하이라이트 비디오는 자주 시청된다. 다시 말해서, 하이라이트 비디오는 비디오 시청자에게 그 비디오를 시청할 가치가 있는지를 결정하게 한다. 본 논문에서는 시간과 공간 형태로 된 자막의 구조적 특징을 이용하여 축구 비디오 하이라이트를 생성한다. 이와 같은 구조적 특징들은 자막 프레임 구간과 자막 키 프레임을 추출하는데 사용된다. 하이라이트 비디오는 자막 키 프레임의 장면 재설정, 논리적 색인화, 그리고 하이라이트 생성 규칙에 의하여 생성된다. 마지막으로, 하이라이트 비디오와 비디오 세그먼트들은 비디오 시청자가 브라우저를 통하여 원하는 항목을 선택함으로서 검색되고 브라우징 될 수 있다

  • PDF

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류 (A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect)

  • 정현영;김규미;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.397-400
    • /
    • 2020
  • 본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

Sentence-BERT를 활용한 YouTube 가짜뉴스 탐지 시스템 연구 (A Study On YouTube Fake News Detection System Using Sentence-BERT)

  • 김범중;허지혜;이협건;김영운
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.667-668
    • /
    • 2023
  • IT 기술의 발달로 인해 뉴스를 제공하는 플랫폼들이 다양해 졌고 최근 해외 인터뷰 영상, 해외 뉴스를 Youtube Shorts형태로 제작하여 화자의 의도와는 다른 자막을 달며 가짜 뉴스가 생성되는 문제가 대두되고 있다. 이에 본 논문에서는 Sentence-BERT를 활용한 YouTube 가짜 뉴스 탐지 시스템을 제안한다. 제안하는 시스템은 Python 라이브러리를 사용해 유튜브 영상에서 음성과 영상 데이터를 분류하고 분류된 영상 데이터는 EasyOCR을 사용해 자막 데이터를 텍스트로 추출 후 Sentence-BERT를 활용해 문자 유사도를 분석한다. 분석결과 음성 데이터와 영상 자막 데이터가 일치한 경우 일치하지 않은 경우보다 약 62% 더 높은 문장 유사도를 보였다.

폐쇄자막을 기반한 자막기반 동영상 검색 시스템 (Video retrieval system based on closed caption)

  • 김효진;황인정;이은주;이응혁;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.57-60
    • /
    • 2000
  • 동영상 데이터와 같은 영상자료는 많은 활용분야를 가지고 있지만, 비정형성과 구조의 복잡성으로 인하여 손쉽게 검색을 하거나 재사용하는 데 있어서 많은 어려움을 가지고 있다. 본 논문에서는 동영상과 같은 멀티미디어 데이터를 구조적이고 체계화된 형태로 기술한 언어인 SMIL과 SAMI를 사용하여 동영상과 동기화 되어있는 폐쇄자막을 기반으로 동영상을 검색하는 시스템을 구현하였다. 사용자의 검색어를 입력받아 자막파일에서 검색어를 가지고 있는 문자열에서 시간 요소를 추출하여 해당하는 동영상 화면을 보여주는 구조를 가지고 있다.

  • PDF