• 제목/요약/키워드: 오디오 요약

검색결과 22건 처리시간 0.044초

비디오 의미 파악을 위한 멀티미디어 요약의 비동시적 오디오와 이미지 정보간의 상호 작용 효과 연구 (A Study on the Interactive Effect of Spoken Words and Imagery not Synchronized in Multimedia Surrogates for Video Gisting)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.97-118
    • /
    • 2011
  • 본 연구는 오디오 및 이미지 정보가 비동시적으로 결합된 오디오/이미지 요약이 오디오 요약 또는 이미지 요약만 사용했을 때 보다 어떤 상호 작용 효과를 가지고 있는지 살펴보았다. 이를 위해서 오디오/이미지 요약, 오디오 요약 및 이미지 요약을 비디오의 의미 추출에 있어서의 정확도 즉, 요약문 및 항목 선택의 정확도와 이용자들의 이 세 가지 요약에 대한 관점을 비교, 분석하였다. 분석 결과, 요약문 정확도에서는 비디오 유형에 관계없이 상호작용 효과를 확인하였으나 항목 선택의 정확도에서는 상호 작용 효과가 입증되지 못했다. 끝으로 이용자들은 오디오/이미지 요약에 대해 오디오와 이미지 정보를 병행하여 시청함으로서 비디오 내용에 대한 이해를 빠르게 하지만 때로는 이 두 정보간의 비동시성으로 인하여 비디오 의미 파악을 방해하는 경우도 생겨난다고 기술하였다.

비디오의 오디오 정보 요약 기법에 관한 연구 (Investigating the Efficient Method for Constructing Audio Surrogates of Digital Video Data)

  • 김현희
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.169-188
    • /
    • 2009
  • 본 연구는 비디오의 오디오 정보를 추출하여 자동으로 요약하는 알고리즘을 설계하고, 제안된 알고리즘에 의해서 구성한 오디오 요약의 품질을 평가하여 효율적인 비디오 요약의 구현 방안을 제안하였다. 구체적인 연구 결과를 살펴보면 다음과 같다. 먼저, 제안 오디오 요약의 품질이 위치 기반 오디오 요약의 품질 보다 내재적 평가에서 더 우수하게 나타났다. 이용자 평가(외재적 평가)의 요약문 정확도에서는 제안 요약문이 위치 기반 요약문 보다 더 우수한 것으로 나타났지만, 항목 선택에서는 이 두 요약문간의 성능 차이는 없는 것으로 나타났다. 이외에 비디오 브라우징을 위한 오디오 요약에 대한 이용자 만족도를 조사하였다. 끝으로 이러한 조사 결과를 기초로 하여 제안된 오디오 요약 기법을 인터넷이나 디지털 도서관에 활용하는 방안들을 제시하였다.

지능형 PVR을 위한 축구 동영상 하이라이트 요약 (Soccer Video Highlight Summarization for Intelligent PVR)

  • 김형국;신동
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.209-212
    • /
    • 2009
  • 본 논문에서는 MDCT기반의 오디오 특징과 영상 특징을 이용하여 축구 동영상의 하이라이트를 효과적으로 요약하는 방식을 제안한다. 제안하는 방식에서는 입력되는 축구 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 분리된 연속적인 오디오 신호를 압축영역의 MDCT계수를 통해 이벤트 사운드별로 분류하여 오디오 이벤트 후보구간을 추출한다. 입력된 비디오 신호에서는 장면 전환점을 추출하고 추출된 장면 전환점으로부터 페널티 영역을 검출한다. 검출된 오디오 이벤트 후보구간과 검출된 페널티 영역장면을 함께 결합하여 축구 동영상의 이벤트 장면을 검출한다. 검출된 페널티 영역 장면을 통해 검출된 이벤트 구간을 다른 이벤트 구간보다 더 높은 우선순위를 갖는 하이라이트로 선정하여 요약본이 생성된다. 생성된 하이라이트 요약본의 평가는 precision과 recall을 통해 정확도를 평가하였다.

  • PDF

멀티 모달 정보 분석을 이용한 TV 골프 방송 프로그램에서의 이벤트 검출 및 요약 (Event Detection and Summarization of TV Golf Broadcasting Program using Analyzed Multi-modal Information)

  • 남상순;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.173-176
    • /
    • 2009
  • 본 논문에서는 영상 정보와 오디오 정보 분석을 이용하여 TV 골프 방송 프로그램에서 중요 이벤트 구간을 검출하고 요약 하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 TV 골프 동영상을 영상 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 내용 기반의 오디오 구간으로 분류한 뒤 오디오 이벤트 구간을 검출하고, 이와 병렬적으로 영상정보에서 선수들의 플레이 장면을 검출한다. 플레이 장면 검출에 있어서는 방송 환경이나 날씨 등의 변화하는 다양한 조건에 대해 플레이 장면에 대한 오프라인 모델과 함께 경기 내에서 발생한 온라인 모델에 대한 학습을 혼합 적용함으로써 검출 성능을 높였다. 오디오 신호로부터 관중들의 박수소리와 스윙 사운드를 통해 검출된 오디오 이벤트와 플레이 장면은 이벤트 장면 검출 및 요약본 생성을 위해 사용된다. 제안된 알고리즘은 멀티 모달 정보를 이용하여 이벤트 구간 검출을 수행함으로써 중요 이벤트 구간 검출의 정확도를 높일 수 있었고, 검출된 이벤트 구간에 대한 요약본 생성을 통해 골프 경기를 시청하는 사용자가 원하는 부분을 빠르게 브라우징하여 시청하는 것이 가능하여 높은 사용자 만족도를 얻을 수 있었다.

  • PDF

오디오 핑거프린트의 비트에러율을 이용한 자동 음악 요약 기법 및 시스템 (Automatic Music Summarization Method by using the Bit Error Rate of the Audio Fingerprint and a System thereof)

  • 김민성;박만수;김회린
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.453-463
    • /
    • 2013
  • 본 논문은 음악의 코러스(chorus) 구간을 자동으로 추출하는 기법 및 시스템에 대하여 다루었다. 코러스 구간을 자동으로 추출하는 음악 요약 기술은 방대한 음악 데이터베이스에서 특정 음악 검색을 용이하게 할 수 있으며, 온라인 스트리밍 서비스에서 샘플 음악을 생성할 때 사용될 수 있다. 이를 구현하기 위해, 기존의 알고리즘들은 2차원 유사도 행렬, 확률모델, 신경망모델, 템포 특징 벡터, 클러스터링 기법 등을 적절히 활용하여 개발되었다. 본 논문에서는 음악의 오디오 핑거프린트를 추출한 후 곡 내의 오디오 핑거프린트 구간 쌍의 비트에러율을 통해 음악 요약을 추출한다. 다만, 음악 검색 솔루션에서 사용된 오디오 핑거프린트가 데이터베이스에 이미 존재할 경우에는 이를 바로 로딩한 후 비트에러율을 계산하여 음악 요약을 추출할 수 있다. 이런 방법은 이미 만들어진 데이터베이스를 변형 없이 그대로 사용할 수 있음으로써 음악 데이터베이스를 활용한 다양한 알고리즘과 솔루션의 가능성을 보여주었다. 또한, 음악의 코러스를 추출하는데 있어서 기존 방식보다 매우 뛰어난 성능을 보임을 알 수 있었다.

멀티미디어 정보의 색인 및 검색을 위한 핵심 사운드 검출 (Detection of Keysound for Indexing ana Retrieval of Multimedia information)

  • 이용주;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.759-762
    • /
    • 2000
  • 멀티미디어 정보의 보다 효율적인 검색을 위해서는 비디오 요약정보의 생성 및 색인 작업이 필요하며, 이러한 요약정보를 만들기 위해서는 많은 시간과 비용이 소요된다. 스포츠 비디오 프로그램의 요약정보를 만들 때 오디오 신호를 이용하여 주요 장면을 검출할 경우 이러한 시간과 비용을 줄일 수 있다. 본 연구에서는 축구경기 비디오에서 주요장면을 나타내는 핵심 사운드로 주심의 호르라기 소리 및 아나운서의 "슛" 음성을 정의하고 이를 오디오 신호에서 검출하는 방법에 대해 연구하였다.

  • PDF

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

스마트링크 TV: 콘텐츠 장면기반 $2^{nd}$ 스크린 서비스 플랫폼 (SmartLink TV: Content Scene-based $2^{nd}$ Screen Service Platform)

  • 최대훈;이재호;박성춘;이동준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.193-195
    • /
    • 2013
  • 오디오 핑거프린트는 콘텐츠의 오디오 신호의 특색을 요약한 서명(signature)으로 2nd 스크린 서비스의 기반 기술로 주목 받고 있다. 이를 이용한 오디오 핑거프린트 시스템은 콘텐츠의 오디오를 인식하고 해당 콘텐츠와 연관된 메타 데이터를 2nd 디바이스와 웹을 통해 연결시키는 기능을 제공한다. 스마트링크 TV 는 이러한 오디오 핑거프린트를 이용한 KBS 의 콘텐츠 장면(scene) 기반 2nd 스크린 서비스 플랫폼이다. 본 논문에서는 한국의 방송환경에 적용된 스마트링크 TV 의 전반적인 플랫폼 구조와 활용방법에 대해 살펴본다.

  • PDF

시선추적-뇌파 기반의 비디오 요약 생성 방안 연구 (Video Summarization Using Eye Tracking and Electroencephalogram (EEG) Data)

  • 김현희;김용호
    • 한국문헌정보학회지
    • /
    • 제56권1호
    • /
    • pp.95-117
    • /
    • 2022
  • 본 연구는 시선 및 뇌파 정보를 이용하여 오디오-비주얼(audio-visual, AV) 시맨틱스 기반의 동영상 요약 방법들을 개발하고 평가해 보았다. 이를 위해서 27명의 대학생들을 대상으로 시선추적과 뇌파 실험을 수행하였다. 평가 결과, 뇌파와 동공크기 데이터를 함께 사용한 방법의 평균 재현율(0.73)이 뇌파 또는 동공크기 데이터만을 사용한 방법의 평균 재현율(뇌파: 0.50, 동공크기: 0.68)보다 높게 나타났다. 또한 AV 시맨틱스 기반의 개인화된 동영상 요약의 평균 재현율(0.57)이 AV 시맨틱스 기반의 일반적인 동영상 요약의 평균 재현율(0.69)보다 낮게 나타난 원인들을 분석하였다. 끝으로, AV 시맨틱스 기반 동영상 요약 방법과 텍스트 시맨틱스 기반 동영상 요약 방법 간의 차이 및 특성도 비교분석해 보았다.

다채널 오디오 시스템을 위한 음향 신호처리

  • 김래훈;전재진;이신렬;김세웅;임준석;성광모
    • 전자공학회지
    • /
    • 제31권6호
    • /
    • pp.17-39
    • /
    • 2004
  • 본 논문에서는 다채널 오디오 시스템에서 사용되어지는 음향신호처리에 대하여 저자들이 그간 제안하였던 방법들을 중심으로 다뤘다. 다룬 내용은 첫째로 각 스피커에서 청자의 위치까지의 공간응답의 영향을 배재할 수 있는 역 필터링이고, 둘째로 다채널 스피커의 위치를 파악하여 최적 위치와의 차이를 자동적으로 보상할 수 있는 방법이다. 셋째로 인간의 인지적인 측면을 고려하는 다채널 스피커로부터의 에너지 레벨 정렬 방식에 대하여 다뤘고, 마지막으로 특정공간의 반사음의 분포 패턴을 구하여 이를 일반적인 청취공간에서 재현해 내는 음장 재현 방식에 대하여 요약하였다.(중략)

  • PDF