• 제목/요약/키워드: 소리 발생 구간 검출

검색결과 3건 처리시간 0.015초

주의집중 기반의 합성곱 양방향 게이트 순환 유닛을 이용한 코골이 소리 검출 방식 (Snoring sound detection method using attention-based convolutional bidirectional gated recurrent unit)

  • 김민수;이기용;김형국
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.155-160
    • /
    • 2021
  • 본 논문은 수면 무호흡 환자의 중요한 증상 중의 하나인 코골이 사운드 자동 검출 방식을 제안한다. 제안된 방식에서는 수면 중 발생하는 소리 신호를 입력받아 소리 발생 구간을 검출하고, 검출된 소리 구간으로부터 변환된 스펙트로그램을 주의집중 기반의 합성곱 양방향 게이트 순환 유닛 기반의 분류기에 적용하였다. 적용된 주의집중 메커니즘은 합성곱 양방향 게이트 순환 유닛 모델을 확장하여 코골이 소리에 대한 차별적 특징 표현을 학습함으로써 코골이 검출 성능을 향상시켰다. 실험 결과는 제안하는 코골이 검출 방식이 기존 방식보다 약 3.1 % ~ 5.5 %의 정확도 향상을 보여준다.

멀티 모달 정보 분석을 이용한 TV 골프 방송 프로그램에서의 이벤트 검출 및 요약 (Event Detection and Summarization of TV Golf Broadcasting Program using Analyzed Multi-modal Information)

  • 남상순;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 추계학술대회
    • /
    • pp.173-176
    • /
    • 2009
  • 본 논문에서는 영상 정보와 오디오 정보 분석을 이용하여 TV 골프 방송 프로그램에서 중요 이벤트 구간을 검출하고 요약 하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 TV 골프 동영상을 영상 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 내용 기반의 오디오 구간으로 분류한 뒤 오디오 이벤트 구간을 검출하고, 이와 병렬적으로 영상정보에서 선수들의 플레이 장면을 검출한다. 플레이 장면 검출에 있어서는 방송 환경이나 날씨 등의 변화하는 다양한 조건에 대해 플레이 장면에 대한 오프라인 모델과 함께 경기 내에서 발생한 온라인 모델에 대한 학습을 혼합 적용함으로써 검출 성능을 높였다. 오디오 신호로부터 관중들의 박수소리와 스윙 사운드를 통해 검출된 오디오 이벤트와 플레이 장면은 이벤트 장면 검출 및 요약본 생성을 위해 사용된다. 제안된 알고리즘은 멀티 모달 정보를 이용하여 이벤트 구간 검출을 수행함으로써 중요 이벤트 구간 검출의 정확도를 높일 수 있었고, 검출된 이벤트 구간에 대한 요약본 생성을 통해 골프 경기를 시청하는 사용자가 원하는 부분을 빠르게 브라우징하여 시청하는 것이 가능하여 높은 사용자 만족도를 얻을 수 있었다.

  • PDF

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.