• 제목/요약/키워드: 이상 음원 인식

검색결과 10건 처리시간 0.027초

음원인식 및 지연시간을 이용한 카메라의 방향제어 시스템 설계 (Design of direction control system for camera, Using sound source recognition and delay time.)

  • 이희태;김영섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.1076-1078
    • /
    • 2017
  • 본 연구는 이상음원(비명, 유리창 파손음, 경적소리 등) 발생 시, 2개의 마이크로폰에 입력되는 사운드에 대하여 음원 방향추적 장치와 연결된 카메라에 음원의 방향 정보를 전송함으로써, 카메라의 View Point를 음원 발생방향으로 이동시켜 사고현장을 더욱 신속하게 대처할 수 있는 시스템에 대한 연구이다. 일반적인 음성을 이용한 감시카메라는 단순히 소리 발생 여부만 감지하지만, 본 시스템은 이상음원 발생 지점으로 카메라의 방향 제어를 가능하게 한다. 이상음원의 검출은 기존에 수집한 DB를 기반으로 비교, 분석 과정을 통하여 이상음원을 분류한다. 음원 발생 방향은 음원 발생 시, 마이크로폰에 도달하는 음원의 시간차에 따른 음파의 위상차를 계산하여 음원 발생 방향을 판단하게 된다.

주변 배경음에 강인한 구간 검출을 통한 음원 인식 및 위치 추적 시스템 설계 (Sound recognition and tracking system design using robust sound extraction section)

  • 김우준;김영섭;이광석
    • 한국전자통신학회논문지
    • /
    • 제11권8호
    • /
    • pp.759-766
    • /
    • 2016
  • 본 논문은 비정상 상황 시 발생하는 음원에 대해 주변 환경 음에 강인한 음원 구간을 검출하여, 구간내의 신호를 이용한 음원 인식 과 위치 추적 시스템 설계에 관한 연구이다. 강인한 음원 구간 검출은 수신되는 오디오 신호로부터 단 구간 가중 평균 델타 에너지를 계산하여, 저역 통과 필터에 입력 후, 출력되는 결과 값들의 비교를 통해 배경음에 강인한 구간을 정의 하며, 음원 인식은 검출된 구간 내 데이터로부터 종래의 인식 방법인 HMM(: Hidden Markov Model)을 이용해, 음원 인식 정보를 생성하여 학습 및 인식을 한다. 이는 주변 배경음이 포함된 음원 신호에 대해 기존 신호의 에너지를 이용해 구간을 검출 후, HMM을 통한 인식에 비해 3.94% 상향된 인식률을 보인다. 또한 인식 결과를 바탕으로 구간내의 신호간의 TDOA(: Time Delay of Arrival)를 이용한 위치 파악은 실제 발생 위치와의 각도와 97.44%일치함을 보인다.

PHAT 가중 방식 음성신호방향 추정시스템의 FFT 및 IFFT의 효율적인 구현 (Efficient Implementation of IFFT and FFT for PHAT Weighting Speech Source Localization System)

  • 김용은;홍선아;정진균
    • 대한전자공학회논문지SP
    • /
    • 제46권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 서비스 로봇에서 사용되는 음원인식 시스템은 사람이 로봇을 향해 말할 때 화자의 위치를 추정한다. 로봇용 음원인식 알고리즘들 중에서 복수개의 마이크로폰에 소리가 도착하는 시간지연 정보를 이용하여 음원위치를 추정하는 방법이 널리 이용된다. 소리가 도착하는 지연시간을 계산하기 위해서는 상관관계를 구하고 위치추정의 정확도를 향상시키기 위해서 PHAT 가중치 함수를 널리 사용한다. PHAT 가중치 함수를 적용하기 위해서는 FFT와 IFFT회로가 사용되는데 이 회로들의 면적이 음원인식 시스템의 50% 이상을 차지한다. 따라서 FFT와 IFFT의 효율적인 구현이 음원인식 시스템의 경쟁력 있는 IP 구현에 필수적이다. 본 논문에서는 사람의 음성 특성을 고려하여 FFT와 IFFT를 효율적으로 구현하는 방법을 제시한다.

자동차 환경에서 TDOA를 이용한 화자위치추정 방법 (On the speaker's position estimation using TDOA algorithm in vehicle environments)

  • 이상헌;최홍섭
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권2호
    • /
    • pp.71-79
    • /
    • 2016
  • 본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.

메타버스 대화의 몰입감 증진을 위한 대화 감정 기반 실시간 배경음악 시스템 구현 (Real-time Background Music System for Immersive Dialogue in Metaverse based on Dialogue Emotion)

  • 김기락;이상아;김나현;정문열
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권4호
    • /
    • pp.1-6
    • /
    • 2023
  • 메타버스 환경에서의 배경음악은 사용자의 몰입감을 증진시키기 위해 사용된다. 하지만 현재 대부분의 메타버스 환경에서는 사전에 매칭시킨 음원을 반복 재생하며, 이는 빠르게 변화하는 사용자의 상호작용 맥락에 어울리지 못해 사용자의 몰입감을 저해시키는 경향이 있다. 본 논문에서는 보다 몰입감 있는 메타버스 대화 경험을 구현하기 위해 1) 한국어 멀티모달 감정 데이터셋인 KEMDy20을 이용하여 발화로부터 감정을 추출하는 회귀 신경망을 구현하고 2) 음원에 arousal-valence 레벨이 태깅되어 있는 DEAM 데이터셋을 이용하여 발화 감정에 대응되는 음원을 선택하여 재생한 후 3) 아바타를 이용한 실시간 대화가 가능한 가상공간과 결합하여 몰입형 메타버스 환경에서 발화의 감정에 어울리는 배경음악을 실시간으로 재생하는 시스템을 구현하였다.

MCE기반의 다중 특징 파라미터 스코어의 결합을 통한 화자인식 성능 향상 (Performance Improvement of Speaker Recognition by MCE-based Score Combination of Multiple Feature Parameters)

  • 강지훈;김보람;김규영;이상훈
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.679-686
    • /
    • 2020
  • 본 논문에서는 화자인식 성능 향상을 위해 음원에서 개선된 특징추출 방식과 최소 분류 오차 기반의 다중 특징 벡터 스코어에 대한 가중치 추정을 사용하여 스코어 결합을 제안하였다. 제안한 특징 벡터는 Glottal Flow에서 무의미한 정보구간인 평탄한 스펙트럼 구간을 제거하기 위하여 저역통과 필터를 수행한 신호에서 인지적 선형 예측 캡스트럼 계수, 왜도, 첨도를 추출하여 구성하였다. 제안한 특징 벡터는 종래의 음원에서 멜-주파수 캡스트럼 계수, 인지적 선형 예측 캡스트럼 계수를 추출하여 가우시안 혼합 모델로 모델링한 화자인식 시스템을 개선하기 위해 사용된다. 또한, 스코어 추정과정의 신뢰성을 높이기 위하여 기존의 스코어의 확률 분포를 사용하여 가중치를 추정하는 대신 제안한 특징 벡터에서 평가된 점수와 종래의 특징 벡터에서 평가된 점수에 대하여 최소 분류 오차 기법으로 가중치를 추정하여 스코어를 결합함으로써 최적의 화자를 찾는다. 실험 결과 제안한 특징 벡터가 화자를 인식하는데 유효한 정보를 포함하고 있는 것을 확인하였다. 또한, 최소 분류 오차 기반의 다중 특징 파라미터 스코어를 결합하여 화자인식을 수행하였을 때, 종래의 화자인식 성능보다 더 우수한 성능을 나타내는 것을 확인할 수 있으며, 특히 가우시안 혼합 모델이 낮을 때 더 높은 성능향상을 보였다.

오디오 피크 검출을 적용한 TV 방송 프로그램 내 배경음악 식별 알고리즘 (Background Music Identification in TV Broadcasting Program Algorithm using Audio Peak Detection)

  • 류상현;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.34-35
    • /
    • 2013
  • 본 논문에서는 오디오 피크 검출을 적용한 TV 방송 프로그램내 배경음악 식별 알고리즘을 제안한다. 제안한 알고리즘은 음악 핑거프린트 추출 및 전송부, 음악구간 검출부, 음악 핑거프린트는 고속 매칭 및 정보전송부 세 부분으로 구성되어 있다. 음악 핑거프린트 추출 및 전송부에서는 음악 원음 오디오 데이터를 퓨리에 변환하여 스펙트럼 계수를 추출한다. 추출된 스펙트럼의 성분 중에서 일정한 문턱값 이상의 에너지를 가지는 값을 피크로 검출하고 검출된 피크를 이용하이 핑거프린트를 생성하고 데이터 베이스화한다. 음악구간 검출부에서는 입력된 방송 프로그램 오디오 데이터에 GMM(Gaussian Mixture Model)을 적용하여 음악과 음악 외 오디오 데이터를 분류한다. 음악 핑거프린트 고속 매칭 및 정보전송부에서는 음악구간이라고 인식된 쿼리 오디오 데이터를 음악 핑거프린트 추출 및 전송부와 동일한 과정을 통해 핑거프린트를 생성하고 데이터 베이스화된 음악 원음의 핑거프린트들과 비교하여 가장 유사한 음원의 정보를 TV의 화면에 자막으로 보여준다.

  • PDF

수동형 합성개구 신호처리에서 수신 배열 센서의 이동 속도에 대한 영향 분석 (An analysis of the moving speed effect of the receiver array on the passive synthetic aperture signal processing)

  • 김시문;변성훈;오세현
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.125-133
    • /
    • 2016
  • 최근 고해상도의 해저면 영상을 취득하기 위한 합성개구 신호처리 및 수중 시스템 개발 연구가 여러 국가에서 활발히 진행 중에 있다. 국내에서도 합성개구소나의 필요성 및 중요성을 인식하여 기초적인 관련 연구가 시작되었으나 수신 배열 센서의 이동 속도에 의한 도플러 효과가 대부분 무시되어 왔다. 본 논문에서는 수신 배열 센서의 이동 속도에 따른 영향을 확인하기 위하여 공간 주파수 영역 보간법을 이용한 수동형 합성개구 신호처리 결과의 영상 왜곡 및 오차를 분석한다. 센서의 이동을 고려하지 않은 원래의 송신 신호만을 사용하는 경우 센서의 이동 속도가 증가함에 따라 음원의 위치 추정 오차가 증가하며 영상 왜곡이 현상이 뚜렷하게 나타난다. 센서의 이동을 고려하여 보정된 신호를 사용하는 경우 정확한 위치 추정이 가능하며 영상 왜곡 현상은 나타나지 않는다. 결론적으로 1 m/s 이상의 속도에서는 센서의 이동에 의한 도플러 현상을 보정하기 위한 알고리듬 적용이 필수적이다.

청감실험방식에 따른 음풍경 평가결과 비교분석 (Comparative analysis of the soundscape evaluation depending on the listening experiment methods)

  • 조아현;한찬훈
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.287-301
    • /
    • 2022
  • 본 연구의 목적은 현재 음풍경 조사를 위해 사용되는 실험법 중 현장평가와 실험실평가를 비교·분석하는 것이다. 이를 위해 청주시 내 4개 지역에서 현장평가와 실험실평가를 수행하였다. 현장평가에서는 각 측정점을 이용 중이던 65명의 시민이 음풍경 평가에 참여했으며, 실험실평가에서는 20세 이상 건청인 48명이 참여해 녹취한 영상과 소리를 보고 들은 뒤 평가를 진행하였다. 실험실 평가는 현장 경험자와 현장 비경험자로 나누어 실시하였으며, 음원의 청취방법을 달리하여 헤드폰 및 스피커 이용 그룹으로 분류하여 실시하였다. 분석결과, 현장평가와 실험실평가에서 공통적으로 소리의 크기와 불쾌감 사이에 매우 높은 상관관계가 나타났다. 그러나 실험실 평가에서는 시각 및 청각적 정보만으로는 현장의 상황을 정확히 판단할 수 없기 때문에 현장평가와 실험실평가에서 신호음 인식에 대한 차이가 나타났다. 실험실평가에서 헤드폰과 스피커 이용 그룹의 응답결과 중 가장 크게 들리는 신호음의 인지에 차이가 있었다. 또한 현장경험자는 자신이 경험한 기억을 이용하여 신호음을 인지하는 경향이 있는 반면에 현장비경험자는 주 신호음을 인지하지 못하는 경우가 있었다.

오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류 (Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.239-246
    • /
    • 2023
  • 본 논문에서는 오디오 부호화기를 위한 스펙트럼 변화 파라미터와 Mel Frequency Cepstral Coefficients(MFCC) 파라미터를 이용하여 음성과 음악 신호를 분류하는 개루프 방식의 알고리즘을 제안한다. 반응성을 높이기 위해 단구간 특징 파라미터로 MFCC를 사용하고 정확도를 높이기 위해 장구간 특징 파라미터로 스펙트럼 변화를 사용하였다. 전체적인 음성/음악 신호 분류 결정은 단구간 분류와 장구간 분류를 결합하여 이루어진다. 패턴인식을 위해 Gaussian Mixed Model(GMM)을 사용하였고, Expectation Maximization(EM) 알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 다양한 오디오 음원에서 평균적으로 1.5% 분류 오류율을 보였고 단구간 단독 분류 방법 보다 0.9%, 장구간 단독 분류 방법보다 0.6%의 분류 오류율의 성능 개선을 이룰 수 있었다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 USAC 오디오 분류 방법보다 타악기 음악 신호에서 9.1% 분류 오류율, 음성신호에서 5.8% 분류 오류율의 성능 개선을 이룰 수 있었다.