• Title/Summary/Keyword: 환경소리 인식

검색결과 44건 처리시간 0.027초

능동형 기울기 가중치 제약에 기반한 환경소리 인식시스템용 DTW 알고리듬 (Active Slope Weighted-Constraints Based DTW Algorithm for Environmental Sound Recognition System)

  • 정영진;이윤정;김필운;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제11권4호
    • /
    • pp.471-480
    • /
    • 2008
  • 농자들은 청각장애를 가지고 있기 때문에 알람, 도어 벨, 싸이렌, 경적, 전화 벨 등과 같은 유용한 소리정보를 인식할 수 없다. 이러한 문제를 해결하기 위해서는 주요한 환경소리 인식방법을 탑재한 휴대형 청각보조 장구가 요구되어진다. 본 논문에서는 환경소리 인식시스템에 적용할 수 있는 능동형 기울기 가중치제약 방식의 새로운 동적 시간정합 알고리듬을 제안하였다. 환경소리 인식방법은 크게 세 단계로 구성된다. 첫 번째 단계에서는 소리의 주파수 성분과 크기를 이용하여 시작점과 끝점을 추출한다. 두 번째 단계에서는 추출된 구간에 대하여 특징을 추출하며 세 번째 단계에서는 추출된 특징들을 분류한다. 실험 결과 제안한 방법의 인식률이 거의 90%가 되었다. 그리고 기존의 동적 시간정합 알고리듬과 비교하였을 때 인식율에 있어서 약 20%정도의 개선이 있었다. 따라서 제안된 방법을 사용하여 농자가 환경소리를 인식할 수 있는 휴대형 청각 보조 장구가 개발된다면 그들의 생활에 편리함을 줄 수 있을 것으로 판단된다.

  • PDF

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 (Scream Sound Detection Based on Universal Background Model Under Various Sound Environments)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.485-492
    • /
    • 2017
  • GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

임베디드 환경에서의 다중소리 식별 모델을 위한 경량화 기법 비교 연구 (A Comparative Study of Lightweight Techniques for Multi-sound Recognition Models in Embedded Environments)

  • 하옥균;이태민;성병준;이창헌;김성수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.39-40
    • /
    • 2023
  • 본 논문은 딥러닝 기반의 소리 인식 모델을 기반으로 실내에서 발생하는 다양한 소리를 시각적인 정보로 제공하는 시스템을 위해 경량화된 CNN ResNet 구조의 인공지능 모델을 제시한다. 적용하는 경량화 기법은 모델의 크기와 연산량을 최적화하여 자원이 제한된 장치에서도 효율적으로 동작할 수 있도록 한다. 이를 위해 마이크로 컴퓨터나 휴대용 기기와 같은 임베디드 장치에서도 원활한 인공지능 추론을 가능하게 하는 모델을 양자화 기법을 적용한 경량화 방법들을 실험적으로 비교한다.

  • PDF

감시 시스템에서의 비정상 소리 탐지 및 식별 (Abnormal Sound Detection and Identification in Surveillance System)

  • 주영민;이의종;김정식;오승근;박대희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.592-595
    • /
    • 2010
  • 본 논문에서는 감시카메라 환경에서 취득한 오디오 데이터를 입력으로 하여, 비정상 상황을 인식하는 시스템을 제안한다. 제안된 시스템은 단일클래스 SVM의 대표적인 모델인 SVDD와 최근 얼굴 인식 분야에서 성공적인 업적을 보여주고 있는 신호 처리 분야의 SRC를 계층적으로 결합한 구조로써, 첫 번째 계층에서는 SVDD로 비정상 소리를 신속하게 탐지하여 관리자에게 알람 경고하고, 두 번째 계층의 SRC는 탐지된 비정상 소리를 유형별로 세분화 식별하여 관리자에게 비상 상황을 보고함으로써 관리자의 위기 상황 대처를 돕는다. 제안된 시스템은 실시간 처리가 가능하며, 점증적 갱신의 학습 능력으로 인하여 비정상 오디오 데이터베이스의 변화에도 능동적으로 적응할 수 있다. 실험을 통하여 제안된 시스템의 성능을 검증한다.

양서류 울음 소리 식별을 위한 특징 벡터 및 인식 알고리즘 성능 분석 (Performance assessments of feature vectors and classification algorithms for amphibian sound classification)

  • 박상욱;고경득;고한석
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.401-406
    • /
    • 2017
  • 본 논문에서는 양서류 울음소리를 통한 종 인식 시스템 개발을 위해, 음향 신호 분석에서 활용되는 주요 알고리즘의 인식 성능을 평가했다. 먼저, 멸종위기 종을 포함하여 총 9 종의 양서류를 선정하여, 각 종별 울음소리를 야생에서 녹음하여 실험 데이터를 구축했다. 성능평가를 위해, MFCC(Mel Frequency Cepstral Coefficient), RCGCC(Robust Compressive Gammachirp filterbank Cepstral Coefficient), SPCC(Subspace Projection Cepstral Coefficient)의 세 특징벡터와 GMM(Gaussian Mixture Model), SVM(Support Vector Machine), DBN-DNN(Deep Belief Network - Deep Neural Network)의 세 인식기가 고려됐다. 추가적으로, 화자 인식에 널리 사용되는 i-vector를 이용한 인식 실험도 수행했다. 인식 실험 결과, SPCC-SVM의 경우 98.81 %로 가장 높은 인식률을 확인 할 수 있었으며, 다른 알고리즘에서도 90 %에 가까운 인식률을 확인했다.

PNCC와 robust Mel-log filter bank 특징을 결합한 조류 울음소리 분류 (Bird sounds classification by combining PNCC and robust Mel-log filter bank features)

  • 알자흐라 바디;고경득;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.39-46
    • /
    • 2019
  • 본 논문에서는 합성곱 신경망(Convolutional Neural Network, CNN) 구조를 이용하여 잡음 환경에서 음향신호를 분류할 때, 인식률을 높이는 결합 특징을 제안한다. 반면, Wiener filter를 이용한 강인한 log Mel-filter bank와 PNCCs(Power Normalized Cepstral Coefficients)는 CNN 구조의 입력으로 사용되는 2차원 특징을 형성하기 위해 추출됐다. 자연환경에서 43종의 조류 울음소리를 포함한 ebird 데이터베이스는 분류 실험을 위해 사용됐다. 잡음 환경에서 결합 특징의 성능을 평가하기 위해 ebird 데이터베이스를 3종류의 잡음을 이용하여 4개의 다른 SNR (Signal to Noise Ratio)(20 dB, 10 dB, 5 dB, 0 dB)로 합성했다. 결합 특징은 Wiener filter를 적용한 log-Mel filter bank, 적용하지 않은 log-Mel filter bank, 그리고 PNCC와 성능을 비교했다. 결합 특징은 잡음이 없는 환경에서 1.34 % 인식률 향상으로 다른 특징에 비해 높은 성능을 보였다. 추가적으로, 4단계 SNR의 잡음 환경에서 인식률은 shop 잡음 환경과 schoolyard 잡음 환경에서 각각 1.06 %, 0.65 % 향상했다.

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF

공분산과 모듈로그램을 이용한 콘볼루션 신경망 기반 양서류 울음소리 구별 (Convolutional neural network based amphibian sound classification using covariance and modulogram)

  • 고경득;박상욱;고한석
    • 한국음향학회지
    • /
    • 제37권1호
    • /
    • pp.60-65
    • /
    • 2018
  • 본 논문에서는 양서류 울음소리 구별을 CNN(Convolutional Neural Network)에 적용하기 위한 방법으로 공분산 행렬과 모듈로그램(modulogram)을 제안한다. 먼저, 멸종 위기 종을 포함한 양서류 9종의 울음소리를 자연 환경에서 추출하여 데이터베이스를 구축했다. 구축된 데이터를 CNN에 적용하기 위해서는 길이가 다른 음향신호를 정형화하는 과정이 필요하다. 음향신호를 정형화하기 위해서 분포에 대한 정보를 나타내는 공분산 행렬과 시간에 대한 변화를 내포하는 모듈로그램을 추출하여, CNN의 입력으로 사용했다. CNN은 convolutional layer와 fully-connected layer의 수를 변경해 가며 실험하였다. 추가적으로, CNN의 성능을 비교하기 위해 기존에 음향 신호 분석에서 쓰이는 알고리즘과 비교해보았다. 그 결과, convolutional layer가 fully-connected layer보다 성능에 큰 영향을 끼치는 것을 확인했다. 또한 CNN을 사용하였을 때 99.07 % 인식률로, 기존에 음향분석에 쓰이는 알고리즘 보다 높은 성능을 보인 것을 확인했다.

청각 장애인을 위한 소리 시각화 시스템 (An ambient display for hearing impaired people)

  • 김대석;이태화;이동만;박진아;한민수
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.46-51
    • /
    • 2006
  • 청각 장애인은 집에서 발생하는 여러 가지 소리나 가전 제품의 신호를 감지하지 못하므로 생활의 불편을 상당히 느끼고 있다. 이러한 사람들을 위해 소리 정보를 시각 정보로 변경하여, 사용자들의 시야에 보여주는 것을 목적으로 연구를 시작하였다. 본 연구에서는 집이라는 환경에서 사용자의 위치와 오리엔테이션 정보를 습득하여, 사용자에게 필요한 정보를 시야에 들어오는 범위에 방해되거나 불편하지 않게 표시하는 시스템을 제안한다. 프로젝터에 부착된 카메라를 이용하여 사용자를 인식하고, 사용자를 따라다니며 화면을 디스플레이 하는 기존 방법의 단점들을 해결하기 위해 위치 센서로 사람의 위치와 방향을 파악하여 사용자에게 필요한 정보를 사용자가 현재 바라보는 곳에 디스플레이 하는 방법을 제안한다. 3D 모델로 제작된 집의 구조를 이용하여, 프로젝터의 방향과 초점 제어를 사전에 계산하여 보다 정확한 위치에 정보가 디스플레이 되도록 하였다. 본 논문에서 제안하는 방법이 기존의 PDA 나 PC 모니터를 이용해 정보를 제공하는 방법보다 사용자들이 정보를 인지하는 데 걸리는 시간이 좀더 빠르고 이 방법을 선호하기 때문에, 청각 장애인에게 정보를 제공하는 시스템으로 적합하다는 결론을 도출하였다.

  • PDF

센서네트워크에서 센서노드들 사이의 거리측정 시스템 (Distance Measurement System Between Sensor in the Wireless Sensor Network)

  • 조영태;박총명;김용곤;김윤;정인범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.1263-1266
    • /
    • 2006
  • 센서 네트워크는 환경 정보를 이용하여 재난방제, 스마트홈, 환경감시 등의 다양한 서비스를 제공할 수 있으며, 특히 위치인식 기반 서비스에 관한 연구가 활발히 진행되고 있다. 위치인식을 하기 위해 기본적이고 가장 중요한 기술은 센서와 사물 사이의 거리를 측정하는 것이다. 초음파와 RSSI, GPS 등 위치인식을 위해 거리를 측정하는 방식은 여러 가지가 있다. 본 논문에서는 소리와 RF신호를 이용하여 거리를 측정하는 시스템을 구현하고 평가한다.

  • PDF