• 제목/요약/키워드: 사운드 분류

검색결과 60건 처리시간 0.027초

상황 인식 모바일 컴퓨팅을 위한 사운드 분류 시스템 설계 (Design of a Sound Classification System for Context-Aware Mobile Computing)

  • 김주희;이석준;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1305-1308
    • /
    • 2013
  • 본 논문에서는 스마트폰 사용자의 실시간 상황 인식을 위한 효과적인 사운드 분류 시스템을 제안한다. 이 시스템에서는 PCM 형태의 사운드 입력 데이터에 대한 전처리를 통해 고요한 사운드와 화이트 노이즈를 학습 및 분류 단계 이전에 미리 여과함으로써, 계산 자원의 불필요한 소모를 막을 수 있다. 또한 에너지 레벨이 낮아 신호의 패턴을 파악하기 어려운 사운드 데이터는 증폭함으로써, 이들에 대한 분류 성능을 향상시킬 수 있다. 또, 제안하는 사운드 분류 시스템에서는 HMM 분류 모델의 효율적인 학습과 적용을 위해 k-평균 군집화를 이용하여 특징 벡터들에 대한 차원 축소와 이산화를 수행하고, 그 결과를 모아 일정한 길이의 시계열 데이터를 구성하였다. 대학 연구동내 다양한 일상생활 상황들에서 수집한 8가지 유형의 사운드 데이터 집합을 이용하여 성능 분석 실험을 수행하였고, 이를 통해 본 논문에서 제안하는 사운드 분류 시스템의 높은 성능을 확인할 수 있었다.

상황 인식 모바일 컴퓨팅을 위한 사운드 분류 시스템의 설계 및 구현 (Design and Implementation of a Sound Classification System for Context-Aware Mobile Computing)

  • 김주희;이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.81-86
    • /
    • 2014
  • 본 논문에서는 스마트폰 사용자의 실시간 상황 인식을 위한 효과적인 사운드 분류 시스템을 제안한다. 이 시스템은 전처리 과정에서 입력 사운드 데이터로부터 고요한 사운드와 화이트 노이즈를 미리 여과해버림으로써, 제한적인 계산 자원의 불필요한 소모를 막을 수 있다. 또한 에너지 레벨이 낮은 사운드 데이터들은 사전에 증폭시킴으로써, 이들에 대한 분류 성능을 향상시킬 수 있다. 또, 제안하는 사운드 분류 시스템은 HMM 분류 모델의 효율적인 학습과 적용을 위해 k-평균 군집화를 이용하여 특징 벡터들에 대한 차원 축소와 이산화를 수행한다. 한 대학 연구동내 일상생활로부터 수집한 8가지 유형의 사운드 데이터 집합을 이용하여 제안한 시스템의 성능 분석 실험을 수행하였다. 이 실험을 통해 본 논문에서 제안한 사운드 분류 시스템은 높은 분류 성능을 보여 주었다.

소셜 TV적용을 위한 사용자 반응 사운드 인식방식 비교 (Comparison of User's Reaction Sound Recognition for Social TV)

  • 류상현;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.155-156
    • /
    • 2013
  • 소셜 TV 사용 시, 사용자들은 TV를 시청하면서 타 사용자와의 소통을 위해 리모컨을 이용해서 텍스트를 작성해야하는 불편함을 가지고 있다. 본 논문에서는 소셜 TV의 이러한 불편함을 해결하기 위해 사용자 반응 사운드를 자동으로 인식하여 상대방에게 이모티콘을 전달하기 위한 시스템을 제안하며, 사용자 반응 사운드 인식에 사용되는 분류방식들을 비교한다. 사용자 반응 사운드 인식을 위해 사용되는 분류 방식들 중에서, Gaussian Mixture Model(GMM), Gaussian Mixture Model - Universal Background Model(GMM-UBM), Hidden Markov Model(HMM), Support Vector Machine(SVM)의 성능을 비교하였다. 각 분류기의 성능을 비교하기 위하여 MFCC 특징값을 각 분류기에 적용하여 사용자 반응 사운드 인식에 가장 최적화된 분류기를 선택하였다.

  • PDF

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류 (A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect)

  • 정현영;김규미;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.397-400
    • /
    • 2020
  • 본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

K-means 알고리듬을 이용한 비정상 사운드 검출 (Irregular Sound Detection using the K-means Algorithm)

  • 이재열;조상진;정의필
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.341-344
    • /
    • 2004
  • 발전소에서 운전 중인 발전 설비의 장비 및 기계의 동작, 감시, 진단은 매우 중요한 일이다. 발전소의 이상 감지를 위해 상태 모니터링이 사용되며, 이상이 발생되었을 때 고장의 원인을 분석하고 적절한 조치를 계획하기 위한 이상 진단 과정을 따르게 된다. 본 논문에서는 산업 현장에서 기기들의 운전시에 발생하는 기기 발생 음을 획득하여 정상/비정상을 판정하기 위한 알고리듬에 대하여 연구하였다. 사운드 감시(Sound Monitoring) 기술은 관측된 신호를 acoustic event로 분류하는 것과 분류된 이벤트를 정상 또는 비정상으로 구분하는 두 가지 과정으로 진행할 수 있다. 기존의 기술들은 주파수 분석과 패턴 인식의 방법으로 간단하게 적용되어 왔으며, 본 논문에서는 K-means clustering 알고리듬을 이용하여 사운드를 acoustic event로 분류하고 분류된 사운드를 정상 또는 비정상으로 구분하는 알고리듬을 개발하였다.

  • PDF

산업현장에서의 선택적 소음 제거를 위한 환경 사운드 분류 기술 (Environmental Sound Classification for Selective Noise Cancellation in Industrial Sites)

  • 최현국;김상민;박호종
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.845-853
    • /
    • 2020
  • 본 논문에서는 산업현장에서의 선택적 소음 제거를 위한 환경 사운드 분류 기술을 제안한다. 산업현장에서의 소음은 작업자의 청력 손실의 주요 원인이 되며, 소음 문제를 해결하기 위한 소음 제거 기술이 널리 연구되고 있다. 그러나 기존 소음 제거 기술은 모든 소리를 구분 없이 차단하는 문제를 가지며, 모든 소음에 공통된 제거 방법을 적용하여 각 소음에 최적화된 소음 제거 성능을 보장할 수 없다. 이러한 문제를 해결하기 위해 사운드 종류에 따라 선택적 동작을 하는 소음 제거가 필요하고, 본 논문에서는 이를 위해 딥 러닝 기반의 환경 사운드 분류 기술을 제안한다. 제안 방법은 기존 오디오 특성인 멜-스펙트로그램의 한계를 극복하기 위해 새로운 특성으로서 멜-스펙트로그램 기반의 시간 변화 특성과 통계적 주파수 특성을 사용하며, 합성곱 신경망을 이용하여 특성을 모델링 한다. 제안하는 분류기를 사용하여 3가지 소음과 2가지 비소음으로 구성된 총 5가지 클래스로 사운드를 분류하였고, 제안하는 오디오 특성을 사용하여 기존 멜-스펙트로그램 특성을 사용할 때에 비하여 분류 정확도가 6.6% 포인트 향상되는 것을 확인하였다.

심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술 (Auditory Feature Extraction for Sound Classification based on Deep Neural Network)

  • 장우진;신성현;윤호원;조효진;장원;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.31-32
    • /
    • 2017
  • 본 논문에서는 심층 신경망 기반의 사운드 분류를 위한 청각 특성 추출 기술을 제안한다. 심층 신경망은 인간의 신경망을 모델링 하기 때문에 인간의 인식을 기반으로 하는 특성을 사용한다면 더 적합한 학습을 할 수 있다. 기존 방법인 MFCC와 스펙트로그램과는 달리 스파이크그램은 인간의 청각 시스템을 기반으로 파형을 해석하는 방법이기 때문에 심층 신경망에 더 효율적인 특성이라고 할 수 있다. 따라서 본 논문에서는 사운드 분류 기술의 특성으로 스파이크그램을 이용하는 방법을 제안한다. 제안한 방법을 사용하면 MFCC와 스펙트로그램을 사용하는 것보다 더 높은 분류 성능을 얻을 수 있다.

  • PDF

사운드와 이미지를 기반으로 한 성인 컨텐츠 필터링 기법 (Adult Contents Filtering Technique using Image and Sound)

  • 조정익;조진수;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.121-123
    • /
    • 2007
  • 현재까지 유해한 컨텐츠(Contents)를 차단하기 위한 활발한 연구가 있었으나, 사람의 사운드(sound)와 이미지(image)를 통합한 필터링(filtering) 기법에 대한 연구는 활발히 이루어지지 않은 측면이 있다. 본 논문은 이미지(image) 데이터 중 피부색 분포 비율과 사운드(sound) 데이터 중 주파수 분석을 통한 심층적인 기법을 활용하여 현재까지 진행되고 있는 이미지 필터링(image filtering)방법에 대한 수행 결과보다 획기적으로 개선된 성능을 보이고자 한다. 즉, 사운드와 이미지의 특징 정보를 이용한 성인 컨텐츠(Adult Contents)분류 기법을 활용하는 것으로 성인 컨텐츠(Adult Contents)에서 두드러지는 특징을 보이는 사운드 패턴을 분석하여 현재까지 한정된 자원인 이미지만을 활용한 기법보다는 현저한 향상된 수행능력을 예측해 볼 수 있다.

제한된 계산량으로 가정내 음향 상황을 검출하는 사운드 이벤트 검출 시스템 개발 (Development of Sound Event Detection for Home with Limited Computation Power)

  • 장달원;이재원;이종설
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.257-258
    • /
    • 2019
  • 이 논문에서는 가정내 음향 상황에 대한 사운드 이벤트 검출을 수행하는 시스템을 개발하는 내용을 담고 있다. 사운드 이벤트 검출 시스템은 마이크로폰 입력에 대해서 입력신호로부터 특징을 추출하고, 특징으로부터 이벤트가 있었는지 아닌지를 분류하는 형태를 가지고 있다. 본 연구에서는 독립형 디바이스가 가정내 위치한 상황을 가정하여 개발을 진행하였다. 가정내에서 일어날 수 있는 음향 상황을 가정하고 데이터셋 녹음을 진행하였다. 데이터셋을 기반으로 특징과 분류기를 개발하였으며, 적은 계산량으로 결과를 출력해야 하는 독립형 디바이스에 활용하기 위해서 특징셋을 간소화하는 과정을 거쳤다. 개발결과는 가정의 거실환경에서 녹음된 소리를 스피커로 출력하여 테스트하였으며, 다양한 음향 상황에 대한 개발이 추가적으로 필요하다.

  • PDF

CNN을 이용한 음성 데이터 성별 및 연령 분류 기술 연구 (A Study on the Gender and Age Classification of Speech Data Using CNN)

  • 박대서;방준일;김화종;고영준
    • 한국정보기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.11-21
    • /
    • 2018
  • 본 논문에서는 사람을 대신하여 분류, 예측 하는 딥러닝 기술을 활용하여 목소리를 통해 남녀노소를 분류하는 연구를 수행한다. 연구과정은 기존 신경망 기반의 사운드 분류 연구를 살펴보고 목소리 분류를 위한 개선된 신경망을 제안한다. 기존 연구에서는 도시 데이터를 이용해 사운드를 분류하는 연구를 진행하였으나, 얕은 신경망으로 인한 성능 저하가 나타났으며 다른 소리 데이터에 대해서도 좋은 성능을 보이지 못했다. 이에 본 논문에서는 목소리 데이터를 전처리하여 특징값을 추출한 뒤 추출된 특징값을 기존 사운드 분류 신경망과 제안하는 신경망에 입력하여 목소리를 분류하고 두 신경망의 분류 성능을 비교 평가한다. 본 논문의 신경망은 망을 더 깊고 넓게 구성함으로써 보다 개선된 딥러닝 학습이 이루어지도록 하였다. 성능 결과로는 기존 연구와 본 연구의 신경망에서 각각 84.8%, 91.4%로 제안하는 신경망에서 약 6% 더 높은 정확도를 보였다.