• 제목/요약/키워드: Spectrogram Analysis

검색결과 91건 처리시간 0.024초

웨이블릿 변환을 이용한 잡음제거기 설계 (Design of the Noise Suppressor Using Wavelet Transform)

  • 원호진;김종학;이인성
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.37-46
    • /
    • 2001
  • 본 논문에서는 웨이블릿 변환을 이용한 주변 잡음제거기를 제안하였다. 기존의 고정된 시간-주파수 해상도를 가지는 단구간 푸리에 분석법 대신 다양한 시간-주파수 해상도를 제공하는 웨이블릿 분석법을 사용함으로써 시간 특성이 변하는 베이블 (Babble) 잡음에 좀더 효율적인 잡음제거 방법을 설계하였다. 본 논문에 제안된 웨이블릿 변환 잡음제거기는 스펙트럴 차감법에 기반하여 구성하였으며, 고주파 영역에서 높은 시간 해상도를 갖는 웨이블릿 마스크 패턴을 사용함으로써 시간 특성이 빠르게 변화하는 고주파 잡음에 더욱 효율적인 동작을 하도록 설계하였다. 성능평가를 위해 차량 잡음, 길거리 잡음, 베이블 잡음과 같은 이동통신에서 많이 사용하는 주변잡음에서 시험하였으며, 그 주관적 음질 평가 결과 베이블 잡음의 경우 기존의 EVRC(Enhanced Variable Rate Coder) 잡음 제거기보다 Mos (Mean Opinion Score) 0.2의 성능 개선을 이룰 수 있었다. 출력 음성의 스펙트로그램에서도 성능 개선을 확인할 수 있었다.

  • PDF

Praat소프트웨어 프로그램을 이용한 영어모음 길이에 관한 실험적 연구 (An Experimental Study on the English Vowel Lengths Using the Praat Software Program)

  • 박희석
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권3호
    • /
    • pp.279-290
    • /
    • 2012
  • 본 연구는 Praat 소프트웨어 프로그램을 이용하여 영어이중모음 /eɪ/ 와 /aɪ/, 그리고 영어전설저모음 /æ/의 발음 길이에 관해 한국인 피 실험자와 원어민 피 실험자를 대상으로 그 차이를 비교분석해보고자 한 연구이다. 이 연구를 위해서 영어문장이 발화되고 녹음되었으며, 피 실험자는 한국인과 원어민 각각 6명씩 참가하였으며, 모두 여성이었고 나이는 23세에서 35세에 위치하고 있다. 음향특질중 하나인 길이측정을 위해서 Praat소프트웨어 프로그램을 활용하였으며, 그 결과를 통계 처리하였다. 실험결과 /eɪ/ 와 /aɪ/에서는 한국인들이 더 길게 발음하였지만 그 차이가 통계상 유의미한 수준은 아니었다. 그러나 /æ/의 발음에서는 한국인들의 발음 길이가 원어민에 비해 훨씬 짧았으며, 그 차이도 통계상 유의미한 수준으로 나타났다.

한국에 서식하는 곤박쥐 Rhinolophus ferrumequinum, 집박쥐 Pipistrellus abramus, 큰발윗수염박쥐 Myotis macrodactylus의 반향정위 형태 (General Patterns in Echolocation Call of Greater Horseshoe Bat Rhinolophus ferrumequinum, Japanese Pipistrelle Bat Pipistrellus abramus and Large-Footed Bat Myotis macrodactylus in Korea)

  • 정철운;한상훈;임춘우;김성철;이화진;권용호;김철영;이정일
    • 한국환경과학회지
    • /
    • 제19권1호
    • /
    • pp.61-68
    • /
    • 2010
  • In this study, we analyzed the pulse-duration, pulse-interval and peak-frequency of echolocation call in three species as Rhinolophus ferrumequinum, Pipistrellus abramus, and Myotis macrodactylus. The peak frequency and pulse duration for above mentioned species were 69 kHz, 47 kHz and 49 kHz and $69.39{\pm}8.76\;ms$, $4.95{\pm}0.77\;ms$ and $3.09{\pm}0.48\;ms$ for R. ferrumequinum, P. abramus and M. macrodactylus, respectively. The pulse intervals for R. ferrumequinum, P. abramus and M. macrodactylus were $103.61{\pm}9.05\;ms$, $67.59{\pm}3.47\;ms$ and $66.35{\pm}4.96\;ms$, respectively. The pulse pattern of R. ferrumequinum was setting into a short FM call and linked to long CF call and went through the short FM call again. The pulse pattern of M. macrodactylus was comprised with serial short FM call and the CF call was not checked up in accordance with the spectrogram analysis. The long FM call and short CF call got join together for the P. abramus and the peak frequency was checked up at the pulse ending as CF call.

The f0 distribution of Korean speakers in a spontaneous speech corpus

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.31-37
    • /
    • 2021
  • The fundamental frequency, or f0, is an important acoustic measure in the prosody of human speech. The current study examined the f0 distribution of a corpus of spontaneous speech in order to provide normative data for Korean speakers. The corpus consists of 40 speakers talking freely about their daily activities and their personal views. Praat scripts were created to collect f0 values, and a majority of obvious errors were corrected manually by watching and listening to the f0 contour on a narrow-band spectrogram. Statistical analyses of the f0 distribution were conducted using R. The results showed that the f0 values of all the Korean speakers were right-skewed, with a pointy distribution. The speakers produced spontaneous speech within a frequency range of 274 Hz (from 65 Hz to 339 Hz), excluding statistical outliers. The mode of the total f0 data was 102 Hz. The female f0 range, with a bimodal distribution, appeared wider than that of the male group. Regression analyses based on age and f0 values yielded negligible R-squared values. As the mode of an individual speaker could be predicted from the median, either the median or mode could serve as a good reference for the individual f0 range. Finally, an analysis of the continuous f0 points of intonational phrases revealed that the initial and final segments of the phrases yielded several f0 measurement errors. From these results, we conclude that an examination of a spontaneous speech corpus can provide linguists with useful measures to generalize acoustic properties of f0 variability in a language by an individual or groups. Further studies would be desirable of the use of statistical measures to secure reliable f0 values of individual speakers.

딥러닝을 이용하여 진동 응답 기반 비선형 변환 접근법을 적용한 단일 랩 조인트의 접착 면적 탐지 시스템 (Adhesive Area Detection System of Single-Lap Joint Using Vibration-Response-Based Nonlinear Transformation Approach for Deep Learning)

  • 김민제;김동윤;윤길호
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.57-65
    • /
    • 2023
  • 본 연구는 딥러닝을 위한 비선형 변환 접근법을 사용하여 Single-lap joint의 접착 영역을 조사하기 위한 진동 응답 기반 탐지 시스템을 제시한다. 산업 혹은 공학 분야에서 분해가 쉽지 않은 구조 내에 보이지 않는 부분의 상태와 접착된 구조의 접착 부위 상태를 알기 어려운 문제가 있다. 이러한 문제를 해결하기 위해 본 연구는 비선형 변환을 이용하여 기준 시편의 진동 응답으로 다양한 시편의 접착 면적을 조사하는 탐지 방법을 제안한다. 이 연구에서는 CNN 기반 딥러닝으로 진동 특성을 파악하기 위해 비선형 변환을 적용한 주파수 응답 함수를 사용했고 분류를 위해 가상의 스펙트로그램을 사용했다. 또한, 제시된 방법을 검증하기 위해 알루미늄, 탄소섬유복합재 그리고 초고분자량 폴리에틸렌 시편에 대한 진동 실험, 분석적 해, 유한요소해석을 수행했다.

3-D 텐서와 recurrent neural network기반 심층신경망을 활용한 수동소나 다중 채널 신호분리 기술 개발 (Sources separation of passive sonar array signal using recurrent neural network-based deep neural network with 3-D tensor)

  • 이상헌;정동규;유재석
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.357-363
    • /
    • 2023
  • 다양한 신호가 혼합된 수중 신호로부터 각각의 신호를 분리하는 기술은 오랫동안 연구되어왔지만, 낮은 품질의 수중 신호의 특성 상 쉽게 해결되지 않는 문제이다. 현재 주로 사용되는 방법은 Short-time Fourier transform을 사용하여 수신된 음향신호의 스펙트로그램을 얻은 뒤, 주파수의 특성을 분석하여 신호를 분리하는 기술이다. 하지만 매개변수의 최적화가 까다롭고, 스펙트로그램으로 변환하는 과정에서 위상 정보들이 손실되는 한계점이 지적되었다. 본 연구에서는 이러한 문제를 해결하기 위해 긴 시계열 신호 처리에서 좋은 성능을 보인 Dual-path Recurrent Neural Network을 기반으로, 다중 채널 센서로부터 생성된 입력신호인 3차원 텐서를 처리할 수 있도록 변형된 Tripple-path Recurrent Neural Network을 제안한다. 제안하는 기술은 먼저 다중 채널 입력 신호를 짧은 조각으로 분할하고 조각 내 신호 간, 구성된 조각간, 그리고 채널 신호 간의 각각의 관계를 고려한 3차원 텐서를 생성하여 로컬 및 글로벌 특성을 학습한다. 제안된 기법은, 기존 방법에 비해 개선된 Root Mean Square Error 값과 Scale Invariant Signal to Noise Ratio을 가짐을 확인하였다.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

Praat을 활용한 영어발음특성의 시각적 연구 (A Visual Study of the Quality of English Pronunciation Using the Praat Program)

  • 박희석
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권3호
    • /
    • pp.323-331
    • /
    • 2013
  • Praat프로그램을 활용하면 시각적인 영어교육효과를 얻을 수 있다. 시청각교육이 중시되는 영어교육의 방법론에 비추어볼 때 시각적인 연구의 활용은 교육의 효율성 측면에서 기대되는바가 크다고 할 수 있다. 이러한 점에 착안하여 본 연구에서는 현재 고등학교에 재학 중인 학생들 중 영어성적이 1,2등급에 해당되는 학생과 5,6등급에 해당되는 학생들을 두 그룹으로 나누어 각각의 그룹이 원어민의 발음과 어떤 차이를 보이는지를 알아보고, 그 차이가 어떻게 다른지를 시각적인 면으로 규명해보고자 시도하였다. 이를 위해 원어민이 녹음한 CD가 내장되어있는 영어발음교재를 실험자료로 활용하였다. 구체적으로 영어발음에서 외국인어투를 보일 가능성이 있는 영어저모음과 이중모음이 들어있는 단어와 문장을 대상으로 하였으며, 단어와 문장들은 캠브리지대학교 출판국에서 출간된 English Pronunciation in Use의 교재내용 중의 일부를 활용하였다. 실험을 통해 나타난 결과를 보면 한국인 피 실험자의 두 집단 간에 공히 모음이나 단어단위에선 집단 간, 그리고 원어민의 녹음자료와의 사이에서도 유의미한 차이가 나타나지 않았다. 그러나 다섯 단어 이상으로 구성된 상대적으로 긴 문장단위의 실험에서는 5,6등급 집단의 발음이 유의미하게 크게 나타났다. 이러한 결과는 한국인 피 실험자들의 억양구현실패에서 기인한 것으로 보여지며, 이러한 분석은 Praat프로그램에서 제공한 시각적인 자료에 의해 뒷받침되고 있다.

케이지 내 사육 공간의 차이에 따른 산란계의 음성 특성 (Characteristics of Vocalizations of Laying Hen Related with Space in Battery Cage)

  • 손승훈;신지혜;김민진;강정훈;임신재;백인기
    • Journal of Animal Science and Technology
    • /
    • 제51권5호
    • /
    • pp.421-426
    • /
    • 2009
  • 본 연구는 산란계의 사육공간의 크기별 발성음의 특성을 파악하기 위해 하이라인브라운(Hy-Line Brown) 80주령의 산란계를 대상으로 2008년 10월부터 2009년 2월까지의 기간 동안 발성음을 수집 및 녹음하였다. 산란계의 사육 케이지는 무항생제 축산물 사육밀도조건을 만족하는 0.0231 $m^3$ (0.3m ${\times}$ 0.14m ${\times}$ 0.55m)을 개체당 사육공간의 기준(control)으로 하고, 좁은 공간(small, 0.21m ${\times}$ 0.14m ${\times}$ 0.55m)과 넓은 공간(large, 0.3m ${\times}$ 0.3m ${\times}$ 0.55m) 등의 3가지 유형으로 구분하였다. 하루 3회, 각각 1시간씩 디지털 녹음기(PMD-650, Marantz)와 마이크(MKH 416P48, RF Condenser Mic.)를 이용하여 발성음을 녹음하여 분석을 실시하였다. 발성음의 스펙트로그램을 비교한 결과 케이지의 크기별로 차이가 있는 것으로 나타났으며, 스펙트럼을 비교한 결과 역시 차이가 있었다. 또한 발성음의 주파수, 강도 및 길이 역시 통계적으로 유의한 차이를 나타내었다. 본 연구를 통해 산란계의 사육공간과 발성음 사이에는 깊은 관련이 있었으며, 사육공간에 의한 스트레스의 정도를 파악하기 위해 발성음은 매우 유용할 것으로 판단된다.