• 제목/요약/키워드: 3-D Spectrogram

검색결과 19건 처리시간 0.021초

원주 KSRS 자료를 이용한 자연지진과 인공지진 구별에 관한 연구 (Study on Discrimination between Natural Earthquakes and Man-made Explosions using Wonju KSRS Data)

  • 강익범;김성배;서만철;전명순
    • 지구물리
    • /
    • 제3권1호
    • /
    • pp.25-36
    • /
    • 2000
  • 총 22개의 지진발생기록(event)을 이용하여 3-D Spectrogram을 분석한 결과 대체적으로 인공지진의 경우 자연지진과 비교해 볼 때 P파의 에너지가 우세하게 나타난다. 자유표면 효과 보정을 수행한 후 15개 주파수 대역을 사용하여 P (Pn, Pg)/Lg 스펙트럼 비의 상용대수를 계산한 결과 자연지진의 경우 대체로 스펙트림 비의 상용대수가 $-1.2{\sim}-0.9$의 값, 인공지진의 경우는 대체로 $-0.7{\sim}-0.1$의 값을 보여주고 있다. 이는 -0.6의 스펙트럼 비의 상용대수 값이 자연지진과 인공지진을 구별하기 위한 기준이 될 수 있다는 연구 결과(Kim Park, 1997)와도 잘 일치하고 있다. 자연지진과 인공지진으로 추정되는 2개의 지진발생기록에 대해 추가로 Complexity를 계산해 본 결과 인공지진의 Complexity 값이 자연지진의 Complexity 값과 비효해 볼 때 현저히 작은 값을 보여주고 있다. 이는 상대적으로 인공지진의 경우 P파의 발달이 우세하기 때문인 것으로 사료되며 앞에서 계산한 3-D Spectrogram 분석 견과와도 잘 일치하는 것이다.

  • PDF

3D 특징 벡터를 이용한 영아 울음소리 분류 (Classification of infant cries using 3D feature vectors)

  • 박정현;김민서;최혁순;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.597-599
    • /
    • 2022
  • 영아는 울음이라는 비언어적 의사 소통 방식을 사용하여 모든 욕구를 표현한다. 하지만 영아의 울음소리를 파악하는 것에는 어려움이 따른다. 영아의 울음소리를 해석하기 위해 많은 연구가 진행되었다. 이에 본 논문에서는 3D 특징 벡터를 이용한 영아의 울음소리 분류를 제안한다. Donate-a-corpus-cry 데이터 세트는 복통, 트림, 불편, 배고픔, 피곤으로 총 5 개의 클래스로 분류된 데이터를 사용한다. 데이터들은 원래 속도의 90%와 110%로 수정하는 방법인 템포조절을 통해 증강한다. Spectrogram, Mel-Spectrogram, MFCC 로 특징 벡터화를 시켜준 후, 각각의 2 차원 특징벡터를 묶어 3차원 특징벡터로 구성한다. 이후 3 차원 특징 벡터를 ResNet 과 EfficientNet 모델로 학습을 진행한다. 그 결과 2 차원 특징 벡터는 0.89(F1) 3 차원 특징 벡터의 경우 0.98(F1)으로 0.09 의 성능 향상을 보여주었다.

Speech Denoising via Low-Rank and Sparse Matrix Decomposition

  • Huang, Jianjun;Zhang, Xiongwei;Zhang, Yafei;Zou, Xia;Zeng, Li
    • ETRI Journal
    • /
    • 제36권1호
    • /
    • pp.167-170
    • /
    • 2014
  • In this letter, we propose an unsupervised framework for speech noise reduction based on the recent development of low-rank and sparse matrix decomposition. The proposed framework directly separates the speech signal from noisy speech by decomposing the noisy speech spectrogram into three submatrices: the noise structure matrix, the clean speech structure matrix, and the residual noise matrix. Evaluations on the Noisex-92 dataset show that the proposed method achieves a signal-to-distortion ratio approximately 2.48 dB and 3.23 dB higher than that of the robust principal component analysis method and the non-negative matrix factorization method, respectively, when the input SNR is -5 dB.

실시간 음성타자 시스템 구현 (Development of Realtime Phonetic Typewriter)

  • 조우연;최두일
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.727-729
    • /
    • 1999
  • We have developed a realtime phonetic typewriter implemented on IBM PC with sound card based on Windows 95. In this system, analyzing of speech signal, learning of neural network, labeling of output neurons and visualizing of recognition results are performed on realtime. The developing environment for speech processing is established by adding various functions, such as editing, saving, loading of speech data and 3-D or gray level displaying of spectrogram. Recognition experimental using Korean phone had a 71.42% for 13 basic consonant and 90.01% for 7 basic vowel accuracy.

  • PDF

일본어 파열음[k, t]과 파찰음[t s , $t{\int}$ 의 국어 표기상의 문제점 (Some Notational Problems of the translation of Japanese stops[k, t] and affricates[t s ,$t{\int}$] into Korean)

  • 이영희
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.187-192
    • /
    • 2007
  • The purpose of this paper is to show that the current notation of Japanese proper names in Korean has some problems. It cannot represent the different sounds between the voiced and voiceless. The purpose of this paper is also to give a more correct notation which is coherent and efficient. After introducing some general knowledge about the phonemes of Japanese language, I measured the Voice Onset Time of the stops[k, t] at the beginning, in the middle and at the end of a word, and compared the spectrogram of affricates with that of fricatives. In conclusion, Japanese voiceless [k, t ,$t{\int}$] should be written as [ㅋ,ㅌ,ㅊ] and voiced [g, d $d_3$] as [ㄱ,ㄷ,ㅈ] and the affricate[ts] as[ㅊ] in Korean.

  • PDF

천해에서 간섭패턴 정합을 이용한 근거리 음원의 3차원 위치추정 기법연구 (A Study on 3-Dimensional Near-Field Source Localization Using Interference Pattern Matching in Shallow Water Environments)

  • 김세영;천승용;손윤준;김기만
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.318-327
    • /
    • 2009
  • 본 논문에서는 천해환경에서 근거리 광대역 음원의 3차원 위치추정 알고리즘을 제안한다. 음향 도파관 불변 이론에 따라 센서 스펙트로그램에 나타나는 간섭패턴의 기울기는 음원의 거리에 비례한다. 두 개의 센서 스펙트로그램에 나타나는 간섭패턴의 정합을 통해 음원과 두 센서간의 상대적인 거리비를 추정 하였다. 이를 아폴로니오스의 원에 적용하여 두 센서로부터 일정한 거리비를 가지는 음원의 궤적을 나타낸다. 3개의 센서를 이용하면 두 개의 아폴로니오스 원이 음원의 수평거리와 방위를 나타내는 교점을 형성하며 이는 음원의 수심에 대하여 일정하다. 따라서 음원의 깊이는 두 센서로부터 거리차가 일정한 3차원 쌍곡면의 방정식을 적용하여 최종 추정하였다. 제안된 알고리즘의 성능평가를 위하여 음파 전달 모델을 이용한 모의실험을 통해 위치추정 오차를 분석하였다. 모의실험 결과 음원의 거리에 대한 추정오차는 50 m이내, 깊이에 대한 추정오차는 15 m 이내인 것으로 나타났다.

3-D 텐서와 recurrent neural network기반 심층신경망을 활용한 수동소나 다중 채널 신호분리 기술 개발 (Sources separation of passive sonar array signal using recurrent neural network-based deep neural network with 3-D tensor)

  • 이상헌;정동규;유재석
    • 한국음향학회지
    • /
    • 제42권4호
    • /
    • pp.357-363
    • /
    • 2023
  • 다양한 신호가 혼합된 수중 신호로부터 각각의 신호를 분리하는 기술은 오랫동안 연구되어왔지만, 낮은 품질의 수중 신호의 특성 상 쉽게 해결되지 않는 문제이다. 현재 주로 사용되는 방법은 Short-time Fourier transform을 사용하여 수신된 음향신호의 스펙트로그램을 얻은 뒤, 주파수의 특성을 분석하여 신호를 분리하는 기술이다. 하지만 매개변수의 최적화가 까다롭고, 스펙트로그램으로 변환하는 과정에서 위상 정보들이 손실되는 한계점이 지적되었다. 본 연구에서는 이러한 문제를 해결하기 위해 긴 시계열 신호 처리에서 좋은 성능을 보인 Dual-path Recurrent Neural Network을 기반으로, 다중 채널 센서로부터 생성된 입력신호인 3차원 텐서를 처리할 수 있도록 변형된 Tripple-path Recurrent Neural Network을 제안한다. 제안하는 기술은 먼저 다중 채널 입력 신호를 짧은 조각으로 분할하고 조각 내 신호 간, 구성된 조각간, 그리고 채널 신호 간의 각각의 관계를 고려한 3차원 텐서를 생성하여 로컬 및 글로벌 특성을 학습한다. 제안된 기법은, 기존 방법에 비해 개선된 Root Mean Square Error 값과 Scale Invariant Signal to Noise Ratio을 가짐을 확인하였다.

Multiple damage detection of maglev rail joints using time-frequency spectrogram and convolutional neural network

  • Wang, Su-Mei;Jiang, Gao-Feng;Ni, Yi-Qing;Lu, Yang;Lin, Guo-Bin;Pan, Hong-Liang;Xu, Jun-Qi;Hao, Shuo
    • Smart Structures and Systems
    • /
    • 제29권4호
    • /
    • pp.625-640
    • /
    • 2022
  • Maglev rail joints are vital components serving as connections between the adjacent F-type rail sections in maglev guideway. Damage to maglev rail joints such as bolt looseness may result in rough suspension gap fluctuation, failure of suspension control, and even sudden clash between the electromagnets and F-type rail. The condition monitoring of maglev rail joints is therefore highly desirable to maintain safe operation of maglev. In this connection, an online damage detection approach based on three-dimensional (3D) convolutional neural network (CNN) and time-frequency characterization is developed for simultaneous detection of multiple damage of maglev rail joints in this paper. The training and testing data used for condition evaluation of maglev rail joints consist of two months of acceleration recordings, which were acquired in-situ from different rail joints by an integrated online monitoring system during a maglev train running on a test line. Short-time Fourier transform (STFT) method is applied to transform the raw monitoring data into time-frequency spectrograms (TFS). Three CNN architectures, i.e., small-sized CNN (S-CNN), middle-sized CNN (M-CNN), and large-sized CNN (L-CNN), are configured for trial calculation and the M-CNN model with excellent prediction accuracy and high computational efficiency is finally optioned for multiple damage detection of maglev rail joints. Results show that the rail joints in three different conditions (bolt-looseness-caused rail step, misalignment-caused lateral dislocation, and normal condition) are successfully identified by the proposed approach, even when using data collected from rail joints from which no data were used in the CNN training. The capability of the proposed method is further examined by using the data collected after the loosed bolts have been replaced. In addition, by comparison with the results of CNN using frequency spectrum and traditional neural network using TFS, the proposed TFS-CNN framework is proven more accurate and robust for multiple damage detection of maglev rail joints.

남한 중부지역 미소지진들의 응답 스펙트럼 및 시간-주파수 영역에서의 특성에 관한 연구 (A Study of response Spectrums and characteristics of Time-Frequency Domain of Microearthquakes in the Central Part of South Korea)

  • 이전희
    • 한국지진공학회:학술대회논문집
    • /
    • 한국지진공학회 1999년도 추계 학술발표회 논문집 Proceedings of EESK Conference-Fall
    • /
    • pp.72-82
    • /
    • 1999
  • The microearthquake and explosion events recorded in the seismic KNUE(Korea National University of Education) network were analyzed. The seismic data were recorded from Dec. 1997 to Dec. 1998. Total of 118 records consisted of 24 earthquake and 4 explosion events were instrumented at 6 stations. Spectral values increases as magnitude increases and the predominant frequency band expands to low frequency. zone as magnitude increases. Three-dimensional spectrograms(time frequency. amplitude) were also synthesized in order to discriminate microearthquakes and artificial underground explosions. The waves from microearthquakes show that frequency content of dominant amplitude appeared above 10 Hz and the discrimination can be performed in almost all the frequency domain of 3-d spectrogram.

  • PDF

병적인 소리 떨림증과 소리꾼 떨림증의 음향학적인 비교연구 (The comparative Study of the Acoustic Representation between Pansori singer's and Spasmodic dysphonia patient's Voice)

  • 홍기환;김현기;이진국;조재식
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.143-145
    • /
    • 2007
  • Muscle groups that are located in and around the vocal tract can produce audible changes in frequency and/or intensity of the voice. Vocal vibrato is a characteristic feature in the singing of performers trained in the western classical tradition and vibrato is generally considered to result from modulation in frequency amplitude and timbre. Vocal tremor is also characterized by periodic fluctuations in the voice frequency or intensity and vocal tremor is symptom of a neurological disease as Spasmodic dysphonia , Parkinson's disease. Vocal vibrato and Vocal tremor may have many of the same origins and mechanisms in the voice production systems. The purpose of this study is to find acostic character of Korean traditional song Pansori singer's vibrato and Spasmodic dysphonia patient's vocal tremor. twelve Pansori singers and seven Spasmodic dysponia patients participated to this study. Power spectrum and Real time Spectrogram are used to analyze the acoustic characteristics of Pansori singing and Spasmodic dysphonia patient's voice The results are as follows; First, vowel formant differences between Pansori singing and Spasmodic dysphonia patient's voice are higher F1, F3. Second, The vibrato rate show differences between Pansori singing and Spasmodic dysphonia patients;$4^{\sim}6/sec$ and $5{\sim}6/sec$ Vibrato rate of pitch is 5.7 Hz ${\sim}$ 42.4 Hz for Pansori singing , 3.8 Hz ${\sim}$ 27.9 Hz for Spasmodic dysphonia patients ;Vibrato rate of intensity range is 0.07 dB ${\sim}$ 8.26 dB for Pansori singing and 0.07 dB ${\sim}$ 4.81 dB for Spasmodic dysphonia patients

  • PDF