• Title/Summary/Keyword: 음향적 특징

Search Result 435, Processing Time 0.022 seconds

A Study on Spatio-temporal Features for Korean Vowel Lipreading (한국어 모음 입술독해를 위한 시공간적 특징에 관한 연구)

  • 오현화;김인철;김동수;진성일
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.1
    • /
    • pp.19-26
    • /
    • 2002
  • This paper defines the visual basic speech units, visemes and investigates various visual features of a lip for the effective Korean lipreading. First, we analyzed the visual characteristics of the Korean vowels from the database of the lip image sequences obtained from the multi-speakers, thereby giving a definition of seven Korean vowel visemes. Various spatio-temporal features of a lip are extracted from the feature points located on both inner and outer lip contours of image sequences and their classification performances are evaluated by using a hidden Markov model based classifier for effective lipreading. The experimental results for recognizing the Korean visemes have demonstrated that the feature victor containing the information of inner and outer lip contours can be effectively applied to lipreading and also the direction and magnitude of the movement of a lip feature point over time is quite useful for Korean lipreading.

Performance Improvement of Mean-Teacher Models in Audio Event Detection Using Derivative Features (차분 특징을 이용한 평균-교사 모델의 음향 이벤트 검출 성능 향상)

  • Kwak, Jin-Yeol;Chung, Yong-Joo
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.3
    • /
    • pp.401-406
    • /
    • 2021
  • Recently, mean-teacher models based on convolutional recurrent neural networks are popularly used in audio event detection. The mean-teacher model is an architecture that consists of two parallel CRNNs and it is possible to train them effectively on the weakly-labelled and unlabeled audio data by using the consistency learning metric at the output of the two neural networks. In this study, we tried to improve the performance of the mean-teacher model by using additional derivative features of the log-mel spectrum. In the audio event detection experiments using the training and test data from the Task 4 of the DCASE 2018/2019 Challenges, we could obtain maximally a 8.1% relative decrease in the ER(Error Rate) in the mean-teacher model using proposed derivative features.

청각장애 아동과 건청아동의 이중모음 산출에 대한 음향음성학적 특징 비교

  • 배남주;고도흥
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.244-244
    • /
    • 2003
  • 말소리의 생성 및 전달에서 화자의 청각적 피드백은 말소리 발달에 중요한 부분을 차지한다(고도흥 외, 2000). 그러나 청각장애 아동의 경우, 청각적인 피드백이 부족하여 말소리 발달과 언어발달에서 지체를 보이게 된다. 특히 이러한 말소리 발달은 아동의 말명료도에 큰 영향을 미치게 되고, 국내외 여러 학자들은 청각장애 아동의 말 산출에 대한 연구를 활발하게 하고 있다. 그러나 현재 국내의 연구 중 이중모음에 대한 연구는 거의 없는 실정이다. 국내의 청각장애 성인이나 아동을 대상으로 한 연구들은 대부분 연구자의 지각적이고 주관적인 입장에서 이루어지고 있다. 좀더 객관적인 연구 자료는 임상적인 목적뿐만 아니라 말소리 발달의 연구에서 필요하다. 따라서 이 연구는 청각장애 아동의 이중모음의 특징을 음향음성학적인 방법으로 객관적으로 분석하여 그 자료를 제시하고, 건청 아동과의 비교를 통해 임상적인 자료를 제시하고자 한다. (중략)

  • PDF

Audio signal clustering and separation using a stacked autoencoder (복층 자기부호화기를 이용한 음향 신호 군집화 및 분리)

  • Jang, Gil-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.35 no.4
    • /
    • pp.303-309
    • /
    • 2016
  • This paper proposes a novel approach to the problem of audio signal clustering using a stacked autoencoder. The proposed stacked autoencoder learns an efficient representation for the input signal, enables clustering constituent signals with similar characteristics, and therefore the original sources can be separated based on the clustering results. STFT (Short-Time Fourier Transform) is performed to extract time-frequency spectrum, and rectangular windows at all the possible locations are used as input values to the autoencoder. The outputs at the middle, encoding layer, are used to cluster the rectangular windows and the original sources are separated by the Wiener filters derived from the clustering results. Source separation experiments were carried out in comparison to the conventional NMF (Non-negative Matrix Factorization), and the estimated sources by the proposed method well represent the characteristics of the orignal sources as shown in the time-frequency representation.

An Analysis on the Phoneme Duration Modeling For the Trainable TTS System (Trainable TTS System을 위한 음운 지속시간 모델링)

  • Seo Jiln;Lee Yanghee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.109-112
    • /
    • 2001
  • 본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.

  • PDF

은밀 수중음향통신

  • Kim, Gi-Man
    • Information and Communications Magazine
    • /
    • v.33 no.8
    • /
    • pp.82-88
    • /
    • 2016
  • 본고에서는 은밀 수중음향통신과 관련한 연구동향과 수중 채널 환경의 특징들에 대해 소개한다. 육상 무선통신 환경과 마찬가지로 수중 채널에서도 전달 손실, 다중경로 전달, 도플러 효과 및 잡음이 장애 요인으로 작용하나 물 속의 상황을 정확히 예측하기 어렵고 시간에 따른 변동성이 매우 심하기 때문에 통신 시스템 설계를 어렵게 한다. 이러한 장애 요인들을 극복하면서 은밀 수중음향통신으로써 대표적인 대역확산 기법과 함께 수중 생체 모방형 신호를 사용하는 방법을 소개하고, 실제 국내 해역에서 획득한 데이터를 이용한 결과들을 제시한다.

Study for the Enhancement of Signal Characteristics using Matched Filter Array Processing in the Water-Tank (정합필토배열처리를 이용한 수조내에서의 음원 특징 개선에 관한 연구)

  • Ro Yong-ju;Son Geun-young;Yoon Jong-rak
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.189-192
    • /
    • 1999
  • 수중소음체의 음원 특징을 해석하기 위해서는 배경잡음과 해면$\cdot$해저반사파의 영향이 적은 심해에서 측정하여 분석하여야 한다. 그러나 측정의 어려움으로 인공 수조에서 측정하여 수면과 수조벽에 의해 발생되는 반사파들을 제거하여 신호 고유의 특징을 해석한다 이러한 반사파들의 부가효과를 보상하여 수중소음체의 신호특징을 해석하기 위하여 정합필터배열처리(Matched Filter Array Process : MFAP)기법을 적용하고자 할 때 각 센서에 적용되는 정합필터는 처리시간의 문제로 인해 필터길이를 제한하여 구성되게 된다 정합필터는 수조의 임펄스응답함수의 시역전함수로 정의되는데 필터길이에 따라 수신신호 특징 개선 정도가 좌우된다 본 연구에서는 인공수조에서 부가되는 반사파들의 효과를 보상하여 수신신호 특징 개선을 위해 정합필터배열처리기법을 적용할 때 각 센서의 정합필터의 시간길이가 특징 개선에 미치는 영향을 신호대잡음비(SNR)로 정의하여 분석하였고 수조의 특성에 따른 최적의 정합필터 시간길이를 제안하고자 한다.

  • PDF

An investigation of subband decomposition and feature-dimension reduction for musical genre classification (음악 장르 분류를 위한 부밴드 분해와 특징 차수 축소에 관한 연구)

  • Seo, Jin Soo;Kim, Junghyun;Park, Jihyun
    • The Journal of the Acoustical Society of Korea
    • /
    • v.36 no.2
    • /
    • pp.144-150
    • /
    • 2017
  • Musical genre is indispensible in constructing music information retrieval system, such as music search and classification. In general, the spectral characteristics of a music signal are obtained based on a subband decomposition to represent the relative distribution of the harmonic and the non-harmonic components. In this paper, we investigate the subband decomposition parameters in extracting features, which improves musical genre classification accuracy. In addition, the linear projection methods are studied to reduce the resulting feature dimension. Experiments on the widely used music datasets confirmed that the subband decomposition finer than the widely-adopted octave scale is conducive in improving genre-classification accuracy and showed that the feature-dimension reduction is effective reducing a classifier's computational complexity.

RSF(Royal Sound Field) for the implementation of the various 3-dimensional spatial scene. (다양한 3 차원 공간 구현을 위한 RSF)

  • 라홍운
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.427-431
    • /
    • 1998
  • 스테레오, MIDI, MP3 등등의 신호를 입력으로 하여 음상의 공간감, 거리감, 방향감, 확산감, 위치감 등이 지각을 느끼게 하는 공간적 현장감 시스템을 제안한다. 본 제안은 2채널로 기록된 매체를 2채널 또는 다채널로 표현이 가능하며 영상과 더불어 두 개의 스피커만으로도 입체 음향을 즐길 수 있다. 음악의 경우는 장르에 따라 각각의 특징을 가지고 있다. 그러한 특징은 위치감과 방향감에 의해 음장의 형태를 구현하고 공간감 거리감을 부과하므로 입체 음장 구현을 도모한다. 그리고 확산감을 부과하므로써 실조화 공간 음장을 구현할 수있다. 본 논문은 특정한 음색을 변화하기 위하여 이퀄라이저를 이용할 필요가 없으며, 다양한 음장 형태를 DSP를 이용 알고리즘화 하여 구현하던 것을 본 RSF는 아날로그 방식으로 구현하므로써 노이즈 측면과 PCB 패턴 부분 고려등을 고려하지 않고도 구현할 수 있다.

  • PDF

Performance Evaluation of Telephone Continuous Digit Recognition (전화망 환경에서의 연속숫자음 인식 성능평가)

  • Kim SungTak;Kim SangJin;Jung Hoyoung;Kim Hoirin;Hahn Minsoo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.253-256
    • /
    • 2002
  • 한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.

  • PDF