Proceedings of the Acoustical Society of Korea Conference (한국음향학회:학술대회논문집)
The Acoustical Society of Korea
- Semi Annual
Domain
- Physics > Interdisciplinary Physics
spring
-
We propose a new algorithm for blind source separation (BSS), in which frequency-domain independent component analysis (FDICA) and time-domain ICA (TDICA) are combined to achieve a superior source-separation performance under reverberant conditions. Generally speaking, conventional TDICA fails to separate source signals under heavily reverberant conditions because of the low convergence in the iterative learning of the inverse of the mixing system. On the other hand, the separation performance of conventional FDICA also degrades significantly because the independence assumption of narrow-band signals collapses when the number of subbands increases. In the proposed method, the separated signals of FDICA are regarded as the input signals for TDICA, and we can remove the residual crosstalk components of FDICA by using TDICA. The experimental results obtained under the reverberant condition reveal that the separation performance of the proposed method is superior to that of conventional ICA-based BSS methods.
-
Prosodic features of speech are known to play an important role in the transmission of linguistic information in human conversation. Their roles in the transmission of para- and non- linguistic information are even much more. In spite of their importance in human conversation, from engineering viewpoint, research focuses are mainly placed on segmental features, and not so much on prosodic features. With the aim of promoting research works on prosody, a research project 'Prosody and Speech Processing' is now going on. A rough sketch of the project is first given in the paper. Then, the paper introduces several prosody-related research works, which are going on in our laboratory. They include, corpus-based fundamental frequency contour generation, speech rate control for dialogue-like speech synthesis, analysis of prosodic features of emotional speech, reply speech generation in spoken dialogue systems, and language modeling with prosodic boundaries.
-
본 논문은 ETRI 음성정보연구센터에서 추진하고 있는 공통음성 DB 구축에 관하여 기술한다. 총 3 년(2001 11-2004. 10) 동안 음성인식, 음성합성, 화자인식 등 다양한 용도의 음성 DB 를 수집할 예정이며, 1년차인 2002 년에는 총 14 종의 음성 DB 를 수집할 계획이다. 공통 음성 DB 는 다양한 통신망(마이크, 헤드셋, VoIP, 유무선 전화망), 지역, 성별, 발성환경(사무실, 지하철, 도로 등)을 고려하여 설계하였으며, 발성대상은 숫자, 단어, 문장이고, 발성방법은 자유발화, 대화체, 낭독체 등 다양한 스타일의 음성 DB 로 구성되어 있다. 이에 본 논문에서는 총 14 종에 해당하는 공통음성 DB 의 구축내역과 구축방안 및 DB 구축 일정에 관해 기술하고자 한다.
-
Voice activity detection is important Problem in the speech recognition and communication. This paper introduces feature parameter which is reconstructed by the spectral entropy of information theory for the robust voice activity detection in the noise environment, analyzes and compares it with the energy method of voice activity detection and performance. In experiment, we confirmed that the spectral entropy is more feature parameter than the energy method for the robust voice activity detection in the various noise environment.
-
본 논문에서는 ETRI 의 음성정보연구센터에서 추진하고 있는 공통 음성 DB 구축을 위한 발성목록의 설계 방법 및 그 내용에 대해 기술한다. 이 공통 음성 DB는 국내의 학계와 연구기관, 산업체에 배포하여 음성기술개발에 활용될 수 있도록 하려는 목적으로 구축되는 대규모의 DB인 만큼, 다양한 활용 분야를 고려하여 설계되었다. 따라서 내용적으로 중립성을 유지하면서도 효율성과 기능성을 고려하여 설계한 것이 이번 발성목록 설계의 특징이라고 할 수 있다. 이번 발성목록은 크게 음성 인식용 DB 와 낭독체 합성용 DB, 대화체 합성용 DB, 그리고 화자 인식용 DB 분야로 나뉘어진다. 이 논문에서는 각 DB 종류별로 발성 목록의 내용과 작성 방법, 그리고 이들을 작성함에 있어서 고려된 사항 등을 기술한다.
-
We implemented a robust Korean broadcast news transcription system for out-of-vocabulary (OOV), tested its performance. The occurrence of OOV words in the input speech is inevitable in large vocabulary continuous speech recognition (LVCSR). The known vocabulary will never be complete due to the existence of for instance neologisms, proper names, and compounds in some languages. The fixed vocabulary and language model of LVCSR system directly face with these OOV words. Therefore our Broadcast news recognition system has an offline OOV update module of language model and vocabulary to solve OOV problem and selects morpheme-based recognition unit (so called, pseudo-morpheme) for OOV robustness.
-
최근 음성 인식 시스템의 성능 향상을 위해 화자 적응(speaker adaptation)에 대한 연구가 활발히 진행되고 있다. HMM 기반 인식 시스템의 모델 파라미터를 수정하는 화자 적응의 경우, MAP 방법과 MLLR 방법에 대한 연구가 주류를 이루고 있다. 두 방법은 adaptation data의 양에 따라서 서로 다른 성능을 보인다. 본 논문에서는 adaptation data의 quality를 정의하고, 이를 기존 두 방법의 가중치로 이용하여 화자 적응을 수행하는 방법을 제안한다. 제안한 방법을 KAIST 통신연구실에서 구축한 한국어 도시이름 500단어 인식 시스템에 적용하여 성능을 개선하였다.
-
Blind source separation (BSS) is a fundamental problem that is encountered in many practical applications. In most existing methods, stationary sources are considered higher-order statistics is necessary either explicitly or implicitly. But, many natural signals are nonstationary, and it is possible to perform BSS using only second-order statistics. Our method is based on only second order statistics. The algorithms are developed using the gradient descent method in orthogonality constraint and their performance is confirmed by numerical experiments.
-
본 논문에서는 한국어 음성 합성기 데이터베이스 구축을 위하여 HMM을 이용하여 자동으로 음소경계를 추출하고, 음성 파라미터를 이용하여 그 결과를 보정하는 반자동 음성분할 시스템을 구현하였다. 개발된 시스템은 16KHz로 샘플링된 음성을 대상으로 삼았고, 레이블링 단위인 음소는 39개를 선정하였고, 음운현상을 고려한 확장 모노폰도 선정하였다. 그리고 언어학적 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴 매칭 방법으로는 HMM을 이용하였다. 유성음/무성음/묵음 구간 분류에는 ZCR, Log Energy, 주파수 대역별 에너지 분포 등의 파라미터를 사용하였다. 개발된 시스템의 훈련된 음성은 정치, 경제, 사회, 문화, 날씨 등의 코퍼스를 사용하였으며, 성능평가를 위해 훈련에 사용되지 않은 문장 데이터베이스에 대해서 자동 음성 분할 실험을 수행하였다. 실험 결과, 수작업에 의해서 분할된 음소경계 위치와의 오차가 10ms 이내가
$87\%$ , 30ms 이내가$91\%$ 가 포함되었다. -
최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 따라서 이러한 연구에 사용될 음성 코퍼스에 관한 요구와 관심이 높아지고 있다. 본 논문에서는 음성정보기술산업지원센터(SITEC)에서 구축중인 음성 코퍼스의 현황과 향후 계획에 관하여 보고한다. 방음실환경에서의 인식 및 합성 연구용 코퍼스, 아동용 음성 코퍼스, Dictation용 음성 코퍼스, 자동차내 소음 및 음성 코퍼스 등의 구축 내용이 소개된다.
-
본 논문은 2채널 스피커를 사용하여 청취자에게 보다 입체적인 음향 효과를 제시하기 위하여 크로스토크현상을 제거하고 청취자의 보다 자유로운 청취를 위해 최적 청취영역 확대를 위한 실험과 시스템 구현에 관한 것이다. 정면에 위치한 두 스피커로부터 교차경로인 크로스토크를 제거하기 위해 음질의 왜곡을 최소화하는 자유음장 모델을 이용하여 구현한 트랜스오럴 필터 사용하였고 최적 청취영역의 확대를 위해 스피커는 BPF(Band Pass Filter)를 이용하여 저주파와 고주파를 분리하여 각각 재생할 수 있는 스피커를 구성하였으며 저주파 영역은 제외하고 중고주파 영역을 이용하였으며 기존 크로스토크제거 시스템을 사용하여 고정된 한 점의 청취영역에서 좌
${\cdot}$ 우로 5Cm씩 이동하au 100Cm까지 측정한 결과 30Cm, 55Cm, 75Cm, 90Cm, 100Cm에서 크로스토크제거됨을 알 수 있는 음의 분리도가 5dB이상 나타났다. 실험 결과 얻어진 각 지점들로부터 자유음장 모델을 이용하여 트랜스오럴 필터링 하였으며 각각의 간섭현상을 막기 위해 주파수 영역에서 심리음향에 기초한 1/3-Octave Band Pass Filter를 사용하여 음질 보상을 실시하였다. 음원을 제작하여 기존의 2채널 시스템에서 제시하는 음원을 각각의 위치의 음원과 비교하여 음질 평가를 실시하였으며 기존의 트랜스오럴 필터와 비교평가를 실시하였다. -
본 논문에서는 현재 ETRI에서 개발 중인 유/무선 전화망을 통한 다국어간 대화체 음성번역서비스 시스템에 대해서 소개한다. 전화망을 통한 자동음성번역서비스 시스템은 여행대화영역을 서비스 대상영역으로 하고 있고 자동음성번역서비스를 필요로 하는 사용자들은 동일한 장소에서 대면하고 있으며 서로 다른 언어를 사용하기 때문에 서로 의사 소통에 어려움을 겪고 있다고 가정한다. 따라서 여기서 말하는 자동음성번역 시스템의 특징은 인간과 기계간의 인터페이스를 그 대상으로 하는 것이 아니라 인간과 인간사이의 인터페이스를 그 대상으로 하고 있다는 정이다. 인간과 인간사이의 인터페이스 상황에서는 인간의 이해력이 시스템 오류를 정정할 수 있는 여지를 지니고 있다. 따라서 시스템이 사용자의 말하는 의도 혹은 개념만 잘 전달할 수 있다면 서로 다른 언어를 사용하는 사용자들 사이에서도 이러한 시스템을 통한 의사소통이 가능하다. 자동음성번역서비스 시스템은 크게 음성인식모듈 문장해석 및 번역 모듈, 음성합성모듈, 시스템통합 모듈 그리고 전화망 인터페이스 모듈로 나뉜다. 여기서는 자동음성번역 서비스 시스템의 각 모듈들의 주요 특징과 상호 인터페이스 방법에 대해서 소개한다.
-
본 논문에서는 Left-Right HMM 모델에 기초를 둔 음질 향상 방법을 제안하였다. 기존 HMM에 기초를 둔 음질 향상 방법은 ergodic HMM에 기초를 두고 음질을 향상시켰다. 본 논문에서는 Left-Right HMM이 현재 상태에서 다음상태로만 변하는 성질을 이용하여 현재의 상태를 결정하여 다음 프레임에서 현재와 다음 상태에서만 계산을 하는 방법을 사용하였다. 그 결과 기존의 방법에 비해 많은 시간을 줄일 수 있었다.
-
현재 음성인식기는 다 채널의 음성입력방식을 사용하고 있는 추세이다. 이런 방법으로 음성인식기를 사용할 때에 자동적으로 음성을 검출하는 음성입력 방식은 발성자와 마이크간의 거리에 따라 Glottal Spectrum 성분이 변하는 특성을 가지고 있다. 이러한 Glottal Spectrum 성분은 a=R1/R0 (LPC 포락선의 기울기) 로 나타낼 수 있다. 본 논문에서는 발성자와 마이크 거리에 따른 Glottal Spectrum 성분을 비교 분석 하고자 한다.
-
본 논문에서 화자공간모델 evolution에 기반한 continuous density hidden Markov model (CDHMM)의 online 적응에 대한 새로운 기법을 제안한다. 학습화자의 a priori knowledge을 나타내는 화자공간모델은 factor analysis (FA) 또는 probabilistic principal component analysis (PPCA)와 같은 은닉변수모델(latent variable model)에 의해 효과적으로 나타내어진다. 은닉 변수모델은 화자공간모델뿐아니라 CDHMM 파라메터의 ajoint prior분포를 표시함으로, maximum a posteriori(MAP)적응기법에 직접 적용되어진다. 화자공간모델의 hyperparameters와 CDHMM파라메터를 동시에 순차적으로 적응하기 위해 quasi-Bayes (QB)추정 기술에 기반한 online 적응기법을 제안한다. 연속숫자음 인식과 관련된 화자적응 실험을 통해 제안된 기법은 적은 적응데이터에서 좋은 성능을 나타내며, 데이터가 증가함에 따라 성능이 지속적으로 증가함을 보여준다.
-
본 논문에서는 8kbps의 전송율을 가진 ITU G.729 보코더와 PSOLA(Pitch Synchronized Overlap -Add) 알고리즘을 적용하여 전송율을 6kbps와 4kbp까지 낮출 수 있는 가변 전송율 보코더를 구현하였다. 제안한 방법은 4kbps일 경우에 G.729의 부호화전에 PSOLA를 적용하여 피치의 주기를 반으로 줄여 부호화한다. 이렇게 부호화된 데이터는 G.729의 복호화를 거치고 다시 PSOLA를 통해 음성의 피치 주기를 2배로 늘려주어 원음성을 합성하게된다. 기존의 Bkbp의 전송율을 갖는 G.729는 음성의 크기가 반으로 줄어 부호화되므로 전송율이 4kpb로 줄어들게 된다. 실험의 평가는 MOS 테스트를 통해 수행되었으며 4kbp에서 MOS값이 3.37정도로 측정되었다. 또한 처리해야할 음성의 길이가 줄어들게 되므로 계산시간도 줄어들게 된다.
-
운율은 음성의 초분절적인 면에 연관하는 음성의 한 성으로서 통상적으로 화자는 음성을 달하는 과정에서 청자의 이해를 돕기 위해 운율을 사용하게 된다. 본 논문은 이러한 운율을 이루는 성분 중의 하나인 운율구의 위치 예측에 대한 성능을 향상시키는 것에 그 목적을 둔다. 한국어 운율 정보에 대한 표기 방법 중의 하나인 K-ToBI를 기반으로 하여, 운율구의 경계와 그에 대한 레벨을 Break Indices 정보로서 나타내었고, 통계학 분야에서 제안된 Support Vector Machine(SVM)을 이용하여 시스템의 예측률 향상을 꾀하였다. 기존의 방법에서 사용된 트리 기반 모델을 이용하여 한국어 운율에 가장 많은 영향을 끼치는 언어 정보들을 추출하였고 이를 실험에 적용하였다. 기존의 트리 모델과 SVM 모델에 대한 예측률을 비교한 결과, 경계 유무 정보 예측과 4단계의 레벨을 가지는 경계 정보의 예측에서 모두 본 방법이 보다 높은 예측률을 보여 주어 본 연구에서 제시한 접근법이 운율구의 경계 정보를 예측하는 데에 있어 더욱 효과적인 접근법임을 실험적으로 입증하였다.
-
훈련과정과 인식과정에서의 주변환경 잡음과 채널 특성 등의 불일치는 음성인식 성능을 급격히 저하시킨다. 이러한 불일치를 보상하기 위해서 켑스트럼 영역에서의 다양한 전처리 방법이 시도되고 있으며 최근에는 stereo 데이터와 잡음 음성의 Gaussian Mixture Model (GMM)을 이용해 보상벡터를 구하는 SPLICE 방법이 좋은 결과를 보이고 있다(1). 기존의 SPLICE가 전체 발성에 대해서 음향학적인 정보만으로 Gaussian 모델을 구하는 반면 본 논문에서는 발성에 해당하는 음소정보를 고려하여 전체 음향 공간을 각 음소에 대해 나누어서 모델링하고 각 음소에 대한 Gaussian 모델과 그 음소에 해당하는 음성데이터만을 이용하여 음소별 보상벡터가 훈련되도록 하였다. 이 경우 보상벡터는 잡음이 각 음소에 미치는 영향을 보다 자세히 나타내게 된다. Aurora 2 데이터베이스를 이용한 실험결과, 제안된 방법이 기존의 SPLICE방법에 비해 성능향상을 보였다.
-
This paper analyzes statistically the relationship between size and balance of text corpus by evaluation of the effect of interview sentences in language model for Korean broadcast news transcription system. Our Korean broadcast news transcription system's ultimate purpose is to recognize not interview speech, but the anchor's and reporter's speech in broadcast news show. But the gathered text corpus for constructing language model consists of interview sentences a portion of the whole,
$15\%$ approximately. The characteristic of interview sentence is different from the anchor's and the reporter's in one thing or another. Therefore it disturbs the anchor and reporter oriented language modeling. In this paper, we evaluate the effect of interview sentences in language model for Korean broadcast news transcription system and analyze statistically the relationship between size and balance of text corpus by making an experiment as the same procedure according to varying the size of corpus. -
음성인식 시스템의 실용화를 위해서 우선적으로 해결되어야 될 문제중 하나로 잡음환경하에서의 끝점검출을 들 수 있다. 잡음이 존재하지 않는 환경에서는 기존의 에너지 파라미터만으로도 어느정도 신뢰성있는 끝점 구간을 검출할 수 있으나 도심 소음과 같은 실제 잡음환경하에서는 대부분 좋지 않은 결과를 보인다. 본 논문에서는 도심환경의 배경잡음을 제거하는 방법으로 입력되는 음성에 대하여 주변소음에 의해 손상된 음성스펙트럼의 크기 성분만을 제거하는 전처리 기법인 Bark scale에 기반한 스펙트럼 차감법을 사용하고, 인간의 청각특성을 고려하여 음성의 주파수 대역을 3개의 대역으로 분리한 후, 대역별로 세밀한 에너지 문턱치값을 설정하여 음성의 끝점을 탐색하는 방법을 제안한다. 제안한 방법의 유효성을 확인하기 위해 실제 사무실 및 지하철역 등의 잡음환경하에서 녹음된 데이터베이스를 이용하여 끝점검출을 수행한 결과 기존의 에너지와 영교차율을 이용한 방법에 비해 평균
$46\%$ 의 오차율 감소와 대역에너지만을 사용한 경우에 비해 평균$17\%$ 의 오차율 감소를 나타내어 제안한 방법의 유효성을 확인할 수 있었다. -
문자인식 또는 음성인식을 위해 사용되어지는 CHMM(Continuous Hidden Markov Model)모델은 일반적으로 모델의 상태수를 일정한 수로 고정하는 고정 상태수 모델 구조를 가지고 있으나, 이는 개별적인 인식 단위의 특성을 고려하지 않은 경우로써 이를 고려한 가변 상태수 모델을 사용할 경우 인식률 향상을 기대할 수 있다. 개별적인 인식 단위에 적합한 모델 상태수를 결정하는 방법으로 파라미터 히스토그램 방법과, BIC(Bayesian Information Criterion)방법을 사용하는 것이 대표적이다. 이들 방법들은 개별적인 인식단위의 우도값만을 향상시키기 위한 방법으로 전체인식률과 직접적으로 비례하지는 않는다. 따라서, 본 논문에서는 고정 상태수를 갖는 모델 적용 방법과 인식단위별 상태수 변화에 따른 인식률을 비교하였으며, 이를 바탕으로 각 모델별 상태수를 달리하는 가변 상태수 CHMM모델 구성 방법을 제안한다. 제안된 가변상태수 모델의 유효성을 확인하기 위해 음성/문자 공용인식기 중 필기체 문자 인식에 적용한 결과 제안한 LM(Local Maximum)으로 구성된 가변 상태수 모델이 MLE와 BIC로 구성된 모델과 인식률 면에서는 거의 동일한 성능을 유지하면서 전체 상태수는 MLE 모델에 비해
$31\%$ , BIC로 구성된 모델에 비해$22\%$ 감소를 나타내어 제안한 모델의 유효성을 확인할 수 있었다. -
본 논문에서는 한국어 대어휘 연속음성 인식 시스템의 성능향상을 위하여 Multi-Pass 탐색 방법을 도입하고, 그 유효성을 확인하고자 한다. 연속음성 인식실험을 위하여, 최근 실험용으로 널리 사용되고 있는 HTK와 Multi-Pass 탐색 방법을 이용한 음성인식 시스템의 비교 실험을 수행한다. 대어휘 연속음성 인식 시스템에 사용한 언어 모델은 ARPA 표준 형식의 단어 N-gram 언어모델로, 1-pass에서는 2-gram 언어모델을, 2-pass 에서는 역방향 3-gram 언어모델을 이용하여 Multi-Pass 탐색 방법으로 인식을 수행한다. 본 논문에서는 Multi-Pass 탐색 방법을 한국어 연속음성인식에 적합하게 구성한 후, 다양한 한국어 음성 데이터 베이스를 이용하여 인식실험을 수행하였다. 그 결과, 전화망을 통하여 수집된 잡음이 포함된 증권거래용 연속음성 데이터 베이스를 이용한 연속음성 인식실험에서 HTK가
$59.50\%$ , Multi-Pass 탐색 방법을 이용한 시스템은$73.31\%$ 의 인식성능을 나타내어 HTK를 이용한 연속음성 인식률 보다 약$13\%$ 의 인식률 향상을 나타내었다. -
본 논문에서는 입력음성신호로부터 음소간의 경계를 찾는 문제를 풀기위해 재귀적인 방식으로 EM 알고리즘을 적용한다. 즉, 예상되는 두 끝점 사이의 부분을 현재의 프레임 n 이라고 하면, 그 전 프레임 n-1 에서 구해진 끝점이 주는 정보와 그 끝점으로부터 이어지는 음성샘플로부터 현재 프레임의 끝점을 구한다. 또한 현재의 프레임 n 에서 끝점을 추정해 내면, 그 추정한 끝점과 그 점 이후에 이어지는 음성샘플값으로부터 다음 프레임 n+1 의 끝점을 구한다. 이러한 방식을 재귀적인 음소분리 방식이라고 한다. 그리고, 각 프레임에서 끝점을 구하기 위해서는 끝점의 좌표를 추정해야 할 파라메터로 하고, 그 주변의 음성샘플 값을 관찰 값으로 하여 EM(Expectation and Maximization) 알고리즘을 이용한다. 이 EM 알고리즘을 이용한 재귀적인 음소분리 방식을 실제 음성 DB 로부터 음소쌍을 추출하여 테스트 했을 때 약 5 회의 EM 반복 후에 경계간으로 수렴함을 볼 수 있었다.
-
현재까지 개발된 화자식별 시스템 중 가중모델순위(Weighting Model Rank; WMR)방법을 이용한 화자인식 시스템이 비교적 높은 인식성능을 나타내고 있다. WMR 방법은 각 화자에 대한 프레임 유사도의 순위에 따라 지수함수 가중치로 대치시키는 방법을 사용하고 있으나, 이 방법은 유사도 본래의 변별력이 전체 계산에서 고려되지 않는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 각 화자의 프레임 유사도와 지수함수를 이용한 가중치를 곱한 값을 이용하여 전체 스코어를 계산하도록 하는 수정된 가중모델 순위방법(Modified Weighting Model Rank; MWMR)을 제안한다. 제안한 방법의 유효성을 확인하기 위하여 316명의 화자를 대상으로 하여 인식실험을 실시한 결과, 학습 프레임이 10,000일 경우, MWMR 방법에서
$98.1\%$ 의 화자 인식률을 얻어 WMR 방법에 비해 약$2.0\%$ 의 향상된 인식결과를 보여 제안한 방법의 유효성을 확인할 수 있었다. -
음성인식에서 발화검증은 비인식대상어휘(OOV)를 기각시키고, 인식대상어휘라도 오인식 가능성이 높은 결과를 기각시키는 기술을 말한다. 본 논문에서는 혼동가능성 높은 숫자쌍들이 존재하는 한국어 연결 숫자 인식에서 발화검증 결과로 숫자열 기각시 오인식 가능성이 높은 숫자열을 그냥 기각시키는 대신에 대체오류를 수정하여 인식성능을 향상시키고자 하였다. N-best decoding 결과에 따르면
$2^{nd}\;best$ 나$3^{rd}\;best$ 안에 대부분의 제대로 된 인식결과들이 포함된다. 따라서, N-best decoding을 이용해, 숫자열 기각시$2^{nd}\;best$ 숫자열로 대체된 것이라고 가정한 후, 개별숫자 log likelihood ratio(LLR)과 N-best 기반의 숫자열 LLR[3] 등을 함께 고려한 신뢰도 측정방식에 의해 그 가정이 맞다고 판단이 되면$2^{nd}\;best$ 의 숫자열과 대체함으로써 부분적으로 오류를 수정하였다. -
화자인식에 사용하는 파라미터는 화자의 특징을 충분히 표현함과 더불어 발성 시마다 변동이 작은 것이 바람직하다. 즉, 파라미터의 화자내의 변이보다 화자간의 변이가 큰 특성을 가져야 화자간의 구분이 용이하다. 또한, 화자간 오류를 최소화하기 위해 화자간 구별이 뚜렷한 특징 파라미터뿐만 아니라 분별력이 뛰어난 인식방법도 필요하다. 최근의 실험결과들을 살펴보면 발성기관에 의한 정적인 특징뿐 아니라, 발성습관에 의한 동적인 특징을 같이 이용함으로써 보다 정확한 인식결과를 얻고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 다음과 같이 제안한다. 음성의 특징벡터로 운율정보 사용을 제안한다 현재 화자인식 시스템에서 일반적으로 많이 사용되고 있는 특징벡터는 스펙트럼 정보를 모델링하고 있는 것으로 비잡음 환경에서 종은 성능을 보이고 있다. 그러나 잡음 환경변화에 크게 왜곡되며 인식율이 현저하게 저하되는 문제점이 나타난다. 그러므로 본 논문에서는 음성의 동적 변화를 측정할 수 있는 세그먼트로 분할한 피치열을 변경하여 인식의 특징패턴으로 사용한다. 이는 문장의 운율정보를 보여주는 것으로 소음환경에서 강인한 특성을 보였다.
-
음악을 함에 있어서 정확하고 매력적인 발성을 하는 것도 중요하지만 더욱 기본적이고 중요한 것이 정확한 발음을 내는 것이다. 정확한 발음이 해결되지 않은 상태에서는 아무리 발성법을 꿰뚫고 있다하더라도 많은 사람들에게 자신이 전달하고자 하는 메시지를 제대로 전달하지 못하게 된다. 보통 노래를 잘 부르기 위해서 노래방 같은 곳을 찾아가 노래 연습을 하는 사람들이 많이 있는데, 무엇보다 기본적인 발음이 명확하지 않으면 노래를 잘 부른다고 볼 수는 없는 것이다. 랩을 주로 하는 신세대 가수들의 음악을 들어 보면 자막을 보지 않고서는 무슨 말인지 알아들을 수가 없다. 그들이 노래할 때 입 크기의 변화 없이 입술모양만 변화시키면서 발성하기 때문이다. 음성은 기본적으로 여기성분과 성도성분으로 구분할 수 있다. 성도는 인두강과 구강을 합쳐서 일컫는다. 따라서 입 모양을 어떻게 하느냐에 따라서 같은 말이라도 명료성이 달라지게 된다. 본 논문에서는 이 소리지속시간을 비교 평가하기 위해서 기존가수와 신세대 가수의 한 음절에 대한 지속시간을 비교하여 보았고 8Khz까지의 스펙트로그램을 비교하였다. 비교결과 기존 가수가 신세대 가수에 비하여 말의 의사 전달에 있어서 명료하게 전달 할 수 있다는 것을 알 수 있었다.
-
본 논문에서는 실시간으로 운율을 제어 할 수 있는 방법의 하나인 지속시간 변경을 주파수 영역에서 변경하는 방법을 사용하였다. 또한 프레임처리에서 윈도우의 영향으로 스펙트럼 왜곡 및 음질 저하를 방지하기 위하여 보상된 윈도우를 적용하였다. 만약 운율조절에 있어서 지속시간을 자유롭게 변경할 수 있다면 언어장애인의 발음교정이나 어학학습 등 여러 분야에 이용할 수 있을 것이다. 결과적으로 본 논문에서 제안한 FFT변환 특성을 이용하여 지속시간을 변경한 방법을 사용하여 피치변경후에 지속시간까지 변경한 음성의 명료도가 피치만 변경한 경우보다는 떨어지지만 자연성 면에서는 더 좋은 결과를 얻을 수 있었다.
-
본 연구에서는 우리말 연속 숫자음 인식에서 본래의 숫자음을 변이 시키는 주된 요인인 연음현상에 대한 인식을 높이기 위해 별도의 연음부분의 레퍼런스를 작성하여 매칭 시키는 방식을 제안한다 또한 단모음으로 이루어진 /2/와 /5/의 연속된 음에 대하여도 레퍼런스를 작성하였다. 제안한 방식에 의하여 전체적으로
$1.4\%$ 정도 인식률이 상승됨을 볼 수 있다. 특히 발성 목록중 /82/, /62/, /31/, /15/, /75/ 등의 연음과 /226/, /755/등과 같이 모음의 연속된 발성이 포함된 숫자 열에서 제안된 방식이 인식률에 영향을 미치는 것을 볼 수가 있었다. 이는 연음에서 발생하는 오류가 연속 숫자음에 많은 영향을 미치는 것을 알 수 있다. 그 외에 /22/, /55/등과 같이 단모음으로 이루어진 숫자음의 연속 발성 또한 인식률을 저하시키는데 한 요인으로 작용함으로서 이에 대한 레퍼런스도 작성하여 인식률이 상승되는 것을 볼 수 있었다. -
화자 확인시스템에서 화자 변이, 잡음환경, 그리고 학습환경과 인식환경의 불일치등이 화자확인에 어려움을 가져다 준다. 본 논문에서는 유무선 전화망에서 화자 확인의 성능을 개선하기 위한 채널 보상 알고리즘을 제안한다. 화자 확인시스템에서 유무선 전화망의 채널 왜곡을 보상하기 위한 방법으로 RBF(Radial Basis Function) 신경망을 이용하여 특징 벡터를 사상하는 알고리즘을 이용하며 유선과 무선의 채널 왜곡을 감소시킨다. 동일한 화자의 유무선의 벡터 영역이 서로 다르므로 등록단계에서 RBF 신경망을 사용하여 화자의 특징 벡터를 유선과 무선의 비슷한 벡터 영역으로 사상하고, 인식단계에서는 유무선의 우도비를 비교하여 결정규칙에 의해 판별한다. 켑스트럼 평균 차감법(CMS) 보다 제안한 채널 보상 알고리즘이 인식율이 향상을 실험에 의해 확인하였다.
-
본 논문은 반향경로의 순지연 시간 추정 및 보상을 이용한 네트워크 반향 제거기의 실시간 구현에 관한 연구이다. VoIP 게이트웨이와 연결된 복잡한 교환기망(PSTN)에서 발생되는 건 반향은 통화품질의 저하를 초래한다. 긴 순지연 시간을 포함하는 반향을 실시간 구현에 적합한 연산량으로 제거하기 위해, 간축 영역에서 반향 경로를 추정하여 순지연 시간을 추정후 보상하는 반향제거기를 구현하였다. 순지연 시간의 안정적인 추정을 위해 문턱치 보다 큰 유효 계수를 이용하여 순지연 시간을 추정하는 기법을 제안하였으며, 실시간 구현시 순간 최대 연산량을 줄이기 위해 추정된 반향 경로를 분할하여 순지연 시간을 추정하는 기법을 제안하였다. 제안된 시스템을 Texas Instruments사의 16비트 고정소수점 DSP TMS320C5409를 사용하여 구현하였고, 시뮬레이터를 통하여 성능을 검증하였다.
-
본 연구에서는 VoIP와 같은 패킷망에서 G.729 CS-ACELP 음성부호화기에 패킷 손실 은닉 알고리즘을 적용하여, 패킷 손실로 인한 음질 저하의 완화에 관한 실험을 수행하였다. 패킷 손실 은닉은 수신된 패킷으로부터 복호된 파형을 저장해두었다가, 손실이 발생하면 피치 동기가 맞도록 선택한 파형을 손실된 패킷자리에 대체하는 방법과 연속적인 손실 이후에 음성부호화기의 메모리를 초기화하는 방법에 기반하고 있다. 실제 VoIP 통화 실험에서 측정한 패킷 손실 분포에 대해 패킷 손실로 인한 음질 저하를 완화할 수 있음을 확인하였다.
-
전화음성의 경우 전화 회선의 채널 대역폭 제한과 통화로 형성시 달라지는 채널의 특성으로 인하여 마이크 음성에 비하여 인식 성능이 많이 저하된다. 본 연구에서는 연속 숫자음 전화음성의 인식율 향상을 위해 채널 왜곡 보상 기법들을 적용하고, HTK 기반의 인식 실험을 통해 보상 기법에 따른 인식 성능을 비교하였다. 채널 왜곡 보상 기법으로 CMN, RASTA, RTCN 등을 적용하고, 각 보상 기법에 따라 HMM의 state 수, mixture 수를 바꾸어 가며 인식 실험한 결과를 제시한다.
-
This paper describes procedures to implement a real-time pitch analyzer using Matlab. Matlab is a multi-purpose signal-processing tool. Using this tool real-time analysis tool is implemented. To make it real-time we used data acquisition toolbox which comes with Matlab. Autocorrelation method was used as a basic algorithm. The resulting pitch informations are displayed in two different forms, i.e. instantaneous pitch plot and pitch track. V/UV decision is performed using zero crossing rate and energy Informations based on 500 utterances.
-
본 논문에서는 음성 데이터에서 동일한 화자의 음성 구간을 찾아내는 화자 인덱싱(Speaker Indexing) 기술 중 사전 화자 모델링 과정을 통한 인덱싱 방법을 제안하고 실험하였다. 제안한 인덱싱 방법은 문장 독립(Text Independent) 화자 식별(Speaker Identification)에 사용할 수 있는 모음(Vowel)에 대해 특징 파라미터를 추출하고, 이를 바탕으로 화자별 모델을 구성하였다. 인덱싱은 음성 구간에서 모음의 위치를 검출하고, 구성한 화자 모델과의 거리 계산을 통하여 가장 가까운 모델을 식별된 결과로 한다. 그리고 식별된 결과는 화자 구간 변화와 음성 데이터의 특성을 바탕으로 필터링 과정을 거쳐 최종적인 인덱싱 결과를 얻는다. 화자 인덱싱 실험 대상으로 방송 뉴스를 녹음하여 10명의 화자 모델을 구성하였고, 인덱싱 실험을 수행한 결과
$91.8\%$ 의 화자 인덱싱 성능을 얻었다. -
본 논문은 음성정보연구센터에서 추진하고 있는 대용량 텍스트 코퍼스 구축에 관하여 기술한다. 총 3 년 동안 약 3 억
$\~$ 5 억 어절 수집을 목표로 하고 있으며, 주 목적은 대어휘 음성인식용 언어모델링을 위한 통계정보 추출용으로 활용할 예정이다. 1 차년도인 2002 년에 수집할 텍스트의 양은 약 6 천만 어절로 주요 일간지와 방송뉴스를 대상으로 하고 있다. 이 중 2 천만 어절은 띄어쓰기, 철자오류 수정 등을 수동으로 수행하고, 나머지 어절은 자동 검증 툴을 사용하여 오류를 수정하고자 한다. 본 논문에서는 공동 이용 가능한 텍스트 코퍼스의 구축 방안과 구축 시의 고려해야 할 사항들을 제시하고자 한다. -
본 논문에서는 음성합성을 위한 의사형태소 품사 태깅 시스템의 속도를 개선하는 방법으로 정확률을 다소 희생하더라도 속도개선이 될 수 있는 방법을 제안하고자 한다. 형태소 해석 시에는 종성으로 올 수 있는 자모를 제외한 나머지에 대해서는 음절단위로 구성하는 변형된 Tabular 파싱법으로 해석하는데, 여기에다 일반적으로 적용 가능한 몇 가지의 규칙을 추가함으로써 해석 가능한 노드들을 줄였다. 태깅 시에는 한국어의 특성상 어절 하나씩을 품사 태깅하였을 경우에도 상당히 정확하다는 점을 이용하여 어절 내부에서는 full search 를 하고 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사열 정보를 활용하는 방법을 제안한다. 제안한 시스템은 32 개 품사 태그셋에 2 만 형태소 사전을 이용해 실험한 결과, 기존의 시스템보다 약
$60\%$ 이상의 속도 개선을 보였으며, 정확률은 약$1\%$ 정도 떨어졌다. -
본 논문에서는 ETRI 방송 뉴스 자막 처리 시스템의 성능 향상을 도모하기 위해 개발된 미등록어 검출기에 대해 기술한다. 음성 인식 성능 하락에 큰 영향을 미치는 요인들 중 하나로 꼽히는 미등록어 문제를 해결하기 위해 ETRI 방송 뉴스 자막 처리 시스템에서는 오프라인으로 동작하는 미등록어 검출기를 채택하였다. 이 미등록어 검출기는 방송 뉴스 자막 처리 시스템 가동 전에 미리 인터넷을 통해 최신 신문 기사와 방송 뉴스를 수집해와 이를 토대로 두 단계에 걸쳐 미등록어를 사전에 추출하여 인식 어휘 사전에 포함시킴으로써 미등록어로 인한 방송 뉴스의 인식 성능 저하 문제를 해결하도록 하였다.
-
본 논문에서는 전화망 환경에서의 한국어 숫자음 인식을 위한 특징 파라미터 추출, 음향 모델링 방식을 결정하기 위하여 HTK 툴을 사용한 4 연숫자음 인식실험 결과를 기술한다. 또한, 실험 결과를 토대로 빈번하게 발생하는 숫자음에 대해서 오류율을 분석하였다. 숫자 모델로는 left context biword 모델과 triword 모델을 사용하였으며, 상태수와 mixture 수를 바꾸어 인식 실험을 수행한 결과, triword 모델이 biword 모델보다 인식율이 높은 것으로 나타났으며, substitution 에러율은 " 이<->" 에서 가장 높은 에러가 발생하는 결과를 얻을 수 있다.
-
음성신호는 성문특성으로 인해 고주파 특성이 약화되는 경향이 있다. 이를 보상하기 위해 Pre-emphasis filter를 사용한다. 수식으로 표현하면 y(n)=s(n)-As(n-1) 와 같이 차분방정식으로 나타낼 수 있다. 여기서 A값은 보통 0.9에서 1사이의 값을 주로 사용한다. 그러나 Pre-emphasis filter는 고주파 특성을 보상하는 과정에서 극점과 같이 영점도 왜곡된다. 본 논문에서는 음성특성에 따른 LSP(Line Spectrum Pairs) 분포특성을 이용하여 영점을 보존하고 vocoder 및 coding에 필연적인 고주파 특성 혹은 저주파 특성을 강조한다.
-
본 논문에서는 Hidden Markov Model(HMM)을 이용하여 corpus 기반 TTS에 사용할 DB를 자동 음소 분할 해주는 시스템을 구현하였다. HMM을 이용해서 음소 분할 할 경우 HMM을 모델링 하는 방법에 따라 많은 성능의 차이가 난다. 따라서 본 논문에서는 HMM 모델링 방법에 따른 몇 가지 실험 및 성능 평가를 하였다. 실험 결과 음성 인식과는 달리 HMM모델링 시 triphone 모델보다 monophone 모델의 성능이 더 우수하였으며, 에너지 기반의 후처리를 통해 성능 향상을 얻을 수 있었다.
-
본 논문에서는 음성 압축기를 사용하는 디지털 이동통신 환경에서 한글 음성 인식기의 성능을 분석하기 위하여 다양한 표준 음성 압축기를 이용하여 음성 압축기의 구조, 전송률, 전송 채널의 에러율에 대한 성능을 측정하여 비교하였다. 동일한 구조의 음성 압축기에 대하여 전송률의 증가에 따라 음성 인식률이 증가하지만, 음성 압축기의 구조에 따라 동일 전송률에서도 많은 성능 차이가 발생하는 것을 확인하였다. 특히 IS-127 EVRC의 인식 성능이 매우 떨어지는 것을 알 수 있고, EVRC의 잡음 제거기와 가변 전송률에 의하여 음성 인식 성능이 저하되는 것을 확인하였다. 이를 통하여 청취 음질과 음성 인식 성능 사이의 상관 관계가 높지 않는 것을 알 수 있다. 모든 음성 압축기에 대하여 채널 에러율과 음성 인식기의 성능은 매우 밀접한 관계가 있음을 확인하였고, 평균적으로 채널 에러율
$1.0\%$ 에서 인식률이$0.6\%$ 감소하고, 에러$5.0\%$ 에서 인식률이$1.8\%$ 감소한다. -
최근 음성인식의 인식 단위로서 문맥의존 음향 모델이 널리 사용되고 있다. 이는 음소의 음향학적 특징, 즉 선행 및 후행음소에 의한 중심 음소의 변이음 모델이 문맥독립 모델보다 좀 더 정확하게 모델링 될 수 있기 때문이다. 하지만 강건한 문맥의존 음향 모델을 작성하기 위해서는 모델 파라미터의 병합(tying)과 미지의 문맥(unseen context)의 처리를 위한 좀더 정교한 해결 방법이 필요하다. 따라서 본 논문에서는 이점을 고려하여 음향학적 특징과 언어학적 특징을 결합하여 상태 분할을 수행할 수 있도록 SSS(Successive State Splitting) 알고리즘의 문맥 방향 상태 분할에 음소결정트리를 접목한 HM-Net(Hidden Markov Network) 구조 결정법을 도입하였다. 또한 HM-Net은 연속적인 상태 분할에 의해 한국어에서 많이 발생하는 변이음들을 효과적으로 모델링 할 수 있다는 점을 고려하여 본 연구실에서 기존에 사용하던 48 유사음소 단위에서 문맥의존 음향 모델 작성에 불필요한 변이음을 제거하여 39 유사음소 단위를 재 정의하였다. 도입한 방법과 새로 정의한 유사음소 단위의 유효성을 확인하기 위해 고립 단어, 4연속 숫자음, 연속 음성인식에 대해 인식 실험을 수행한 결과, 모든 실험에서 재 정의한 39 유사음소 단위가 문맥종속형 HM-Net 음향모델을 이용한 한국어 음성인식에 효과적임을 확인할 수 있었다. 특히 연속 음성인식 실험의 경우, 기존의 48 유사음소 단위보다 평균
$15.08\%$ 의 인식률 향상이 있었다. -
본 논문에서는 음성 신호에서 발성 화자가 바뀌는 시점을 자동적으로 찾아내는 화자변화 구간 검출에 대하여 연구하였다. 화자변화 검출을 위해서는 음성 신호에 나타나는 화자 개별성에 의한 차이만 비교해야 하는데 실제 환경에서는 화자들이 동일한 내용의 발성을 하지 않으므로 다른 발성내용에 의한 정보가 포함되어 검출 성능을 저하시킨다. 그러므로 각 화자의 개별특성만 강조되도록 발성내용에 포함된 음성학적 정보의 영향을 제거하는 방법을 통해 검출 성능을 향상시켰다.
-
최근 음성 부호화기의 연구방향은 저전송률, 저복잡도와 더불어 가변전송률 음성부호화기에 대한 연구로 진행되고 있다. 지금까지 제안된 저전송률 음성부호화기로는 스펙트럼 모델링을 이용한 MBE 계열과 혼성부호화 방식의 CELP 계열이 있다. 그 중에서 가장 많은 연구가 이루어지고 있는 방식이 CELP 방식이다. 이 방식은 4.8kbps 내외의 전송율에서 양호한 음질을 얻을 수 있다. 본 논문에서는 평균자승오차값을 최소화하여 계산량을 줄이고 음질을 향상시킬 수 있는 새로운 알고리즘을 제안한다. 먼저 G.723.1 부호화기에서 인지가중필터를 거친 신호를 LSP를 이용하여 각 포만트의 위치를 검출하여 Pole점만 비교하여 Zero점의 영향을 최소화 하였고 평균자승오차값을 최소화 하여 문턱값에 가장 가까운 값을 대표 피치이득계수로 정하고 그때의 피치와 함께 부호화한다.
-
This paper presents an improved MELP Coder using Fourier magnitude compensation method chosen the new 2.4 kbit/s U.S. federal Standard. Although the MELP is quite good, it has some distortion for low-pitch male speakers. An improved MELP coder includes a post processing for the fourier magnitude model that allows the MELP to reconstruct the lower frequency spectrum more accurately and improve the speech quality. In this new compensation algorithm, the harmonic magnitudes in the low frequencies are adaptively modified by removing the effect of the two filters. Also, the bit rate of the improved MELP coder is the same as that of the Federal Standard MELP coder. formal quality tests show that the improved MELP coder was preferred over the Federal Standard MELP coder by
$80.8\%$ . -
본 논문에서는 사람의 청각 모델을 기반으로 잡음에 의해 손상된 음성 신호로부터 잡음 신호의 마스킹 특성과 신호에너지의 지각(知覺)을 나타내는 임계대역(critical band)에서의 잡음 에너지에 대한 지각 패턴인 noise excitation pattern을 이용한 잡음 에너지 차감과 잡음 추정 오차에 의한 변형된 음성신호 내의 순음(tonal) 성분과 비순음(non-tonal)성분의 보정을 통해 효과적인 음성 품질의 개선을 위한 연구를 하였다.
-
최근 영상 회의 시스템에서 화자 위치 추정 및 음질 향상 기술이 연구되고 있다. 이 시스템에서는 마이크로폰 어레이를 이용하여, 화자의 위치를 파악하여 화자의 방향으로 카메라를 자동으로 조정해 주고 그 방향으로부터 입사되는 신호만을 수신할 수 있도록 한다. 이를 위해 마이크로폰 어레이가 연구되어져 왔다. 덜 연구에서는 시간에 따라 변화하는 음향 환경에 적응하는 적응 정합 필터 마이크로폰 어레이를 제안하고, 실험을 통해 그 성능을 고찰하였다.
-
The wear process of end mill is a so complicated process that a more reliable technique is required for the monitoring and controling the tool life and its performance. This research presents a new tool wear monitoring method based on the sound signal generated on the machining. The experiment carried out continuous-side-milling for 4 cases using the high-speed steel slot drill under wet condition. The sound pressure was measured at 0.5m from the cutting zone by a dynamic microphone, and was analyzed at frequency domain. The tooth passing frequency appears as a harmonics form, and end mill wear is related with the first harmonic. It can be concluded from the result that the tool wear is correlate with the intensity of the measured sound at tooth passing frequency estimation of end mill wear using sound is possible through frequency analysis at tooth passing frequency under the given circumstances.
-
본 논문은 원거리 회의 시스템이나 차량 내 핸즈프리 통화 시 필연적으로 발생하는 음향 반향을 제거하기 위해 새로운 알고리즘을 제안한다. 본 논문에서 제안된 음향반향 제거 시스템은 Delayless 서브밴드 음향반향 제거기와 협대역 동시통화 검출기로 구성된다. Delayless Subband 적응 음향 반향 제거기는 적은 계산 량과 높은 수렴속도로 음향 반향 제거 성능이 뛰어난 것으로 알려져 있으며 본 논문은 이를 이용해 안정적인 음향 반향 제거를 위해서 협대역 Subband 내에서 동시통화 검출기를 구현한다. 기존의 광대역 동시 통화 검출기에 비해 본 논문에서 제안된 협대역 동시통화 검출기는 저주파 Subband 대역에서만 동시통화 검출을 수행하여 down-sampling으로 인한 계산 량 감소와 저주파 특성을 가지는 Subband 대역의 신호 특성으로 인한 신뢰성 있는 통화 상태 정보를 제공함으로서 전체적인 음향반향제어 시스템의 성능을 향상시킬 수 있도록 하였다. 본 연구에서 제안된 음향반향 제어 시스템의 성능은 다양한 컴퓨터 시뮬레이션을 통하여 입증하도록 한다.
-
본 연구는 폐쇄된 임의의 공간상에서 2개의 마이크로폰 어레이를 이용하여 마이크로폰에 수신된 신호들의 도착 시간차를 추정하는 새로운 알고리즘을 제안한다. 제안된 알고리즘은 입력 음성신호를 Discrete wavelet transform을 이용하여 인간의 청각 특성과 가장 유사한 주파수 해상도를 갖도록 대역 분할한 후 각 주파수 대역에서 신호 대 잡음비를 구하여 신호 대 잡음비가 가장 높은 대역만 선택적으로 취하고 해당 대역에서만 최종적인 시간 지연 값을 추정하게 된다. 최종 시간 지연 측정에 사용된 알고리즘은 기존의 CPSP에 해당 대역의 주파수 SNR을 가중치로 주어 구하게된다. 이러한 대역 분할 가중방식은 다양한 형태의 동적인 잡음 환경 하에서 안정적인 성능을 가질 수 있다. 제안된 알고리즘은 저주파와 고주파 각각의 모의 잡음환경 하에서 컴퓨터 실험을 통해 성능을 입증하도록 한다.
-
VoIP 음성 통신 시스템에서 통화를 할 때, 네트워크 상황이 나빠짐에 따라 시간 지연, 패킷 손실, 지터 등의 QoS 파라미터에 의한 영향이 발생하므로 통화 품질이 떨어지게 된다 통화 품질을 개선하기 위해서는 통화 품질과 QoS 파라미터와의 관계를 명확히 파악하고 그에 대한 개선 방법을 연구해야 한다. 따라서 본 논문에서는 통화 품질과 QoS 파라미터와의 상관관계를 회귀 분석을 통해 도출해 내었다. 제시된 음질 평가 기준은 QoS 파라미터만을 가지고 음질을 예측하기 때문에 계산량이 매우 적으며, 음질 평가 수행 중에 음성 통신 시스템에 거의 영향을 미치지 않는다는 장점을 가지고 있다.
-
본 논문에서는 화자인식을 위하여 강인한 주성분 분석법(Robust Principal Component Analysis)을 갖는 화자인식 방법을 제안하였다. 강인한 주성분 분석법은 특징벡터들의 outlier가 존재할 경우 k-차원으로 줄이면서 강인한 화자 모델을 만들기 위하여 사용한다. 기존의 PCA 방법은 순수한 화자의 정보가 잡음 등의 outlier에 의해 손상될 수 있으므로, 강인한 주성분 분석법을 사용하여 outlier의 영향을 감소 시켰다. 화자 별로 k-차원 diagonal GMM 학습시 mixture 수를 적응시켜 데이터 저장 공간을 최소화하였다. 200명의 고립 숫자음을 사용하여 기존의 diagonal GMM 방법과 제안된 방법을 실험한 결과, 제안된 방법에서 약
$1.5\%$ 더 높은 인증률을 얻을 수 있었다. -
콘서트 홀과 같은 대형 공간의 경우와는 달리, 자동차 내의 작은 공간에서는 저주파의 음향 공진으로 인하여 상대적으로 높은 크로스오버 주파수까지 재생된 사운드가 컬러링 된다. 이러한 크로스오버 주파수는 Schroeder의 'large room limit'로 결정되며, 이것은 작은 공간과 대형 공간을 구분하게 되는 기준이 된다. 이러한 컬러링을 보상하기 위해, 먼저 대역 제한된 사인 스윕 신호를 이용하여 특정 차량의 저주파 응답 범위를 크로스오버 주파수까지 측정하였다. 본 논문에서는 이렇게 측정한 저주파 응답을 이퀄라이징하는 방법에 대하여 논의한다.
-
ES(Exponentially weighted Stepsize) 알고리즘은 연산 과정이 간단하고 수렴 속도가 빠르지만 Stepsize 값을 결정하기 위해 일정한 조건에서 결정된 공간 임펄스 응답들을 이용하기 때문에 외부 잡음이 발생할 경우 음향 반향 제거 성능이 저하된다. 본 논문에서는 기존의 반향 제거기에 Stepsize 생성기를 추가하여 외부 잡음에 대한 ES 알고리즘의 단점을 개선하고 잡음에 대한 강건함을 향상시키는 새로운 반향 제거기를 개발하였다. Stepsize 생성기는 두 개의 이동 평균기를 이용하여 외부 잡음에 크기와는 독립적으로 Stepsize 값을 결정하며, 이로부터 대각선(diagonal) 모양을 가지는 Stepsize 행렬을 생성하여 반향 제거기에 적용한다. 본 논문에서는 NLMS 알고리즘, ES 알고리즘, 제안된 알고리즘의 수렴 특성을 잡음의 크기별로 시뮬레이션 하였으며, 또한 제안된 알고리즘의 잔여 에러의 크기도 다른 두 알고리즘에 비해 5[dB] 에서 10[dB]정도 작아지는 것을 확인하였다.
-
지면에 가까이 있는 비행체나 수면에 가까이 있는 수중 운동체에서 도래하는 신호는 직접파와 반사파로 구성되어 있다. 그런 환경에서는 반사파가 직접파와 coherent한 관계를 갖는다. 이런 현상으로 해서 DOA추정을 위해 추정한 correlation 행렬이 singular한 성질을 갖게 된다. 이렇게 singular한 행렬은 DOA추정에 큰 오류를 내게 된다. 또 움직이는 대상의 경우 추정 correlation 행렬의 성질이 시간에 따라 변하게 된다. 본 논문에서는 위 두 상황을 함께 해결하기 위해서 PASTd알고리즘을 변형하여 Forward/Backward Variable forgetting factor를 도입한 PASTd알고리즘을 제안한다.
-
Kim Jung-Hwa;Lee Baek-Lyeol;Bae Hyeon-Gee;Park Soon-Jong;Kim Chun-Duck;Lim Jung-Bin;Lee Yung-Yook 241
시간영역에서의 음원 방향 추정 알고리즘을 이용하여 수동형 DIFAR Sonobuoy 의 도래각 추정 성능 평가 시스템을 구성하고 추정 오차에 대하여 고찰하였다. 일반 실내에서 음원주파수$f_0(700Hz\~1.7kHz)$ 로 입사하는 음원에 대하여 도래각을 추정한 결과 한 주기당 한계${\pm}10^{\circ}$ 이내로 약$80\%$ 이상 추정 결과로 나타났으며 특히, 1.7kHz 의 경우는${\pm}2.97^{\circ}$ 로 적은 오차를 보임에 따라 이 대역에서의 기준 주파수로 평가 시스템에 적용할 수 있음을 확인하였다. -
본 논문에서는 이동체에 Beam Loss를 위한 분석적 모델을 소개하고 시변 방위 추정 알고리즘을 적용하였을 때와 일반 알고리즘을 적용했을 때의 성능개선 정도를 비교한다.
-
본 논문에서는 음향반향제거기에서 상관계수를 이용하여 동시통화 구간을 검출하는 방법에서 검출 오류로 인해 발생되는 문제점에 대해서 다룬다. 상관계수(correlation coefficient)를 이용한 DT 검출 방법에서 동시통화 구간과 반향경로의 변화를 명확하게 구분 짓는 문턱값 설정이 어렵기 때문에 때때로 검출 오류가 발생한다. 즉, 동시통화 중간에 반향경로가 변함으로써 동시통화 구간의 끝점 검출에 실패하거나 반항경로 변화를 DT로 잘못 인식하는 경우가 발생하는데, 이럴 경우 더 이상 적응필터의 계수를 갱신을 할 수 없는 상태에 빠지기도 한다. 본 논문에서는 반향제거기에 보조필터를 사용하여 이러한 문제점을 해결하고자 한다. 이는 보조필터가 기준입력신호(reference signal)를 이용하여 변화된 반향신호 성분은 추정할 수 있지만 근단화자 신호는 추정할 수 없다는 점을 이용한다 실험을 통해 제안한 알고리즘이 검출 오류로 인해 발생되는 문제를 효율적으로 해결할 수 있음을 확인하였다.
-
한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.
-
벡터양자화에서 주어진 학습벡터를 가장 잘 대표할 수 있는 코드벡터의 집합인 코드북을 구하는 것은 가장 중요한 문제이다. 이러한 코드북을 구하는 알고리즘 중에서 가장 대표적인 방법은 K-means 알고리즘으로 그 성능이 초기 코드북에 크게 의존한다는 문제점을 가지고 있어 여러 가지 초기 코드북을 설계하는 알고리즘이 제안되어 왔다. 본 논문에서는 splitting 방법을 이용한 수정된 초기 코드북 생성 알고리즘을 제안하고자 한다. 제안된 방법에서는 기존외 splitting 방법을 적용하여 초기 코드북을 생성하되, 미소분리 과정 시 학습벡터의 수렴 빈도가 가장 낮은 코드벡터를 제거하고 수렴 빈도가 가장 높은 코드벡터를 미소분리 하여 수렴 빈도가 가장 낮은 코드벡터와 대체해가며 초기 코드북을 설계 한다. 제안된 방법의 적용온 기존 방법에서 MSE(mean square error)의 감소율이 가장 작은 미소분리 과정에서 시작하여 원하는 코드북 크기를 얻을 때까지 반복한다. 제안된 방법으로 생성된 초기 코드북을 사용하여 K-means 알고리즘을 수행한 결과 기존의 splitting 방법으로 생성된 초기 코드북을 사용한 경우보다 코드북의 성능이 향상되었다.
-
성덕대왕 신종은 771년도에 성덕대왕의 공적을 기리기 위해 34년간 주조(높이 3.663m, 최대지름 2.227m, 무게 18,900kg)하여 만든 세계적인 문화유산이다. 외형도 미려하지만 종소리는 천, 지, 인을 뒤흔드는 신비감을 갖추고 있다. 에밀레 종소리는 끊어질 듯 이어지는 소리, 애끓는 소리, 심금을 울리는 소리 등의 특징을 갖는데 끊어질듯 이어지는 소리는 맥놀이 현상으로 나타난다. 지금까지 맥놀이 현상의 규명에 대한 많은 연구가 있었다. 여기에는 우리 선조들이 750년경에 과학적 근거를 토대로 하여 응용이 가능하였음을 알 수 있다. 그러나 근래에 와서 웅장하고 신비로운 신금을 울리는 소리가 두드러지게 나오지 않는다. 결론적으로 근래의 낙후된 에밀레 종으로 인해서 변형된 종소리와 예전의 고유한 종소리를 분석하고 우리 민족의 지혜와 숨결이 스며있는 세계적인 문화유산인 에밀레 종소리 복원이 강구되어야 하며 과학적이고 체계적인 관리가 요구되어야 한다.
-
본 논문에서는 초기 부호책을 구하는 방법으로 가장 널리 쓰이는 이분 미소분리 방법의 탐색시간을 줄이기 위한 고속 알고리즘을 제안한다. 제안된 방법은 학습벡터가 소속되는 부호벡터를 찾기 위하여 기존의 방법과 같이 모든 부호벡터와의 거리오차를 계산하지 않고, 이전에 소속된 클래스에서 미소분리된 부호벡터와의 거리오차 만을 비교하여 학습벡터의 소속 여부를 결정함으로써 계산량을 크게 줄일 수 있다. 제안된 방법으로 생성된 초기 부호책과 기존의 이분 미소분리 방법으로 생성된 초기 부호책을 사용하여 K-means 알고리즘을 수행한 결과 초기 부호책의 성능 차이는 거의 없었지만, 계산량은 현저하게 감소되었다.
-
본 논문에서는 초기 부호책 설계 방법으로 가장 널리 사용되는 이분 미소분리 방법의 성능 개선과 설계시간을 단축하기 위한 새로운 알고리즘을 제안한다. 성능 개선을 위해 학습벡터의 소속수가 최소인 부호백터를 제거하고, 최대인 부호벡터를 미소분리하여 대체하는 방법을 적용하고, 모든 부호벡터와의 거리오차론 구하여 학습벡터의 소속 여부를 결정하는 기존 방법과는 달리, 전단계와 현재 단계의 소속 부호벡터와의 거리오차를 가지고 소속 여부를 결정함으로써 설계시간을 크게 단축할 수 있다.
-
본 논문에서는 한국의 전파환경을 도시 계획법에서 지정한 지역세분을 기초로 4개의 대분류와 8개로 소구분하여 Kor-231 모델을 제안하였다. 전파전파 특성을 측정하기 위해 슬라이딩 코릴레이션 기법을 이용한 대역확산 송
${\cdot}$ 수신 방식으로 구현하여 수신전력, 평균 초과지연 그리고 RMS 지연확산을 가장 도시계획적으로 개발된 공업 지역과 주거지역에서 직선 도로에 마이크로셀을 배치하여 도로를 따라 진행하는 LOS와 건물들로 둘러쌓인 N-LOS에서 측정된 데이터를 분석하여 한국의 전파환경에서 잘 적용됨을 확인 하였다. -
본 연구는 우리말 장단모음의 특성을 분석하는 것을 목표로 한다. 쓰여져 있는 문장에서 장단 모음을 구별할 줄 사람들 중 남자 3명을 선정하여 7개의 모음(/ㅣ, ㅐ, ㅏ, ㅓ, ㅗ, ㅜ, ㅡ/)을 발음하게 한 후, 각 장단 모음 쌍의 길이, 피치, 음가를 측정하였다. 그 결과, 장단모음이 사라졌다는 일부 주장과는 달리 모든 화자에게서 통계학적으로 유의한 길이의 차이를 관찰하였으며 대부분의 경우에 피치와 음가(F2)도 유의한 차이가 남을 발견하였다. 그러나 이 관찰된 음가의 차이는 모음 자체의 음가의 차이가 아니라 다음에 따라오는 조사의 모음의 영향으로 인한 주변동화현상(contextual assimilation)에 의한 것으로 추정된다. 즉, 장모음은 길이가 긴 까닭에 자신의 음가를 충분히 실현한 반면 단모음은 다음에 나오는 모음의 음가의 영향을 강하게 받는 것으로 나타났다.
-
본 논문에서는 발화 유형을 대화체와 낭독체의 두 가지로 구분하여 각 발화 유형에서 억양구를 형성하는 특징을 살펴보았다. 실험 결과, 한 문장 내에 두 개 이상의 억양구가 생성되는 경우와 접속문의 경우에는 낭독체에서 더 많은 억양구가 형성되었다. 대화체에서 더 많은 억양구가 형성되는 경우는 주로 주어 다음에 억양구가 형성되는 경우이며, 대화체 발화에서는 한 문장내에 두 개 이상의 억양구가 형성된 경우는 존재하지 않았다. 이러한 실험 결과를 바탕으로 억양구의 형성이 음절수뿐만 아니라 문장의 구조에 영향을 받으며, 이 두 가지 요인이 발화 유형에 따라 다르게 적용된다는 운율적 특징을 파악할 수 있다.
-
국어에서 wh-단어가 포함된 의문사 의문문과 부정사 의문문은 통사적으로 같은 구조를 가지지만 의미적으로는 중의 관계에 있다. 그러나 두 의문문은 문장으로 발화될 때 음성적으로 서로 다른 여러 가지 운율 특징의 차이를 보여줌으로써, 발화 차원에서는 더 이상 중의 관계를 유지하지 않는다. 본고에서는 이러한 중의성의 해소는 두 의문문의 초점이 달리 실현되기 때문이라고 본다. 기존의 연구에서는 두 가지 의문문의 억양 연구를 초점의 작용 범위와 문말 억양의 차이, 강세구 형성의 유형을 중심으로 고찰하였다 .그리고 의문사와 부정사의 의미는, 이에 후행하는 서술어와 형성하는 강세구 유형에서 우선적으로 그 의미가 구분될 수 있다고 보았다. 그러나, 본고에서는 국어의 wh-단어가 초점으로서 작용하는 운율적 돋들림을 좀더 다양한 환경에서 실험하였다. 그리고 의문사
${\cdot}$ 부정사와 후행하는 언어단위의 강세구 형성(accentual phrasing) 유형, 의문사${\cdot}$ 부정사 의문문 전체 문장 억양의 실현 양상, wh-단어 자체의 음의 높낮이(pitch contour) 실현 유형, 문말 억양(boundary tone)에서 음의 높낮이를 대상으로 분석하였다. -
운동이론(motor theory)에 따르면 조음에 관한 정보는 말소리 지각에 중요한 역할을 한다고 한다. 조음에 관한 시각정보가 자음지각에 중요함을 시사하는 것이 바로 McGurk 효과이다. McGurk 효과는 말소리 지각에서 청각정보와 시각정보가 상충될 때 지각의 결과는 청각에 의한 조음정보와 시각에 의한 조음정보가 통합(integration)되어서 나타나는 것을 말한다. 예컨대, 시각적으로는 /ga/를 발음하는 모습을 보여주면서 동시에 청각적으로는 /ba/를 들려주면 그 결과로 /da/로 지각된다. 마찬가지로 시각적으로는 /ka/를, 청각적으로는 /ma/를 제시하면 /na/로 지각된다. 따라서 McGurk 효과는 시각적인 조음 정보가 자동적으로, 무의식적으로 말소리 지각과정에 통합됨은 보여준다. 한편 이러한 McGurk 효과는 문화마다 그 강도가 다르게 나타난다는 보고가 있다(Sekiyama, 1997). 예컨대, 일본가 중국 원어민의 경우 미국 원어민보다 McGurk 효과가 약하게 나타났다. 본 연구는 한국인에게는 McGurk 효과가 어떠한 양상으로 나타날지를 규명해 보고 아울러 기존의 미국, 일본 그리고 중국 원어민에 대한 연구결과와 비교 분석해 보았다.
-
-
본 논문은 한국인 피험자를 대상으로 이루어진 어절 재인 실험 시 관찰된 언어 현상인 길이 효과, 빈도 효과, 그리고 이웃 효과를 설명할 수 있는 한국어 어절 재인 시뮬레이션 모델을 제안한다. 제안한 모델은 코퍼스에서 나타난 어절의 빈도를 이용하여 정렬한 트라이(trie) 구조를 기반으로 하고 있다. 본 모델은 피험자들의 어절 재인 현상을 모두 설명할 수 있으며 피험자들을 대상으로 한 실험에서 사용한 동일 자료를 이용하여 시뮬레이션한 결과 유의미한 상관 관계를 보였다. 현재 시뮬레이션 중 발견된 언어 현상이 한국인 피험자에서도 나타나는지를 규명하기 위한 실험과 영어 단어 재인시의 언어 현상에 대해서도 적용할 수 있는 확장 방안에 대하여 연구를 수행하고 있다.
-
-
무성모음화 현상이 어떠한 분절음적, 운율적 환경에서 주로 실현되는가를 알아보기 위하여 선행자음의 분절음적 환경, 후행자음의 분절음적 환경, 해당 강세구의 음절수, 운율 구조상의 위치 등 모두 네 가지를 변수로 실험을 진행하였다. 모두 10명의 화자(남5, 여5)가 발화한 1140개의 자료에 나타난 행당 모음의 길이를 측정하는 방법으로 분석을 실시하였다. 그 결과 선행자음은 [+기식성]과 [+지속성]을 가진 환경이, 후행 자음은 [-지속정]과 [기식성]을 가진 환경이 무성모음화가 잘 일어나는 환경인 것으로 밝혀졌다. 음절수의 증가는 큰 영향을 주지 않는 것으로 보였고, 대체로 두 번째 강세구의 단어초에 위치하는 경우에 모음의 길이가 짧거나 무성모음화되는 경향이 관찰되었다.
-
본 연구에서는 기능적 자기공명 영상법(functional magnetic resonance imaging)을 이용하여, 한국어, 일어, 프랑스어, 영어 등 여러 언어를 구사할 수 있는 다중언어화자들을 대상으로 각 언어에 따른 대뇌 언어처리 과정을 알아보고, 그 처리과정이 해당언어의 유창성, 습득시기에 따라 어떻게 달라지는지를 알아보았다. 실험 결과, 언어처리에 있어 핵심적인 역할을 하는 것으로 보고되는 Broca 영역은 언어의 이해와 산출 과정에 모두 관계된 것으로 보이며, 언어의 산출과정에는 언어의 이해과정에 관계되는 영역외에 조음과정에 따른 영역의 활성화가 보고되었다. 또한 언어습득시기와 유창성에 따른 각 언어의 활성화를 살펴보면, 유창성이 높을수록 대뇌 활성화는 줄어들며, 유창성이 낮은 언어조건에서는 언어처리 영역의 활성화 수준이 높아지며 또한 우반구 및 전전두회(prefrontal gyrus)의 활성화가 높아지는 것이 보인다.
-
본 논문에서는 초점 연구를 위해 통사-의미론적인 검증을 거친 질의-응답문 각각 120쌍을 녹취한 음성 자료를, K-ToBI를 이용하여 분절 표기(segmentation & labeling)한 것을 토대로 초점이 실제로 강세를 가지고 실현되는지, 강세를 가지고 실현되는 경우와 그렇지 않은 경우 그 액센트구는 어떤 유형인지, 그리고 초점이 나타나는 경우에 강세 외의 다른 운율적 특징이 나타나는지와 그러한 경우에 그 특징이 무엇인지 등의 문제를 중심으로 하여 국어 초점의 운율적 실현에 관하여 살펴 보았다.
-
In this paper, we propose a watermarking technique that it is possible to winnow illegal contents from scattered contents on the internet. The identification is performed using an embedded unique content ID by the watermarking technique. The proposed watermarking technique accepts A/D-D/A conversion and a lot of lossy compression such as MP3, AAC, WMA and Real Audio. Watermark robustness is enabled using group quantization, selecting watermark inserting point, and error correction code. Test results show that the correct extraction is about
$90\%$ and SNR is above$50\~60dB$ . The above figures means that the proposed technique is able to extract encoded information at least one more times per audio and that it is very difficult to discriminate between a watermarked audio and a original audio. -
디지털 워터 마킹은 일반적으로 지적 재산권의 보호를 위해서 컨텐츠 소유자가 자신의 컨텐츠에 저작권 정보를 나타내는 워터마크를 삽입하여 제 3자가 허가 없이 디지털 컨텐츠의 사용을 할 경우 불법적인 사용을 막아내는 데 사용된다. 본 논문에서는 워터마킹 기법의 새로운 적용 예로써 인터넷 또는 무선 환경을 통한 멀티미디어 데이터 전송 시 수신된 데이터의 품질을 사용자 측면에서 측정 할 수 있는 방안, 즉 디지털 워터마킹 기법의 새로운 적용 예에 대하여 고찰하였다. 제안하는 방법은 네트워크 상에서 발생하는 패킷 손실, 지연 등의 통계적 해석으로 수신 된 멀티미디어 데이터의 품질을 평가하는 척도로 사용하는 기존의 방법과는 달리 사용자 측면에서 눈으로 보이는 데이터의 일그러짐 정도나, 음질의 왜곡을 정량적인 측정치로 보여 줄 수 있음으로써, 오디오 데이터의 QoS(Quality of Service)를 보장하기 위한 수단이나 수신품질에 따른 차별화 된 과금 결정 등에 활용할 수 있을 것이다. 이를 위해 본 논문에서는 멀티미디어 데이터의 품질 측정을 위한 블라인드 워터마킹 기법을 적용하고 다양한 비트 에러율 (Bit Error Rate, BER)을 갖는 BSC(Binary Symmetric Channel)에 적용시켜 봄으로써 멀티미디어 데이터에 삽입된 워터마크 신호의 검출정도와 수신된 미디어 신호의 PSNR비가 선형적인 분포를 가지게 됨을 확인 할 수 있었다.
-
의사잡음 시퀀스를 이용한 대역확산 기반의 오디오 워터마킹은 들리지 않으면서도 강인한 워터마크를 만들기 위해 심리음향모델이나 고정필터를 사용하여 의사잡음 시퀀스를 변형시킨다. 그런데, 이러한 방법을 이용하여 스펙트럼 변형된 의사잡음은 고주파 영역에 대부분의 에너지를 갖게 되므로 인위적으로 오디오 신호의 고주파 영역을 잘라내는 공격에 취약하다는 단점이 있다. 본 논문에서는 이러한 단점을 보안하고 강인성 및 잡음의 최소화를 위하여 중간값의 성질을 이용하여 의사잡음을 변형 후 삽입하는 워터마킹 시스템을 제안한다. 중간값 성질을 이용하여 변형한 의사잡음은 원 오디오 신호와의 상관성이 높으며 전주파수 대역에 고르게 분포하는 성질이 있으므로 고주파 영역의 공격에 강인하다. 제안 방법은 의사잡음의 고유성질을 최대로 살린 방법으로 각종 오디오 부호화, 부가잡음, 다운/업 샘플링, 채널변경, 진폭 공격과 같은 다양한 공격에도 워터마크 신호의 검출이 가능하다.
-
본 연구에서는 주파수 영역에서의 확산 스펙트럼 방식을 이용한 오디오 워터마킹 기법을 사용하고 있다. 워터마크 삽입은 오디오 신호를 MCLT(Modulated Complex Lapped Transform)로 분석한 후, 특정 주파수 영역의 진폭에 삽입되며 추출은 상관도를 이용하여 추출하게 된다. 워터마크 삽입은 44.1 kHz의 음악에 80 bits의 정보가 4초 단위로 반복적으로 삽입되며, 추출에서는 무작위로 추출된 8초 분량의 오디오 신호로부터 80 bits 비트 열과의 상관도를 계산하여 선정된 문턱 값을 초과하게 되면 워터마크가 존재하는 것으로 판단하게 된다 피치 스케일에 대응하기 위하여 120개 정도의 탐색을 수행하며, 시간 스케일에 대응하기 위하여 상관도의 지역 최대 점을 추출하고, 이러한 지역 최대 점들로부터 추출된 비트 열과 실제 비트 열과의 상관도를 계산하게 된다. 그러나 추출된 비트 열은 삽입 에러와 삭제 에러를 가질 수 있기 때문에 이러한 비트 열과의 최대 상관도를 구하기 위하여 본 연구에서는 동적계획법에 의한 최대 상관도 추출 알고리즘을 제시한다. 제안된 방법은 피치 및 시간 스케일링 변환 뿐만 아니라, 오디오 압축에도 견고함을 보인다.
-
본 논문에서는 디지털 컨텐츠를 보호하기 위한 다양한 암호화 알고리즘이나 워터마크 알고리즘이 하나의 사용자 단말에서 작동할 수 있도록 시스템을 구성하였으며, 컨텐츠의 재생 처리 과정 중에 다수의 제어 포인트를 두어 다중적인 컨텐츠 보호를 가능하게 하였다. 또한 라이센스 개념을 사용하여 다양한 컨텐츠 사용 규칙을 적용할 수 있도록 하였으며 컨텐츠와 라이센스를 독립적으로 관리하므로 사용자들 사이의 컨텐츠 전송을 가능하게 하였다.
-
본 연구에서는 128개의 능동소자로 구성된 convex형 초음파 탐촉자를 회전시켜 3차원 입체영상을 구현 할 수 있도록 하는 구동부를 설계 및 제작하여, 3차원 입체 영상 진단용 초음파 섹터 트랜스듀서를 개발하였다. 탐촉자는 중심주파수 4.5Mhz, 대역폭
$66\%$ 로 제작되었으며, 구동부는 탐촉자의 축을 스텝모터와 평기어를 이용해 회전시킴으로써 3차원 입체영상을 획득할 수 있게 고안하였다. 그리고 피부와 유사한 고분자재료를 사용하여 탐촉자의 회전반경과 동일하게 음향커버를 설계 및 제작하였다. 제작된 초음파 섹터 트랜스듀서는 정밀한 각도 제어 및 구조적 안정성이 확보되었음을 확인 할 수 있었다. -
초음파 진단용으로 널리 사용되는 1차원 배열 압전형 초음파 변환기는 변환기내의 인접한 소자들간의 간섭에 의해 그 특성에 많은 영향을 받는다. 특히 각 소자 사이에 위치한 커프 및 음향 벽의 형상은 변환기 내 음향 간섭에 매우 큰 영향을 미친다. 그러므로 본 연구에서는 일반적으로 복부진단용으로 사용되는 압전형 1차원 배열 의료용 초음파 변환기에서 커프 및 음향 벽의 형상에 따른 음향간섭 레벨의 변화 경향을 유한 요소 해석법을 이용하여 분석하였다. 해석 결과를 바탕으로 소자간 음향간섭을 일으키는 원인을 규명하고, 나아가 음향 간섭레벨을 최소화하기 위한 구조적 방안을 도출하였다. 이러한 연구 결과는 향후 진단용 초음파 변환기의 최적 설계를 위해 중요한 자료가 될 것이며, 의료 치료용, 비파괴 검사용, 그리고 수중 초음파 변환기에도 적용이 가능할 것이다.
-
심근 경색 및 뇌졸중 등 혈관과 관련된 질환들의 진단 및 치료의 목적으로 미세 크기의 원형 배열 초음파 트랜스듀서가 사용되고 있다. 원형 배열 초음파 트랜스듀서는 종래의 선형 배열 트랜스듀서에 비해 반경 방향의 입체적 진단을 가능케 하고 높은 감도 및 해상도를 구현할 수 있는 장점을 가진다. 본 연구에서는 이러한 원형 배열 초음파 트랜스듀서의 개발을 위하여, 유한요소법 및 이론적인 해석으로 트랜스 eb서의 방사특성을 분석함으로써 무지향성을 이루기 위한 트랜스듀서 내 진동자의 최적 규격을 설정하였다. 나아가 해석 결과에 따라 직경이 약 10mm정도가 되는 알루미나
$Al_2O_3$ 튜브에 32개의 진동자가 원형으로 배열된 트랜스 듀서 시작품의 제작 및 방사특성 측정 실험을 수행함으로써 설계 결과의 타당성을 검증하였다. -
혈관에 흐르는 혈류 속도의 측정은 혈압 및 심박수와 관련된 혈류의 역학적 변화를 관찰하는 데 있어서 주로 사용되는 방법 중의 하나이다. 이 혈류 속도는 일반적으로 도플러 효과에 의하여 주파수가 변화하는 현상을 이용하여 추정하게 된다. 그런데 기존의 주파수 추정 방법들은 시불변 시스템을 가정하고 있지만 실제 혈관 속은 혈구가 일정하지 않은 속도를 갖는 시변 시스템이라 할 수 있기 때문에 이러한 시변 특성이 강한 경우 기존의 방법을 이용하게 되면 그 성능이 저하되는 경향을 보인다. 또 피시험자의 몸 상태에 따라서 서로 다른 주파수 변화 추이를 보이므로 하나의 고정 변수로써 최적화된 성능을 기대하기도 어렵다. 그러므로 본 논문에서는 시변 시스템에서 좋은 성능을 갖는 가변 망각 인자(variable forgetting factor, VFF)를 사용한 순환적인 완전 최소 자승법(recursive total least squares, RTLS) 기법을 이용한 주파수 추정 방법을 제안한다. RTLS란 TLS 기법을 순차적으로 계산하는 방법으로 시변 적응력을 향상시키는 방법이다. 또한 이 기법에 가변 망각 인자(VFF)를 적용시키는 것은 시변 시스템에서 외부적인 변화에 대하여 좀더 효율적으로 대응할 수 있기 위함이다. 기존의 방법과 성능 비교를 위하여 컴퓨터 시뮬레이션을 하였으며 그 결과 시변 시스템에서 본 논문에서 제안한 VFF를 이 용한 RTLS 기법이 보다 향상된 성능을 가지고 있음을 확인 할 수 있었다.
-
의료용 초음파 진단기는 음축 방향 초점거리의 제어를 위해서 각 진동요소의 전기단자에 전기회로를 이용한 가중치를 부가하는 방식을 사용하고 있다. 그러나 본 연구에서는 단일 PVDF로 구성된 트랜스듀서에 바이몰프 타입의 엑츄에이터를 부가하여 진동요소의 배열이나 전기적 가중치의 부가없이 기계적으로 곡률 반경(R.O.C. : Radius Of Curvature)을 제어하는 방법을 제안하였고, 바이몰프 타입 엑츄에이터에 인가한 전압 변화에 따른 트랜스듀서의 곡률 반경 변화를 측정하여 이에 따른 수중에서의 음장 분포 변화를 시뮬레이션 결과와 비교하였다.
-
Measurement Method Using Change of Frequency Characteristics in Two-Layered Piezoelectric Transducer수중에서와 같이 전자기파의 사용이 곤란한 환경에서 정보의 전달 방법으로 초음파를 사용하는 것이 일반적이다. 그러나 기존의 방법은 음파의 전파 경로 상에 있어서 잡음, 온도, 음속 등의 환경에 많은 영향을 받기 때문에 정확한 정보의 전달이 곤란한 경우가 있다. 본 연구에서는 전기적 용량으로 특성을 제어할 수 있는 2층 구조 압전 트랜스듀서에 있어서 전기적 용량 변화에 따른 공진 모드간의 효율 비의 변화를 이용하여 전파 경로 상의 환경 변화에 독립적인 원격 물리 계측법을 제안하고 그 가능성을 확인하였다.
-
전극분할 된 횡진동 모드 압전 진동자에 NIC 회로를 적용한 특성제어 방법을 두께 진동 모드 압전 진동자에 적용하여 그 가능성을 확인해 보았다. 동일한 특성을 가진 두 개의 두께 진동 모드 압전 진동자를 분극방향이 서로 마주보게 제작한 다음, NIC 회로를 적용하여 그 실험결과를 PSpice 모델을 이용한 시뮬레이션과 비교하였다. 그 결과 NIC 회로의 저항
$R-s$ ,의 변화에 따라 두께 진동 모드 압전 진동자의 품질계수는 제어되었으며, NIC 회로를 적용하지 않은 경우보다 품질계수가 약 18.9배 정도 향상되었다. -
Most previous studies using ultrasound for osteoporosis diagnosis have employed ultrasound in a frequency range of 0.2-1 MHz. In this study, acoustic properties of the 12 defatted bovine cancellous bone specimens were investigated in vitro. Speed of sound (SOS) and broadband ultrasonic attenuation (BUA) were measured using three matched pairs of transducers with the center frequencies of 1, 2.25, and 3.5 MHz, respectively, in order to cover a broad frequency range of 0.5-2 MHz. The relative orientation between ultrasonic beam and bone specimens was the mediolateral (ML) direction of the bovine tibia. SOS showed significant linear positive correlations with apparent density for all three pairs of transducers of 1 MHz, 2.25 MHz, and 3.5 MHz, respectively. BUA showed relatively weak correlations with apparent density for the pairs of transducers of 1 MHz and 2.25 MHz. Furthermore, in the measurement with the pair of 3.5 MHz transducers, BUA was independent of apparent density. SOS and BUA were only weakly correlated with each other. The linear combination of SOS and BUA showed significant correlations with apparent density. These results suggest that the frequency range up to 1.5 MHz may be also useful in the osteoporosis diagnosis.
-
Acoustic Characteristics of Nitrile Butadiene Rubber with Carbon Black ContentAcoustic and mechanical properties of Nitrile Butadiene Rubbers (NBR) with the variation of the carbon black content were investigated. NBR where the acrylonitrile content is
$33\%$ based on the mole percent has been prepared with fixed sulfur content for vulcanization. Acoustic measurement of the prepared rubbers were peformed in the frequency region of$300\;\~\;1000\;kHz$ . Their mechanical properties such as density, hardness were also measured. Increase of the carbon black content in the rubber resulted in enhancement of the mechanical property and linear increase of the sound speed as function of the carbon black content. Interestingly, attenuation of the sound speed was only affected by the existence of the carbon black and not by the amount of carbon black in the experiment range of this article. In this study, it was found that the amount of carbon black content in the NBR was correlated with the acoustic properties and can be estimated nondestructively by the measurement of the specific acoustic property. -
이종 매질에서 초음파전달은 각 매질의 음향임피던스에 영향을 받는다. 초음파진동자로 사용되는 압전소자와 매질로 가장 많이 사용되는 물은 음향임피던스 차이가 크므로 경계면에서 투과율이 감소한다. 이를 개선하기 위해 압전소자와 물 사이에 음향정합층을 삽입하여 사용한다. 정합층은 1 layer로 사용되는 경우도 있지만, 넓은 대역폭을 요구하는 분야에서는 2 layer가 사용된다. 본 논문에서는 1 layer 정합층를 갖는 초음파 트랜스듀서에 대해 시간영역에서 해석하는 기법을 분석하였으며, 이를 근거로 매질 사이의 물리적 특성을 고려하여 2 layer 정합층을 갖는 초음파트랜스듀서를 해석하였다. 해석결과 2 layer 정합층일 경우 1 layer에 비해 공진주파수에서의 이득은 감소하였으나 대역폭이 증가됨을 알 수 있었다.
-
현재 복부용 초음파 진단장치에 가장 일반적으로 사용 되고 있는 3.5MHz의 굴곡형 선형배열(curved linear array) 탐촉자에 대하여, 탐촉자 요소의 폭과 높이, 측 방향 및 높이 방향의 곡률 반경 둥의 구조적인 파라메터 변화가 음장에 미치는 영향을 시물레이션을 통하여 체계적으로 해석하였다. 시물레이션에 있어서, 탐촉자는 128개의 요소변환자 중 32개에 의해 초음파 빔을 형성하며, 매질 중에 방사된 파형은 코사인 포락선을 갖는 3주기의 펄스인 것으로 일정하게 가정하였다. 시뮬레이션의 결과, 탐촉자의 측 방향 및 높이 방향 곡률보다는 탐촉자 요소의 폭 및 개구높이가 음장에 더 많은 영향을 미치고 있음을 알 수 있었다.
-
체외 충격파 쇄석술 (ESWL)은 인체 외부에서 발생된 충격파를 인체 내부의 결석 부위에 집속하여 결석을 분쇄하고 치료 효과를 얻는 혁신적 치료술이다. 충격파의 압력 및 파형은 결석의 분쇄 효과 즉 치료 효과를 좌우한다. 체외에서 충격파의 압력은 고감도 하이드로폰을 이용하여 측정할 수 있지만, 인체 체내에서, 특히, 비침습적으로 충격파를 측정하기는 매우 어렵다. 본 논문에서는 ESWL 충격파에 의해 활성화된 체내의 기포군으로부터 방출된 음향 신호 (CIAE)를 측정하여 비침습적으로 충격파의 압력을 추정하는 방법을 실험하였다. 충격파 압력의 추정은 측정된 CIAE 신호에서 1차 기포군 파열음과 2차 파열음 간의 시간 지연은 충격파의 압력과 선형적인 관련성 가진다는 실험 결과 (Coleman et al 1996)에 근거하고 있다. 본 논문에서는 충격파 압력 측정 시스템을 구성하여 생체 외 실험을 수행하였고, 개발된 시스템의 임상적인 활용 가능성을 확인하였다.
-
비파괴검사, 수중탐지, 의료진단 등에 사용되는 초음파 탐촉자에 요구되는 가장 중요한 특성에는 높은 감도와 좋은 분해능이 있다. 본 연구에서는 압전초음파탐촉자의 구성요소(인덕터, 정합층, 후면재 등)가 감도와 분해능에 미치는 영향을 분석한 후, 광대역탐촉자의 구성 요소를 결정하였다. 또한 광대역탐촉자의 시작품을 제작하고 성능시험을 수행하여 이론예측과 실험결과가 잘 일치함을 보였다.
-
3차원 입체영상과 음향은 가상현실(virtual reality) 분야에서 현실감 있는 가상공간을 구성하는데 제일 중요한 요소인데 지금까지 이들은 분리되어 연구되어왔다. 이 연구에서는 가상공간에서 3차원 입체영상과 입체음향을 하나의 통일된 메카니즘으로 구성하기 위한 알고리듬에 대해서 기술하였다.
-
휴대폰의 일반화와 이것의 음향변환기로 사용되는 초소형 스피커 (Micro-speaker) 수요의 증가에 따라 휴대폰의 다양한 기능 및 성능의 개발에 대한 초소형 스피커의 성능개선이 절실히 요구된다. 특히, 초소형 스피커에서 발생된 음의 명료도와 음의 방사효율에 관한 특성의 개선은 당면한 문제이다. 본 연구에서는 초소형 스피커 전면에 진동판 보호를 위해 부착되어 있는 전면 덮개(Front Cover)를 스피커의 명료도와 효율에 관련된 음향적 기구로서 고려하여 일반 휴대폰에 사용되고 있는 초소형 스피커들을 대상으로 전면덮개에 가공된 기공의 면적에 따른 음파의 투과손실을 측정하였다. 또한, 전면덮개와 초소형 스피커 진동판 사이에 존재하는 체적과 전면 덮개의 기공에 대한 음향 임피던스(Acoustic Impedance)를 이론적인 방법으로 구하여 이에 따른 투과손실(Transmission Loss) 및 공명특성을 예측하고 이를 스피커들에 대한 투과손실 측정 결과와 비교하였다. 본 연구의 결과는 초소형 스피커를 제조하는 기업들이 경험적인 방법을 벗어나, 이론적 근거를 바탕으로 제품설계를 수행하는데 기여할 것으로 사료된다.
-
본 논문은 스피커의 후면 방사음을 이용하여 저주파수의 음을 재생하기 위한 인클로져(enclosure) 방식 중 통기구(Vent)를 이용한 위상반전(Bass Reflex) 방식의 스피커 시스템에 관한 것이다. 일반적으로 위상반전형 스피커 시스템의 임피던스 곡선의 특성은 저주파수 대역에서 통기구의 공명에 대한 것과 구동스피커의 공명에 대한 임피던스 봉(mound)이 나타난다. 기존의 연구 결과들은 통기구와 인플로져의 용적에 관련된 최저 주파수에서의 공명에 대한 것만을 대상으로 하였다. 즉, 최저 주파수에서의 공명특성이 상대적으로 높은 주파수에서 나타나는 스피커의 공명특성에 미치는 영향과 이로 인한 스피커의 음파발생 특성에 관하여 구체적인 논의가 되지 않았다. 본 논문에서는 위상반전형 스피커 시스템에서의 두 임피던스 봉오리 사이의 관계를 정리하고, 상대적으로 높은 주파수에서 발생되는 임피던스의 공명 특성에 따른 스피커의 음파발생 특성에 관해 연구하였다.
-
전세계적으로 2002년 7월에 발효될 SOLAS 2000 규정에 의하면, 국제항해에 종사하는 선박의 경우, 선교(bridge)가 밀폐되어 외부 음향신호를 청취할 수 없을 때는 음향수신장치(SRS)를 설치해야한다. 이 연구에서는 SRS에 법적으로 요구되는 사양을 검토한 후, 부가하여 고려되어야할 사항에 대해서 논의하였다.
-
수중 음향 탐지 시스템에서 빔 형성 기법 및 개별 센서에 대한 정합회로의 설계는 실제 시스템 설계 시 시스템의 성능을 결정하는 중요한 요소이다. 본 논문에서는 이 두 가지 기법을 통합하고 있으면서 일반 사용자들도 쉽게 최적 빔 설계를 통한 가중치를 구하고 또 개별 소자에 대한 센서 임피던스 정합회로를 설계할 수 있도록 해주는 통합 S/W를 구현하였다. 본 프로그램을 이용하여 최적의 가중치를 구하고 그 가중치를 가지는 개별 센서의 정합회로를 일괄적으로 설계할 수 있다. 앞으로도 실제 사용자로부터 의견을 수렴하여 계속 성능을 보완할 예정이며 교육용이나 실제 산업용으로 사용이 가능할 것으로 생각된다.
-
소나선배열 신호처리에 있어서 일반적으로 사용하는 빔형성기법은 환경에 대한 정보를 사용하지 않으나, 정합장처리 기법은 해양환경 정보를 사용함으로써 소음원의 추적 및 환경정보의 역산에 이용될 수 있다. 본 연구에서는 2001년도에 동해에서 수행된 실험 자료에 대한 정합장처리 실험과 결과에 대해서 소개한다.
-
본 논문에서는 해양에서 다중경로를 통하여 수신되는 음파의 도달시간을 정확히 파악하기 위한 방법을 제시하였다. 음파 도달 시간을 파악하기 위한 방법으로는 정합 필터 방법 및 웨이브렛 방법을 도입하였으며 각각 모의 수신신호 및 실관측 수신신호에 대해 적용하여 식별 성능을 분석하였다.
-
천해에서의 저주파 단상태 잔향음 모델(L-HYREV)을 개발하였다. 음선이론에 기초한 전파모델은 해저 내로 투과되는 음파에 대한 효과를 적절하게 고려 할 수 없으므로, 해저 내 상호작용을 계산할 수 있는 전파모델이 필요하다. 따라서 본 논문에서는 RAM을 이용해서 전달손실을 계산 후, 다중경로 확장모델을 이용해서 산출한 전달손실을 보정하였다. 모델의 검증을 위하여 GSM(generic sonar model) 잔향음 모의 신호 및 실측잔향음 신호와 비교하였으며, 비교 결과 GSM 보다 L-HYREV 모델이 저주파 잔향음 예측에 적합함을 확인할 수 있다.
-
연안역의 천해 해저면에 설치된 ADCP(Acoustic Doppler Current Profiler, 300kHz, 1200kHz)를 이용, 천해에서 체적 산란강도(volume scattering strength) 수직분포의 시간적인 변동 특성을 알아보았다. 수심 85m와 113m에서 ADCP로 측정한 산란강도의 일주기 변동성은 동물플랑크톤(zooplankton)으로 추측되는 산란체의 일주기 수직 이동(daily vertical migration)의 원인으로 추정되었다. 그러나 수심 20m의 천해에서 관측된 산란강도의 시변동성은 경험적 직교 함수(Empirical Orthogonal Function, EOF) 분석 결과 해저면 부근의 변화가 천해 체적 산란의 변동성에 큰 영향을 주는 것으로 나타났다.
-
구형 배플을 가진 피스톤 음원에 대한 방사임피던스 특성을 유한요소법과 하이브리드형 무한요소법을 사용하여 수치해석하였다. 강체 구형 배플에 있어서 피스톤 음원의 방사면 크기에 따른 자기방사임피던스 변화와 피스톤 음원간의 상호방사임피던스 변화를 고찰하였다. 방사면의 크기에 따라 자기방사임피던스 변화 및 음원간의 상호방사임피던스 변화를 검토한 결과 알려진 해석해와 일치하였다. 또한, 비강체 구형 배플의 특성 임피던스 변화에 따른 자기방사임피던스 및 음원간의 상호방사임피던스 특성 변화를 고찰하였다.
-
해양연구원에서는 최근에 5면에 흡음재를 부착하여 반사파의 영향을 최소화한 무향수조를 제작하였다. 본 논문에서는 사각, 삼각, 해닝, 램프 등 4종류의 임펄스 신호를 이용하여 표면 및 벽면에서의 반사파 특성을 해석하고 있다. 표면 반사파의 경우 프로젝터의 가장 근접한 위치에서의 음압신호는 직접파 및 반사파의 관계가 주파수에 관계없이 일정한 반면 멀리 떨어진 위치에서는 반사파가 더 크게 나타나는 현상이 관찰되었다. 이는 중간에 위치한 하이드로폰의 간섭 현상에 의한 것으로 판단된다. 흠음 벽면의 경우 반사파는 거의 존재하지 않으며 따라서 반사계수는 측정한 주파수 범위
$(\~100kHz)$ 에서 거의 0에 가까운 것을 확인할 수 있었다. 이로서 무향수조의 특성이 만족할만한 수준인 것을 확인하였다. -
음향수조 내에 일정한 간격으로 배열된 단순 모양의 산란체들로부터 획득된 후방산란 신호를 분석하여 산란체 간격(scatterer spacing)을 추측 할 수 있는 방법을 연구하였다. 수신신호의 산란특성을 켑스트럼 피크(cepstral peaks)를 이용하여 산란체 간격으로 해석하였다. 임펄스 응답신호를 이용한 수치계산으로 산란체 간격 추정방법을 검증한 후, 수조 실험으로 획득한 후방 산란 신호에 적용해 그 결과를 비교해 보았다.
-
HYREV (Hanyang univ. Reverberation model)은 천해에서 적용 가능한 고주파 단상태 잔향음 모델이다. 천해에서 발생하는 잔향음은 외해에 비해 경계면 산란 영향이 크기 때문에 경계면 산란 영향을 정확히 포함한 잔향음 모델 개발이 필요하다. 본 모델에서는 고유음선(eigenray) 계산을 통하여 음원과 산란체까지의 도달시간과 전달손실을 계산 하였으며 경계면 산란 예측은 복합 거칠기(composite roughness) 모델을 이용하였다. 모델의 검증을 위하여 GSM(generic sonar model) 잔향음 모의 신호 및 실측 잔향음 신호와 비교하였으며 비교 결과 GSM 보다 HYREV 모델이 천해 잔향음 예측에 적합함을 확인할 수 있었다.
-
-
Prediction method of floor impact noise for light and heavy weight impact is described. Sound pressure level is predicted based on the impedance method. For floating floor system, noise reduction is studied assuming 1-D mass-spring system. It is found that comparisons of predictions and measurements show good agreements. However, certain correction factor is needed to predict noise reduction of floating floor system.
-
An unconstrained tuning fork with a 3-D model has been numerically analyzed by Finite Element Method (FEM) and Boundary Element Method (BEM). The first three natural frequencies were calculated by the FEM modal analysis. Then the change of the modal frequencies was examined with the variation of the tuning fork length and width. Analytical model equations were derived from the numerically relating results of the modal frequency-tuning fork length by approximating minimization. Finally the BEM was used for the sound pressure field calculation from the structural displacement data.
-
In recent years, modularization of engine parts has increased the application of plastic products in air intake systems. Plastic intake manifolds provide many advantages including reduced weight, contracted cost, and lower intake air temperatures. These manifolds, however, have some weakness when compared with customary aluminium intake manifolds, in that they have low sound transmission loss because of their lower material density. This low transmission loss of plastic intake manifolds causes several problems related to flow noise, especially when the throttle is opened quickly. The physical processes, responsible for this flow noise, include turbulent fluid motion and relative motion of the throttle to the airflow. The former is generated by high-speed airflow in the splits between the throttle valve and the inner-surface of the throttle body and surge-tank, which can be categorized into the quadrupole source. The latter induces the unsteady force on the flow, which can be classified into the dipole source. In this paper, the mechanism of noise generation from the turbulence is only investigated as a preliminary study. Stochastic noise source synthesis method is adopted for the analysis of turbulence-induced, i.e. quadrupole noise by throttle at quick opening state. The method consists of three procedures. The first step corresponds to the preliminary time-averaged Navier-Stokes computation with a
$k-\varepsilon$ turbulence model providing mean flow field characteristics. The second step is the synthesis of time-dependent turbulent velocity field associated with quadrupole noise sources. The final step is devoted to the determination of acoustic source terms associated with turbulent velocity. For the first step, we used market available analysis tools such as STAR-CD, the trade names of fluid analysis tools available on the market. The steady state flows at three open angle of throttle valve, i.e. 20, 35 and 60 degree, are numerically analyzed. Then, time-dependent turbulent velocity fields are produced by using the stochastic model and the flow analysis results. Using this turbulent velocity field, the turbulence-originated noise sources, i.e. the self-noise and shear-noise sources are synthesized. Based on these numerical results, it is found that the origin of the turbulent flow and noise might be attributed to the process of formulation and the interaction of two vortex lines formed in the downstream of the throttle valve. These vortex lines are produced by the non-uniform splits between the throttle valve and inner cylinder surface. Based on the analysis, we present the low-noise design of the inner geometry of throttle body. -
-
-
학교 교육의 특성상 많은 부분이 교실에서의 음성정보 전달에 의해 이루어지고 있는 점을 감안하면 바람직한 청취환경의 개선이 검토되어야 한다. 또한 중
${\cdot}$ 고등학교의 수학능력시험의 국어, 영어 듣기평가 및 다양한 어학 시험이 시청각 시설을 통해 이루어지고 있는 실정이므로 교실의 음환경은 매우 중요한 요소라하겠다. 본 논문에서는 음환경을 좌우하는 음원의 위치에 따라 명료 도가 어떻게 달라지는지를 실험을 통하여 검증하고, 명료도가 높고, 교실 전체에 균등한 분포를 보이는 음원의 위치를 찾아내고자 하였다. 교실 내의 음원의 위치로는 일반적으로 많이 쓰이고 있는 column(벽면 노출형)과 ceiling(천정 매입형) 위치와 임의의 음원 cluster(전면 중앙)를 선정하여 음장 파라메터를 측정한 결과 RASTI 는 세 타입 모두$0.54\~0.55$ 로 값으로 근소한 차이를 보이고 있으며, 잔향시간은 ceiling>cluster>column의 순서로 나타났다. 일반적으로 잔향과 명료도와의 관계는 반비례하는 것으로 알려져 있으나, 실험 결과 잔향시간이 1.33초로 가장 긴 column 스피커의 경우 D50 값이 약$47\%$ 로 가장 높은 값으로 나타났다. 이것은 column형 스피커의 경우 음원과 각 학생의 위치에 대한 평균 직접음선거리가 가장 짧기 때문인 것으로 나타났다. -
우리나라의 교회는 점점 신도수가 늘어나면서 점차 대형화되어가고 있으며 많은 첨단 설비를 갖추고자 하는 교회도 적지 않다. 하지만, 교회설계에 있어서, 대체로 그 형태와 규모만 중요시될 뿐, 그 기능에 적합한 건축물을 짓는데 소홀해 왔던 것이 사실이다. 교회의 예배공간에서 이루어지는 음향적인 매개체는 찬양과 설교인데, 이 두가지의 물리적 특성이 다르기 때문에 교회건축에 있어 실내음향은 어려운 과제라고 할 수 있다. 즉, 성가는 긴 잔향시간과 음의 따뜻함(Warmth)과 친밀감(Intimacy)등이 중시되는 반면, 설교는 소리의 명료도, 요해도(intelligibility) 등이 중시되는 등 그 음향적인 특성이 달라, 각기 다른 음환경을 요구하기 때문에 강당이나 음악당보다 교회음향이 건축적으로 난점이 있다고 하겠다. 본 연구는 최근에 시뮬레이션을 통해 음향설계를 실시한 규모가 각기 다른 예배실의 제원과 음향성능을 조사하고 그 특성을 비교, 분석하여 일반적인 음향성능을 개선하기 위한 방안을 모색하여 교회 음향설계단계에 자료를 제공하고자 한다. 이를 위하여 예배실의 규모에 따라 5개의 교회를 선정하였으며 시뮬레이션을 통해 얻어낸 각 교회의 성가시, 설교시 실내음향인자값(SPL, RT, C80, RASTI)과 마감재료 등을 조사하고, 비교하였다. 대체로 규모가 큰 교회에서 음압레벨이 작게 나타났고, 잔향시간도 실의 체적이 클수록 크게 나타났지만 마감재료와 형태에 따라 차이를 보였다. 또, 대형교회의 음향적 결함을 보완하기 위해서는 건축의 형태, 재료는 물론, 전기음향설비의 보강이 중요하다고 하겠다.
-
전주월드컵 경기장은 Fully Digital sidelobe-free array 방식의 음향시스템을 도입한 유일한 경기장으로서 대규모 경기장에 Line Array type의 스피커를 사용한 최초의 예가 된다. 현장음향실험을 통하여 경기장의 주요 음향 파라미터인 음압레벨(SPL), 잔향시간(RT), 음성명료도(D50), 음성이해도(RASTI) 등을 측정함으로 전주월드컵 경기장의 음향시스템의 특성과 종합적인 음향성능을 알아보고자 한다. 주음원(Messenger)만 사용하여 실험한 결과 음압레벨(SPL)은 관중석의 객석간 위치별 음압레벨 표준편차가 약 2.78dB로 나타났다. 이 값은 당초의 음압레벨분포편차의 목표치인
${\pm}3dB$ 의 범위 이내로 나타났다. 또한 최대음압레벨은 평균 100.1dB로 목표치인 96dB을 초과하는 것으로 나타났다. 잔향시간(RT)은 공석시 전체 관중석 평균 2.94초로 나타났으며, 1000Hz에서의 평균 잔향시간은 2.58초로 나타났다. 잔향시간은 실제 경기장의 사용 시 약 0.3-0.4초의 감소가 발생되리라 판단된다. 음성명료도(D50)는 전체 관중석 평균$56.2\%$ 로 매우 양호한 상태로 나타났고 음성이해도(RASTI)는 전체 관중석 평균 0.63으로 목표치인 0.5를 상회하는 것으로 나타났다. 이상의 현장음향실험 결과를 분석한 결과 전주월드컵 경기장의 음향성공은 음향설계 요건을 만족하는 것으로 나타났고 야외 경기장 같은 대형공간에서의 음향시스템에 있어서 Fully Digital sidelobe-free array 방식의 음향시스템의 적용가능성을 보여주고 있는 것으로 나타났다. -
본 논문에서는 최근 건축공간에 있어서 음환경에 대한 관심이 놓아지면서 학교 건축물에 있어서 강의실내의 음환경을 측정하고, 학교건축물에 대한 음환경 기준을 확립하는 데에 기초자료와 필요한 제안을 하는 것이 목적이다. 현재 음환경 기준은 단순히 소음fp밸이나 잔향 시간과 같은 단순한 물리특성만을 기준으로 하고 있다. 여기서는 강의실 내의 잔향시간, D, STI 등외 물리지표와 설문조사 등 주관적 평가를 통해 새로운 음환경 기준을 제시하려고 한다. 여기서 사용되는 물리지표로는 TSP(Time-Streched-Pulse)신호를 사용하여 잔향시간과 D(Deutlichkeit), STI(Speech Transmission index)를 산출하였다. 강의실의 화자의 위치에서 1.5m 높이에 스피커를 놓고 청취자의 위치인 여섯 점에서 무지향성 마이크로폰을 1.2m 높이에 놓고 마이크로폰으로 들어온 임펄스 응답을 측정하고, 강의실 내의 잔향시간과 D, STI를 산출하였다. 다음에 설문조사를 실시하여, 앞에서 측정한 물리지표와 설문조사를 통해 얻은 주관적 평가와의 상관관계를 파악하였다.
-
-
이 연구는 도시공간의 어메니티를 실현하기 위한 수단으로서 사운드스케이프(soundscape)에 관한 연구조사의 결과를 소개한다. 사운드스케이프 및 사운드스케이프 디자인에 관한 개념과 사상을 고찰하고, 남원시의 사운드스케이프 조사를 예로 하여 지역에 있어서 음, 인간 및 환경과의 관계로부터 사운드 어메니티(sound amenity)를 실현하는데 있어서 음이 갖는 의미와 역할을 모색한다. 사운드스케이프 조사방법으로써 문헌조사, 필드조사 및 설문조사를 이용하여 남원지역의 음풍경을 조사
${\cdot}$ 분석하고, 그 시대적, 계절적, 시간적인 음풍경의 변화와 현상, 그리고 지역주민의 음에 관한 인식특성을 파악한다. 조사결과, 지역에 있어서 자연환경을 보존하고 축제등의 전통적인 생활문화를 계승하는 것은 지역의 사운드스케이프와 어메니티 형성에 중요한 역할을 한다는 점을 알 수 있었다. 또한 도시공간의 사운드스케이프 연구는 이러한 일련의 조사연구활동 및 교육활동 등을 포함한 다양한 활동과 여러 영역에서의 유기적인 교류활동이 이루어져야 쾌적한 음환경 창조가 가능하다는 점을 확인할 수 있었다. -
콘트롤밸브는 지역 냉
${\cdot}$ 난방 및 APT, 대형 빌딩의 냉온수, 중온수 및 공조배관 시스템에 사용되어 유체적 바란스를 이루는데 사용된다. 이와같이 유체의 흐름을 조절하기 위하여 사용되는 콘트롤 밸브가 때로는 소음 문제를 일으키기도 한다. 최근 들어 밸브의 소음이 문제가 되는 경우가 빈번해 지고 있다. 밸브의 기본적 기능을 충족시키기 위해서는 영구적인 수두 손실이 필요하며 이러한 수두손실을 발생시키는 과정에서 유체 흐름에 의해 발생한 난류가 커다란 밸브 소음을 유발하게 된다. 본 연구에서는 콘트롤 밸브 소음 특성 평가 방법을 검토하였다. 밸브 및 배관으로 이루어진 시스템에서 발생되는 소음을 예측하는 절차를 살펴보았다. 밸브의 음향 파워레벨을 측정하고 유량 및 차압의 변화에 따른 소음 예측식을 결정 하였다. 본 연구에서 제시한 밸브 소음 측정 방법은 새로운 밸브의 소음특성 평가, 밸브 소음의 예측 그리고 서로 다른 밸브 사이의 성능비교 등에 사용될 수 있을 것이다. -
Effect of Higher Order Form Factors on the Prediction of Room Acoustics by Extended Radiosity Method컴퓨터에 의한 실내음향 예측에 있어 확산반사의 고려는 매우 중요한 요소의 하나로 간주된다. 지난 수년 동안 음선추적법을 이용하여 실내음향을 예측하는 경우에 확산 반사를 고려하기 위한 방안들이 다양하게 제시되었으나 경면반사를 근본으로 하는 영상법에서는 확산 반사를 고려하기가 어려운 것으로 알려져 있다. 본 연구에서는 컴퓨터 그래픽 분야에서 제안된 확장 라디오 시티법을 적용하여 영상법에서 확산반사를 고려하는 방안을 제시하였다. 부분적으로 확산성을 갖는 반사면에서의 음향에너지 반사는 확산반사와 경면반사의 형태로 나누어 볼 수 있으며 반사의 횟수를 거듭함에 따라 확산-확산, 확산-경면, 경면-확산, 경면-경면의 형태로 반사에너지의 전환이 이루어진다. 본 연구에서는 고차 형태계수의 개념을 이용하여 이 네가지 형태의 반사음전달과정을 모두 고려할 수 있도록 함으로써 실내의 벽면을 부분적 확산반사의 특성을 갖는 반사면으로 모델링 할 수 있도록 하였다. 본 논문에서는 확장라디오시티법의 개념과 이에 따른 고차형태계수의 근사 계산법을 제시하고 고차형태계수가 실내음향 씨뮬레이션의 결과에 미치는 영향 등을 분석해 보았다. [본 연구는 한국과학재단 특정기초 연구 (과제번호 1999-1-310-004-3)의 지원에 의한 연구결과의 일부임]
-
The speed of sound, transmission coefficient, and attenuation are measured around the center frequency 1 and 2 MHz in solid materials such as bone, sediment, rubber, and Lucite materials. Common and different characteristics of such materials in the sound speed, transmission coefficient, and attenuation are discussed. Ambiguities in estimating such acoustic characteristics we also addressed. Ultrasonic properties of the first and second kind waves are clarified for different materials. Discussions are concentrated on classes of sound speed, broadband ultrasonic attenuation (BUA), and correlations of sound speed and BUA with apparent density. New correlations of inverse sound speed square and BUA with apparent density are suggested.
-
유도초음파는 얇은 판재와 다층재료를 평가하는데 널리 사용되는데, 이를 정량적으로 이용하기 위해서는 위상 및 군속도의 분산선도는 필수적이다. 본 연구에서는 후방복사 리키 램파를 이용하여 위상속도 분산곡선과 군속도를 측정하였다. 물에 잠긴 판재에 입사각을 변화 시키면서 판재에서 발생하는 후방복사 초음파 신호를 측정하였고, 후방복사된 초음파 신호는 유도초음파의 분산특성을 지님을 보였다. 입사각도와 수신된 파형의 주파수 분석을 통하여 램파의 위상속도 분산선도를 구하였다. 또한, 특정한 입사각에서 입사점을 변화시키면 서 론 파형의 시간대역 이동으로부터 군속도를 측정하였다.
-
본 연구에서는 악기 피치 검출에서 샘플링 오차로 인하여 발생하는 문제점을 살펴보고, 보간법을 적용한 피치 검출 실험 예를 소개한다. 악기의 피치 검출과 음성의 피치 검출의 차이점을 보이고 그 처리 절차를 소개한다. 제안된 알고리즘으로 검출된 피치를 이용하여 악기가 연주되고 있는 음정을 추정하여 음표로 변환한다. 단선율의 솔로 악기 연주 파일(.wav)을 미디 파일로 변환하여 구현된 알고리즘의 유용성을 평가하였다.
-
피치 (pitch)는 주파수와 관련된 인간이 실제 느끼는 음의 높이로 라우드니스 (loudness), 음색 (timbre)과 함께 소리의 음질을 결정하는 중요한 요소로 알려져 있다. 이러한 피치는 음성 해석 및 분리를 위해 많은 연구가 이루어진 반면 소음 분석 및 음질 향상을 위한 방향으로의 연구는 부족한 상황이다. 본 연구에서는 기저막 (basilar membrane)의 위치에 따른 주파수 분리 이론인 위치이론 (place theory)을 기본으로 한 기존의 가상 피치 (virtual pitch) 분석 알고리즘을 소음에 적용하기 위해서 수정하고, 절러가지 소음에 적용하였다. 본 연구에서의 알고리즘은 소음의 주파수 특성에 의존한 방법이기 때문에, 토널 (tonal) 성분이 존재하는 소음의 적용에는 적합한 결과를 나타냈지만, 그 이외의 소음에 대해서는 정확한 분석이 어렵다. 따라서 기본 주파수 (fundamental frequency)와 이와 관련된 고조파음(harmonics)이 음질에 중요한 영향을 미치는 소음의 음질 해석 린 음질 향상을 위해 본 연구의 알고리즘에 의한 피치 분석과 기존의 음질 인자를 적용하면 보다 효율적인 결과를 얻을 수 있을 것이다. 이런 소음의 예로는 엔진의 부밍 소음이나 기어 whine 소음 등이다.
-
Inharmonicity가 피아노의 음색에 미치는 영향을 가능한 한 객관적으로 평가하기 위해 본 연구 에서는 inharmonicity는 다르면서 음색에 영향을 미치는 다른 모든 요소들은 같게 합성된 여러 샘플들을 이용해 청취평가를 시행하는 방법을 사용한다. 합성된 피아노 음의 부분음들이 가지는 시간 영역 엔벌로프는 실제 녹음된 피아노 음에서 추출되었으며 인위적으로 조절되는 inharmonicity 의 크기 역시 실제 녹음된 피아노 음에서 얻은 데이터에 근거하였다. 청취평가는 피아노의 음색을 표현한다고 생각되는 적절한 형용사들의 쌍으로 만들어진 질문들로 이루어졌으며 평가를 반복해가며 보다 객관성을 높이기 위한 방법들을 시도하였다. 이러한 과정에서 얻은 결과들을 통해 그 동안 막연히 이해되어오던 inharmonicity와 음색의 관계를 보다 세밀하고 객관적으로 분석할 수 있다.