Proceedings of the Acoustical Society of Korea Conference (한국음향학회:학술대회논문집)
The Acoustical Society of Korea
- Semi Annual
Domain
- Physics > Interdisciplinary Physics
1998.06e
-
일반적으로 매우 낮은 차단주파수를 가지는 FIR 저역통과 필터의 경우 그 과도영역의 폭이 상대적으로 매우 좁기 때문에 긴 임펄스 응답을 가지게 되며, 따라서 많은 계산량을 필요로 하게 된다. 본 논문에서는, FIR 필터의 계수를 서브샘플링(subsampling)하여 계산량의 현저한 감소를 도모하고, 그로 인하여 발생하는 주파수 영역의 이미지를 IIR 필터를 사용하여 제거하는 기법을 제안한다. IIR 필터로 인하여 발생하는 위상의 왜곡은 앞단의 FIR 필터의 계수를 조절함으로써 상쇄시킬 수 있다. 제안된 알고리듬을 채택할 경우, 동일한 성능의 일반 FIR 필터에 비하여 사용하는 메모리의 양은 거의 같으나, 계산량은 수십분의 일까지 감소시킬 수 있다.
-
근접 4점법을 이용하여 음원으로부터 측정점까지 음파가 전달되어 오는 공간상의 반사음 패턴을 구할 수 있다. 그러나 차량과 같이 협소한 공간에서는 반사음간의 시간차가 매우 작게 되고 따라서 단지 몇 개의 초기 반사음을 제외하고는 측정이 어렵게 된다. 본 연구에서는 측정에 사용된 스피커의 특성을 역필터링하여 차실 내의 펄스 반사음 자체 특성만을 추출함으로써 좁은 공간에서도 반사음 패턴의 측정이 가능하도록 하였다. 실내 반사음 패턴은 음파의 경로를 보여 주는 것이므로 본 측정법은 차량의 실내 음향 특성 파악과 음질 개선에 중요한 도구로 활용될 수 있다.
-
지금까지의 입체음향 재생 연구에서는 Dummy head 나 Head and Torso Simulator(HATS)를 사용한 측정 HRTF(Head-Related Transfer Function)를 사용하여 입체음향 재생 시스템을 설계해왔다. 하지만 이러한 시스템은 구현의 단순함에도 불구하고 계산량 증가로 인한 실시간 구현의 어려움과, 신호처리로 인한 음색의 변화 및 음질의 저하, 정면 정위의 어려움 등 많은 문제점을 내포하고 있었다. 본 연구팀이 제안하는 Relative HRTF는 인체의 가하학적 모델링을 통한 구조적 접근 방법으로 이러한 단점을 극복할 수 있는 새로운 HRTF 모델링 기법이다. 이는 신호처리 과정의 단순화를 통하여 실시간 구현과 음색의 변화를 극소화시키고 스피커 구동 방식에서도 적절히 사용될 수 있다. 또한 본 연구를 위하여 기존의 HRTF 측정 방법의 문제점을 개선한 HATS를 이용한 Blocked Ear Canal HRTF 측정 방법에 대해서도 소개한다.
-
인공 잔향은 콘서튼홀에서와 같이 수백.수천개의 극점과 영점들을 갖는 커다란 시스템을 모델링하기 위한 신호처리 분야 중에서 매우 매력적인 응용 분야중 하나이다. 이러한 인공잔향을 구현하기 위하여, 기존에는 순환적인 디지털 필터인 Comb 필터와 Allpass 필터를 조합시킨 인공 잔향기가 제안되어 왔다. 그러나, 이와 같은 방법은 시스템이 커질수록 실시간 처리와 안정도의 문제가 제기되고, 인공 잔향의 특성이 저하되는 문제점이 있다. 따라서, 최근에는 이와 같은 문제점을 효과적으로 감소시킬 수 있는 귀환 지연 회로망(Feedback Delay Networks : FDN's)과 디지털 도파관 회로망(Digital Waveguide Networks : DWN's)를 이용한 방법이 제안되어지고 있다. 그러므로, 본 연구에서는 귀환 행렬이 Circulant 행렬로 이루어진 귀환 지연 회로망(CFDN's)를 이용한 인공 잔향기 구현에 관하여 논의하고자 한다.
-
This paper presents a technique to enhance TDAC in the AC-3 algorithm. To reduce block boundary noise without decreasing the performance of transform coding, new special window adopted. They improves the defect of the AC-3 algorithm that could not properly cancel aliasing in the tansient period. In addition, a fast MDCT calculation algorithm based on a fast Fourier Transform, is adopted.
-
본 연구에서는 청각계의 시간 및 주파수 특성을 고려한 과도음의 시간-주파수 신호해석 기법인 VFT-STFT (STFT with Variable Frequency Resollution)을 제안하고자 한다. VFT-STFT은 downsampling와 FFT를 반복적으로 수행하여 주파수 대역에 따라 주파수 및 시간 분해능이 청각계의 특성과 유사한 기존의 VFR-FFT에 그 뿌리를 두고 있다. 그러나, 본 연구에서는 기존의 VFT-FFT 알고리즘에 overlap인자를 도입하여 시간-주파수 해석 결과를 구하고, 2/3-rate resampling에 의해 추가로 구성된 시간-주파수 해석 결과의 일부를 기존의 시간-주파수 해석 결과에 이식시킴으로서 기존의 VFT-FFT가 갖는 overlap과 spectral loss 등의 문제점을 최소화하고자 한다.
-
배경 잡음에 의해 저하된 음성을 복원하는 기술은 이미 오래 전부터 여러 가지 기법들이 연구되어왔다. 이들 기법 중, Spectral Subtraction 기법은 단일 채널에 의한 Speech Enhancement의 대표적인 방법이다. 그러나, 기존의 단일 채널 Speech Enhancement 기법의 중요한 단점은 Musical Noise라 불리는 잔존 Noise의 발생 및 목적신호가 왜곡된다는 것이다. 이 잔존 Noise에 의해 지금까지 연구 보고된 단일 채널 Speech Enhancement기법들은 거의 대부분 SNR은 향상되었지만 명료도의 향상이 곤란하였다고 보고되어왔다. 그러므로, 본 연구에서는 인간의 청각기구의 지각과정을 충실히 모방한 ROEX(Rounded Exponential) 청각 Filter를 이용하여 잔존 Noise인 Musical Noise를 억제시키는 기법을 제안하고자 한다.
-
입체음향 시스템의 방향감 제어에서 필수적인 머리전달함수(Head-Related Transfer Function)는 일반적으로 FIR 또는 IIR 필터로 구현되며, IIR 필터의 경우 FIR 보다 비교적 저차 모델링이 가능한 장점을 갖는다. 본 논문에서는 Balanced Model Reduction(BMR) 방법을 이용하여 비교적 높은 차수를 가지는 FIR 형태의 HRTF 필터를 IIR 필터로 설계하고, 입체음향 시스템의 실시간 구현시 필수적인 계산의 효율을 높이는 방법을 제시한다. 또한 IIR 필터로 근사화된 HRTF 필터의 주파수 패턴을 분석하여, 음상정위에 큰 영향을 미치는 주파수 대역을 좀 더 나은 해상도를 갖도록 설계하여 저차 모델 설계시 발생하는 오차가 음상정위에 미치는 영향을 최소화 하였다.
-
본 논문에서는 방송용 오디오 기기가 갖는 다채널의 특성과 각 채널에 대한 다양한 신호처리 기능의 특성을 고려하여 다채널 디지털 오디오 신호 처리기의 구조를 제안하고 범용 DSP를 이용하여 실시간 병렬 처리 시스템을 구현하였다. 구현된 시스템은 32비트 부동수소점 DSP를 이용하였으며 스테레오 채널의 48KHz 표본화 주파수를 지원하고 20비트 해상도를 갖는 시스템이다. 다채널 디지털 오디오 신호 처리 시스템의 구조는 디지털 신호 처리 과정을 수행하는 디지털 오디오 데이터 처리 부분과 시스템을 제어하기 위한 제어 정보 처리 부분으로 제안하였다. 이러한 구조에 적합한 실시간 시스템을 구현하기 위해 전체 시스템은 4부분의 모듈로 구성된다.
-
본 논문에서는 헤드폰과 스테레오 스피커를 통하여 가상의 음상을 임의의 위치에 정위시키는 음상정위 시스템을 구현하고, 주관 평가를 통하여 음상정위 성능을 고찰하였다. 음상정위 시스템은 크게 방향감을 제어하는 컨벌루션 처리부와 공간감과 거리감을 처리하는 잔향 처리부, 그리고 스테레오 스피커를 통해 소리를 재생할 때 발생하는 크로스 토크(corsstalk)를 제거하기 위한 트랜스오럴(transaural) 필터부로 나누어진다. 구현된 시스템의 음상정위 성능은 리스링 룸에서 녹음된 음성과 메트로놈 소리를 이용하여 수평각/고도각, 정지음/이동음, 거리감 등을 헤드폰과 스피커를 통하여 각각 실험한 결과 수평각 지각은 스피커 재생보다 헤드폰 재생이 우수했으며, 정지음보다 이동음의 지각 결과가, 고도각 지각은 전.후(0
$^{\circ}$ ~360$^{\circ}$ ) 방향보다 좌.우(90$^{\circ}$ ~270$^{\circ}$ ) 방향의 결과가 우수하게 나왔다. -
콘서트홀의 음향상태를 평가하기 위해서는 설문지를 통하여 주관적인 선호도를 조사하는 방법과 측정을 통하여 객관적인 지표를 뽑아내는 방법이 있다. 콘서트홀의 음향특성에 영향을 주는 가장 중요한 객관적 지표로서는 친밀도, 공간감, 잔향시간, 명료도, 음의 따뜻함, 라우드니스 등을 들 수가 있다. 국내에서 가장 대표적인 콘서트홀이라고 할 수 있는 예술의 전당 음악당에 대해서 위의 개관적 지표 중 5가지 요소를 실제 측정을 통해 추출하였다. 그 결과 예술의 전당 음악당은 친밀도와 공간감 면에서 조금 부족한 면을 보여 주었고 나머지 3가지 요소에 있어서는 클래식 연주에 적합한 콘서트홀로서의 결과를 보여 주었다. 공간감과 친밀도를 향상시키기 위해서는 음악당 천장에 반사판을 설치하는 것이 필요하다고 사료된다.
-
다공성흡음재의 흡음률에 미치는 요소를 실험을 통하여 알아보았다. 흡음재의 두께, 밀도, 공기층, 표면처리, 흡음재의 조합 등에 따른 흡음률의 변화를 측정하였다. 공기층을 두고 시공하면 저역.중역에서의 흡음률이 현저히 증가하며, 유공판, 판상흡음재 등과 적절히 조합하면 보다 넓은 범위에서 좋은 흡음률을 갖게 됨을 알 수 있다. 또한 최대흡음률을 갖는 두께가 λ/4로 예상되지만, 흡음재의 구조에 따라 음의 경로의 유효길이가 늘어나 그보다 작은 두께일 것으로 예상된다.
-
This paper adopts the psychoacoustical methodology to evaluate the acoustical qualities of rooms and describes some of the results of an attempt to develop such a test. In order to investigate the effect of hall response to subjects, a subjective experiment was performed in artificially simulated sound fields. Pairs of sounds having differences in duration/frequency were presented to a subject and the subject's responses were recorded. The stimuli were varied through an auralization system that simulates three different rooms. It was found that duration/frequency discrimination is influenced by the room conditions and that these discrimination procedures may form the basis for assessment of room acoustics.
-
국악의 대중적 공연에 적합한 공연장에 대하여는 아직 그 주관적 객관적 기준이 설립되어 있지 않다. 현재 국립국악원에 있는 예악당은 국악을 위한 대중적 공연장의 기준이 되어야 하나 국악인들과 국악관계자들의 사이에서 국악의 공연에 적합하지 않은 것으로 평가되고 있다. 본 논문에서는 국립국악원의 예악당을, Maximum Length Sequence, 무지향성스피커, dummy head 등을 이용하여 여러 가지 중요한 객관적 지표인 잔향시간, IACC, Initial-time-delay gap등을 측정하고 한 편으로는 컴퓨터 시뮬레이션에 의한 객관적 지표의 추출을 통하여 비교 분석하였다. 그리고, 이를 토대로 예악당의 음향특성을 개선방향과 국악에 대한 주관적 객관적 지표의 설정 방법을 제시하고자 한다.
-
본 논문은 건축실내표면의 확산성이 실내음향에 미치는 영향의 범위와 그 정도를 알기 위하여 가상의 홀을 시뮬레이션하여 확산성의 차이에 따른 실내음향인자의 변화를 분석하였다. RT, EDT, C80 등의 음향인자의 분석을 통하여 실내의 확산성이 초기 음에너지의 증가와 확산에 큰 영향을 미치고 있으며, 특히, 천장보다는 벽체의 확산명이 명료도의 증가와 음이해도의 상승에 기여하는 것으로 나타났다.
-
본 연구는, 현재 대학에서 성악을 전공하고 있는 2-3학년 재학생들과, 합창단 등에서 활동하고 있는 졸업생들이 성악적으로 '아'를 다른 피치에서 발음할 때, 그 발성의 음향학적 특징들을 보여주고 있다. 연구결과, 졸업생들의 경우 성악발성 포르만트의 형태는 피치가 높아지더라도 Speech시의 형태를 그대로 유지하고 있었다. 그러나 재학생들의 경우에는 피치가 높아지는 동안 성악발성 포르만트상에 크고 작은 변화가 있었는데, 특히 여성파트에서 f1, f2, f3의 주파수가 C5, D5의 음역에서 갑자기 낮은 주파수로 떨어지는 현상을 보였다. 이는 성악가들이 말하는 '팟사지오' 음역을 나타내는 것으로 보이며 남성보다는 여성에게서 그 숙련도의 차이가 많은 것을 보였다 [10]. 또한, 피치가 높아질수록 포르만트이외의 많은 배음열들이 재학생, 졸업생 양쪽 모두에게서 나타났는데 이는 고음부에서 울리는 특정한 발성기관의 영향으로 보인다[3].
-
본 논문에서는 문장의 문법 구조로부터 운율 경계 강도를 효율적으로 예측하기 위해서, 문법 정보의 세밀함에 따라 품사셋을 3단계로 설정하였다. 그리고 운율 경계 강도를 예측하는데 있어서 어떠한 품사셋이 최적인가를 알아보기 위해 150문장의 코퍼스를 구축하였으며, 세 종류의 품사셋에 대해 코퍼스를 수작업으로 품사분석을 하였다. 청취실험으로 결정한 운율 경계 강도를 바탕으로 확률론적인 모델링 방법을 사용하여 예측하는 실험을 하였다. 이러한 예측결과를 평가 비교하여 최적의 품사셋을 정하였다.
-
심리음향학적으로 소리의 감성 요소를 평가하려는 시도가 계속되고 있으나 뚜렷한 결과가 나온 것은 많지 않다. 또한 감성 인자 평가에 대한 국제적인 표준도 정확히 나와있지 않다. 일반적으로 심리음향학 인자로 loudness, sharpness, roughness, fluctuation strength, pleasantness, annoyance를 사용하며, 이러한 인자들을 이용하여 바이노럴 음질 평가 시스템을 구현하였다. 구현된 바이노럴 음질 평가 시스템의 객관성을 평가하기 위해 인성 실험을 실시하였고 인성 실험 결과와 음질 평가 시스템을 이용한 평가 결과를 비교 분석하였다.
-
On the Perceptual Cues to Voicing of English Word-Final Stops -Focusing on the consonantal features-영어의 선행모음의 길이 특성이 어말 자음의 유.무성 인지에 어떤 영향을 미치는지에 관한 선행 연구의 후행연구로서 후행하는 폐쇄음의 자음적 특성은 어떠한 실마리로 적용하는지 한국어 화자들을 대상으로 한 인지실험을 통해 알아보았다. 실험결과, 한국어 모국어 화자들에게 어말 폐쇄음의 자음적 특성은 자음의 유.무성 인지에 중요한 실마리로 작용하지 못하고 있다는 사실을 알 수 있었다.
-
이 논문은 모음 사이에 오는 예사소리와 된소리의 음향적 특징을 비교하여 예사소리와 된소리 사이에 뚜렷한 차이가 나는 음향적 특징 가운데 몇 개를 골라 그것을 변수로 삼았을 때 청취에 미치는 영향을 알아보는 것을 목적으로 삼았다. 모음 사이에 오는 예사소리와 된소리의 음향적 특징은 첫째, 자음의 폐쇄지속 시간이 된소리가 예사소리보다 길다. 둘째, 예사소리 앞에 오는 모음의 길이가 된소리 앞에 오는 모음의 길이보다 길다. 셋째, VOT는 예사소리와 된소리 사이에 차이가 거의 없다. 이 같은 음향적 특징 가운데에서 자음의 폐쇄지속시간과 앞에 오는 모음의 길이가 예사소리와 된소리의 구별에 영향을 미치는 반면 앞에 오는 모음의 길이는 예사소리와 된소리의 구별에 영향을 미치지 않았다.
-
입사된 음파에 대한 배지동의 발생이 물체내 결함이 존재할 때에 나타나는 중요한 비선형 효과라는 것을 이용하여 단순화된 실험실 조건의 겹쳐진 두 장의 유리판에 적용하였다. 본 논문에서는 층상 접합 물체에 있어서의 비파괴 검사법을 위해 접합되지 않은 부분은 두 장의 유리판 사이의 공기 층으로 단순화되었고, 접합되어진 부분은 물 층으로 간주하여 실험을 진행하였고 서로 다른 조건의 두 접합 부분으로부터 발생된 주파수 응답을 관찰하였다. 결과로써 입사된 음파에 대한 배진동의 발생이 공기층에서 두드러지게 나타났지만, 물층에서는 배진동의 발생이 억제되었다. 이 결과로부터 배진동의 발생은 이차원적인 겹쳐진 물체에도 적용 가능함을 알 수 있었다.
-
본 논문은 상용 FEM-BEM 프로그램을 사용하여 점-조화 가진(harmonic point excitation)에 의한 자유지지 경계 조건을 갖는 원통 셸(cylindrical shell)의 방사 효율(radiation efficiency) 실험의 결과와 비교하였다. 우선 충격 해머 실험(impact hammer test)을 통한 모드 시험(modal testing)으로 원통 셸의 공진 주파수(natural frequency)와 모드 형상(mode shape)의 특징을 살펴보고 다음으로 점-조화 가진에 의한 원통 셸의 방사 효율을 SYSNOISE와 ANSYS로 해석해 보았다. 동시에 음향 세기 실험을 통한 방사 효율을 측정하여 전산 해석의 결과와 실험의 결과를 비교해 보았다.
-
차량의 주요 소음원부터 실내 탑승자의 귀의 위치까지 도달되는 소음의 전달에 대한 전체적인 경로 및 주파수특성에 대한 해석은 차량의 구조-음향적인 특성이 복잡하므로 매우 어렵다. 그러나, 중-고주파수에 대한 대책에 있어서는 흡차음재가 유용함은 이미 알려진 사실이다. 차실 벽면에 사용된 흡/차음재는 소음레벨에 부분적인 기여를 함은 물론이고 음질에도 영향을 미친다. 소음 레벨에 있어서는 수백 Hz 이하의 저주파수 성분이 주요하며, 음질에는 중-고주파수 대역의 소음특성이 큰 영향을 미친다[1]. 본 논문에서는, 실험적으로 측정된 소음원의 특성을 수치해석 모델에 이용하여 소음레벨 저감과 음질개선을 위한 흡/차음재의 개선방향을 모색하였다.
-
Acoustical holography is one of the powerful methods in sound radiation problems. Just measuring hologram data on a plane, one can calculate whole space physical quantities such as pressure, particle velocity, and sound intensity. However, the use of finite and discrete operations introduce significant errors inevitably. This paper reviews error reduction schemes, and introduces error analysis criteria derived from modal analysis. Finally the effect of window functions is investigated by these criteria.
-
본 연구에서는 매우 작은 틈새를 갖는 미세 크랙을 초음파가 투과할 때, 크랙 면의 부분 접촉의 의한 새로운 음향 비선형성의 발생 구조를 제안하고 그 정당성을 검증하는데 목적을 두고 있다. 이를 위하여, 초음파가 미세 크랙을 투과할 때 부분 접촉 효과에 의해 나타나게 되는 파형을 반파 모델로 모델링하고 이를 통해 고주파 조화 성분(Harmonics)이 발생하는 원인을 제시하였으며 틈새의 크기와 음향 비선형성의 크기와의 상관 관계를 시뮬레이션과 실험을 통하여 확인하였다. 이를 통해 미세 틈새와 음향 비선형성과의 상관 관계를 밝히고 틈새의 크기가 증가해 감에 따라 음향 비선형성이 증가함을 확인할 수 있었다.
-
수중에서 발생된 기포에 음파가 입사되었을 때, 입사된 음파는 물 속의 기포들에 강제적인 진동을 주어 새로운 음원으로서 활동하게 한다. 이런 경우 기포의 진동은 비선형적인 진동 특성이 강하게 나타나게 되어, 기포는 입사된 음파에 의존하는 비선형 인자로서 작용하게 된다. 본 논문에서는 수중에 발생되는 기포층의 비선형응답 및 다른 형태의 응답을 실험적으로 고찰하기 위하여, 인위적으로 제작된 기포 발생장치를 이용하여 발생된 기포층에 음파를 입사하였다. 이때 입사된 음파는 기포들과의 상호작용을 인하여 여러 가지 응답을 나타내었으며, 비선형 응답으로써 배진동 세기의 현저한 증가와 합주파수 음파 발생 등이 두드러지게 나타났다. 또한 개개 기포의 공진 주파수 근처에서는 물론, 그보다 높은 고주파수에서도 합주파수 형태의 비선형응답이 매우 특징적으로 관찰되었다.
-
최근의 연구에서 해양의 내부파가 음파의 전달에 영향을 주어 비정상적인 손실을 일으키는 것으로 밝혀졌다. 일련의 실험을 통하여 한국 동해에도 강한 수온약층을 중심으로 한 내부파가 존재하는 것으로 밝혀졌으며, 음원과 수신기를 이용한 실험을 통해서도 관측된 내부파의 주기에 해당하는 음파의 변동 특성이 확인되었다. 내부파가 음파의 전파에 영향을 미치는 것은 모드간 간섭을 통하여 이루어진다. 본 논문에서는 모드간섭의 이론적 설명과 함께 음향모델을 통하여 내부파의 영향을 추정하였다. 모델링 결과 내부파는 음파의 모드간 에너지 전이를 일으켜서 에너지를 산란시키는 효과가 있는 것으로 보인다. 한편 거리독립 환경과 내부파가 존재하는 환경간에는 주파수 1 kHz를 기준으로 하여 거리에 따라 약 10dB까지의 전파손실 차이를 나타낸다.
-
A bond graph modeling approach which is equivalent to a finite element method is formulated in the case of the piezoelectric thickness vibrator. This formulation suggests a new definition of the generalized displacements for a continuous system as well as the piezoelectric thickness vibrator. The newly defined coordinates are illustrated to be easily interpreted physically and easily used in analysis of the system performance. The bond graph model offers the primary advantage of physical realizability and has a greater physical accuracy because of the use of multiport energic elements. While results are presented is general in scope and can be applied to arbitrary physical systems.
-
The aim of the work described in this paper is to develop a complex underground acoustic system which detects and locates the origin of an underground hammering sound using an array of six hydrophones located about 100m underground. Two different methods for the sound localization will be presented, a time-delay method and a power-attenuation method. In the time-delay method, the cross correlation of the signals received from the array of sensor sis used to calculate the time delays between those signals. In the power-attenuation method, the powers of the received signals provide a measure f the distances of the source from the sensors.
-
본 논문은 비균일 분포 수동형 견인 배열 센서를 사용하여 입사각 추정은 물론, 도플러 주파수를 동시에 추정해내기 위한 기법을 제안한다. 균일 선형 센서 배열을 사용하는 전통적인 수동형 견인 센서 배열 처리기법은 센서간의 등 간격구조 및 단순한 표본 과정에 기인하여 활용 분야의 한계성을 가지며, 주된 응용 분야가 방사된 음향신호의 입사각을 추정하는 데만 국한되어 사용될 수 있다는 문제점을 내포하고 있다. 본 논문은 이러한 제한성을 극복하고 방사 신호들의 개별적인 입사각 및 도플러 주파수의 동시 추정이 가능한 새로운 형태의 수동형 견인 배열 센서 처리 기법을 제안한다.
-
동해 울릉분지에서 해양내부에 수온구조 파악을 위하여 수중 폭발성 음원인 SUS를 이용한 해양음향 토모그래피 실험을 1998년 8월에 실시하였다. 토모그래피 실험은 30, 60 km 반경으로 36개의 지점에서 항공기를 이용하여 SUS를 투하하고 관측해역 중앙에 위치한 선박에서 선배열수신기 (10개의 수신기 배열)로 수신하였다. 토모그래피 실험에 의한 역산 결과를 비교하기 위하여 AXBT를 이용한 수온관측이 동시에 수행되었다. AXBT 관측으로 울릉분지에서 자주 나타나는 난수성 소용돌이가 관측되었으며 이는 관측해역의 남동쪽에 위치하고 있으며 남서방향에서 북동방향으로 진행하는 형태를 보이고 있다. 음파의 도달시간 차이를 이용한 역산결과는 해양내부의 수온분포를 보여주는데 오차가 커서 새로운 해양음향 토모그래피 기법의 도입 필요성을 제시한다.
-
천해에서의 음파전달은 심해와 비교하여 복잡하고 경계면의 영향을 많이 받으며 서해에서 하계의 평균 수온자료로 잔향음을 계산한 결과 해저면 잔향음(reverberation)이 가장 우세한 것으로 나타났다. 특히 서해에서는 하계에 내부파에 의한 강한 수온약층의 생성이 관측되었으며, 이런 현상은 음파전달에 많은 영향을 줄 것으로 예측된다. 내부파를 조석에 의한 장주기와 단주기로 구분하여 적용한 결과 고주파 음원을 사용할 경우 장주기 내부파에 의한 수온약층의 수식변동에 따른 잔향음은 최대 13dB까지 차이가 났으며 단주기 내부파의 경우 수온약층의 하강한 경우 수온약층이 상승한 경우보다 근거리에서 전달손실 변화가 작았다.
-
이 논문에서 비선형 배열 MUSIC 빔형성 기법을 이용하여 예인형 선배열 센서 시스템의 표적 좌우 방위 분리 방법을 기술하였다. 이 기법은 배열 운동모델 Water-Pully 모델과 방향센서의 정보를 이용하는 칼만필터를 설계하여 예인함 기동에 따른 배열형상을 추정하고 표적의 좌우방위를 분리하기 위하여 추정된 배열형상에서 MUSIC 빔형성 기법으로 신호처리를 수행하였다. 또한 예인주기와 예인진폭과 같은 예인함 기동형태의 전형적인 빔형성 기법과 MUSIC 빔형성 기법으로 표적의 좌우 방위 분리 성능을 비교 분석하였다.
-
본 논문에서는 2차원 평면 배열에서 소자들간의 간섭 영향을 빔 설계 기법을 제안한다. 실제적으로 빔을 구현할 때, 소자간 간섭이 전체 빔 패턴을 변화시키게 되어 성능을 저하시킬 수 도 있다. 따라서 보다 정확하게 빔을 설계하기 위해서는 소자간의 간섭 영향을 고려한 빔 설계 기법이 필요하게 된다. 본 논문에서는 특성을 알고 있는 소자로 구성된 평면 배열에서 다른 소자에 의한 간섭을 예측한 후 이것을 각 소자의 가중치에 포함 시켜 원하는 사양의 빔을 설계할 수 있도록 한다. 빔 설계방법으로는 선형 최소자승법을 이용하여 빔의 부엽준위의 위치와 크기를 변화시키면서 원하는 조건의 빔 가중치를 얻어내는 알고리듬을 도입하였다.
-
불발 음원에 따른 음원 배열의 빔 패턴 변화와 남극탐사자료에서 원거리장 파형 변화를 분석하였다. 원거리장 파형의 주신호 진폭은 전체 건 부피의 약 40%에 해당하는 음원들이 불발을 일으킬 경우, 탐사성능이 33% 정도 떨어지는 것으로 확인되었다. 같은 간격의 음원들이 불발 시에는 배열형태와 관계없이 길이 및 폭배열의 빔 폭이 동일하게 나타난다. 불발 음원의 부피가 증가됨에 따라 상대적으로 음파 에너지가 작아 지지만 빔 폭이 40
$^{\circ}$ - 34$^{\circ}$ 로 좁아지는 경향을 나타낸다. 따라서 탄성파 탐사에서 필요로 하는 좁은 파형이 생성됨으로써 천부 지층탐사에 적합한 것으로 확인되었다. -
본 논문에서는 충격성 잡음에 강인하기 위한 시변 주파수 추정 기법을 제안하였다 충격성 잡음에 강인하기 위해서는 충격성 잡음에 의한 추정 변수의 동요를 제한하고 추정된 오차가 향후 추정시 영향을 미치는 오차의 전파현상을 제한하여야 한다. 충격성 잡음에 의한 추정오차의 전파를 제한하기 위해서는 망각인자의 도입이 필요함을 증명하였고 보다 효과적으로 사용하기 위해서 가변 망각인자를 도입하였다. 가변 망각인자의 도입으로 충격성 잡음에 의한 오차의 전파를 선택적으로 제한할 수 있으며 충격성 잡음에 의한 추정계수의 변동은 영향함수 측면에서 Huber함수를 이용하여 제한하였다. 제안된 알고리듬은 Huber함수와 가변망각인자의 도입으로 충격성 잡음에 의해 생기는 오차의 크기와 오차의 영향이 전파되는 것을 적응적으로 제한하기 때문에 모의실험을 통해 기존의 칼만 알고리듬보다 나은 성능을 보임을 알 수 있었다.
-
본 논문에서는 ATW(Automatic Tracking Window)를 사용하여 입력신호를 처리한 후에 MUSIC을 사용하여 주파수를 추정하도록 알고리즘을 수정하므로써 MUSIC알고리즘의 Threshold효과를 개선할 수 있음을 보인다[1]. ATW 전처리는 일종의 대역 여파기 효과를 가지나 일반 대역 여파기와 다른 점은 사용자가 입력신호의 중심 주파수를 알지 못해도 된다는 장점을 갖는다.
-
스테레오 음향 반향 제거기에서 발생하는 주요한 문제점들은 모노 환경에서와는 다르게 반향 경로 시스템의 긴 임펄스 응답으로 인한 느린 수렴속도와 원단화자 주위의 환경변화에 의한 최적해의 변화 등을 등 수 있다. 이러한 문제점들을 극복하기 위해 본 논문은 전송실에서의 환경 변화에 의한 반향 제거 성능저하와 저속의 수렴속도 및 과다한 계산량의 문제점을 해결하기 위하여 본 논문에서는 전송실의 환경 변화에 강인하고 계산량을 줄일 수 있는 Hyper-plane projection 알고리듬을 이용한 의사 스테레오 음향 반향 제거기를 제안한다.
-
높은 Q가 요구되는 고주파 신호 처리용 필터 설계에서는 흔히 SC 필터를 사용하고 있다. 처리하고자 하는 신호가 고주파수이고, 선택도 Q 값이 매우 높은 경우에는, SC 필터에 사용하는 증폭기의 성능이 빠르고, 직류 성분 이득이 커야만 한다. 이와 같은 속도와 이득이 요구됨에 따라 일반적인 범용 증폭기는 이득이 충분치 못하여 사용이 제한되고, 설사 범용 증폭기를 이용하여 필터를 구성하였다 해도 그 특성에 많은 제한을 줄 수밖에 없다. 또한 GaAS MESFET op amp의 경우, 최근의 논문에서도 60[dB] 이상의 이득이 제안된 바 없으므로, 필터 구성시 또 다른 설계 기술이 요구된다. 따라서 본 논문에서는 GaAS MESFET 능동 SC 적분기의 유한한 이득과 offset 전압을 보정한 새로운 구조의 적분기를 제안한다.
-
웨이브렛 변환은 신호나 영상을 분석하기 위한 다해상도 분해기법으로 사용되어 왔다. 웨이브렛 변환영역에서 신호는 스케일과 위치상의 크기로 표현된다. 이 변환영역에서는 신호나 영상의 주파수 성분들이 각각의 스케일에 따라서 분리되어 나타난다. 또한 각 변환영역은 신호나 영상의 공간적인 특성을 상당부분 포함하고 있다. 이러한 웨이브렛 변환의 특성은 푸리에 변화에 기초한 방법과는 달리, 에지와 잡음성분을 효과적으로 분리할 수 있는 정보를 우리에게 제공해 준다. 본 논문에서는 웨이브렛 변환영역의 각 스케일 특성과 공간적인 특성을 이용하여 영상의 잡음성분을 제거하였다. 잡음제거 기법의 성능평가를 위해 Wiener 필터링 방법과 비교하였다.
-
본 연구에서는 256(16
$\times$ 16)개의 마이크로폰 정방형 배열에 의한 음향 홀로그래피 시스템을 제작하고, FFT에 의한 음향 홀로그래피법 알고리즘을 이용한 음원 위치 추정에 관하여 기술한다. 본 연구에서 설계한 측정 시스템은 방사된 음들을 동시 수음함으로서 실시간 데이터 처리가 가능하다. 또한 환경 잡음이 존재하는 실음장에서도 계측시간을 단축함과 동시에 고분해능으로 안정하게 음원의 위치를 추정할 수 있다. 본 연구의 타당성을 검증하기 위해 SYSNOISE에 의한 음장해석과 음향 홀로그래피 알고리즘을 이용하여 마이크로폰 간격 및 측정면 크기, 측정거리의 최적 조건을 구한 후 실음장 측정 실험에 적용하였다. 수치 시뮬레이션과 무향실에서 실험 데이터에 의해 음원 위치를 추정한 결과 유사한 결과를 얻었다. -
본 논문에서는 희소어레이 구조를 응용한 선형제약형 적응어레이 처리기를 제안하였다. 다경로 환경하에서 간섭신호의 제거에 효과적인 공간유화방법을 사용하여 제안된 어레이 처리기의 성능을 분석평가하였다. 선형어레이와 최적화된 센서간격으로 이루어진 선형어레이와 정상어레이 간의 성능을 비교하였다. 실험결과 최적화된 희소어레이를 이용한 선형제약형 적응어레이의 성능이 정상어레이의 성능에 버금가는 것으로 나타났다.
-
본 연구에서는 원격 화상회의 시스템 등에서 Camera를 자동적으로 제어하기 위해 화자의 음성신호를 4개의 마이크로폰 배열(Microphone Array)로 수음하여 그 신호에 의해 화자의 위치를 추정한다. 마이크로폰으로 수음한 음성신호의 TDE(Time Delay Estimation)를 계산할 때 그 연산량을 감소시키기 위해 AMDF 알고리즘을 사용한다. 각 마이크로폰 출력신호에 대해 AMDF 알고리즘으로 시간지연을 구하고 DOA(Direction of Arrival)를 계산한다. 그리고 다시 공간 기하계산을 통해 공간내 화자의 위치를 추정한다. 시험 신호로써 음성신호 '아'음을 사용한 수치 시뮬레이션과 반사음이 존재하는 일반 강의실에서 아나운서가 발성하는 음을 사용하여 AMDF 알고리즘을 이용한 화자위치 추정의 정확도를 조사하였다.
-
본 논문에서는 기존의 방법에 의해 추정된 시간 지연의 차를 이용하여 표적의 위치를 추적하는 방법을 제시한다. 표적 위치를 추정하는 알고리즘의 전단에서 시간 지연의 차를 보정하는 과정을 수행하고, 후단에서 칼만 필터로 smoothing을 하는 방법을 제시한다. 이 방법을 사용하여 최소 2N-2개의 시간 지연 차를 이용하여 표적의 위치를 보다 정확히 추적할 수 있다.
-
This paper study on blind adaptive interference suppression algorithm without training sequence to solve Near-Far problem due to multi access interference. And the performance of each algorithm in the presence of the multipath fading channels over DS-CDMA is evaluated. Simulation results showed that Modified LMS-CMA algorithm has a higher capacity than MOE in SIR/SNR.
-
기존의 DPCM에 의한 압축방법은 예측오차를 양자화하여 전송한 후 복원하는 것으로 8레벨로 양자화하는 경우 3bpp의 비트율을 갖는다. 본 논문에서는 화소값의 압축에 의해 기존의 DPCM보다 예측오차값의 분포를 0을 중심으로 더 집중시킴으로써 더 낮은 비트율을 갖는 압축방법을 제안한다. 압축된 각 화소의 예측오차값은 DPAM방법에 의해 8-레벨로 양자화되고, 양자화된 예측오차의 열을 4와 2 단위로 분할하여 예측오차의 학습된 열로 구성된 각각의 코드북과 비교한다. 비교 결과 코드북의 주소를 생성하여 전송하고, 복원시 화소값을 확장한다. 제안된 방법은 DPCM방법보다 2.4~4.06dB 낮은 복원 영상의 화질을 보이지만, 비트율은 2.17~2.34bpp를 얻음으로써 0.66~0.83bpp정도 개선할 수 있다.
-
TCM(Trellis-Coded Modulation)은 대역폭과 전력이 제한된 채널환경에서 채널부호화 기술과 변조기술을 결합시켜 대역폭의 증가없이 에러정정능력을 개선시키는 통신 기술이다. 본 논문에서는 TCM 신호의 복호시 사용되는 Viterbi decoder에서 traceback depth의 감소에 따른 BER(Bit Error Rate)의 증가를 개선하기 위해 수신부에서 설정하는 traceback depth를 주기로 blocking하여 TCM encoder의 입력시퀀스에 zero padding bits를 추가시키는 새로운 알고리듬을 제안한다. 모의실험결과, traceback depth가 50인 hard decision의 경우 약 2~2.5dB, 4-level soft decision과 8-level soft decision의 경우 약 0.3~2dB의 coding gain을 얻을 수 있었다.
-
본 논문에서는 가변블록에 대해 DCT와 VQ를 적용함으로써 복원시 영상의 품질을 원하는 수준으로 유지하면서 비트율을 감소시키는 방법을 제안한다. 각 블록에 대해 임계값에 따라 블록의 크기를 세분화 시켜 하위 블록에 대해 DCT와 VQ를 적용한다. 임계값 결정 방법은 원 화소의 최대군과 최소군의 편차를 이용하였다. 제안된 방법은 화소의 변화가 급격한 영상에서는 비트율이 0.34~0.47bpp가 감소하였고, 화소의 변화가 적은 영상에서는 0.74~0.79bpp정도 개선할 수 있다.
-
음성인식시험은 다양한 사용자의 음성을 입력으로 음성인식을 수행하고 그 결과를 이용하여 시스팀의 성능을 평가하거나, 음성의 특징을 파악하기 위한 중요한 기능으로 음성인식 서비스의 질을 향상시키기 위한 필수적인 요소이다. 본 논문에서 제시하는 음성인식 자동시험장치는 음성인식의 결과를 DTMF 신호로 처리하도록 하여 사람의 개입 없이 빠르고 정확한 결과를 통해 인식율, 인식속도 등 인식기술과 관련된 중요한 정보를 얻을 수 있도록 하였다. 본 논문에서는 한국통신의 기업체 음성다이얼서비스의 음성인식시험을 중심으로 음성인식 자동시험장치의 구성 및 기능에 대해서 설명한다.
-
In the Input Buffer Switch using the intial stage FIFO memory structure, It has pointed the Throughput limitation to the percent of 58.6 due to HOL(Head of Line) blocking in the DBP(Dedicated Buffer with Pointer) method, During that time, To overcome these problems, The prior papers have proposed the complicated Arbitration algorithms and Non-FIFO memory structures. and These showed the improved Throughput. But, Now, To design high speed ATM Switch which need to the tens of Giga bit/s or the tens of Tera bit/s. It has more difficulty in proceeding the priority of majority and the complicated Cell Scheduling, because of the problem in operating the control speed of the ratio of N to scanning each port and scheduling the Cell. In this paper, To overcome these problems, We could show more the improved performance than the existing DBP Window policy to design high speed ATM Switch.
-
In this paper, we present the modified blind adaptive multiuser detector based on Constant Modulus Algorithm(CMA) for the demodulation of code-division multiple-access(CDMA) signals. Convergence issues are treated, and the performance of three algorithms is compared via computer simulations.
-
본 논문에서는 횡파를 이용한 STAM 시스템을 이용하여 다층구조물에 대한 토모그라픽 영상을 복원함으로써 토모그라픽 영상의 분해능을 개선시키는 방법에 관하여 연구하였다. 먼저, STAM 시스템의 수조에서 초음파가 시료로 입사될 때 입사각도에 따라 발생되는 종파와 횡파에 대한 모드변환에 관하여 고찰하였다. 실험을 위하여 시료로 각 층이 서로 다른 패턴을 갖는 2층의 알루미늄을 가공하여 다층구조물을 제작하였으며, 시료에 횡파를 여기시키기 위하여 초음파변환기의 입사각을 18
$^{\circ}$ 로 사각 입사시킬 수 있는 웨지를 가공하여 수조를 제작하였다. 본 실험에서는 동작주파수가 10MHz인 STAM 시스템을 이용하여 4중 프로젝션에 대한 토모그라픽 데이터를 영상처리하여 토모그라픽 영상을 복원하였으며 이를 기존의 종파를 이용한 토모그라픽 영상과 비교분석한 결과, 콘트라스트와 축방향 분해능이 향상되고 토모그라픽 영상을 복원할 수 있었다. -
집속음장의 고조파성분을 이용한 초음파영상의 특성을 해석하기 위해 집속된 가우스 음원에 직선 edge를 초점면 및 초점면의 전, 후방에 삽입하여 edge의 후방에서 생성되는 음장을 조사하였다. 계산에서는 그린함수의 간단화를 위해 Fresnel근사를 이용하였고, 실험에서는 성형전극을 형성시킨 1.9MHz 요면진동자에 의한 가우스분포의 음장을 갖는 초음파빔에 수직하게 edge를 삽입시켰다. 음장의 이론해석 및 실험결과, 초점면의 제2고조파의 빔형상을 제외하고는 계산치와 실험치가 잘 일치하고 있으며, 제2고조파의 공간 분해능이 기본파에 비해 높음을 알았다.
-
The scattering of plane ultrasonic waves by the nuclear fuel pin of liquid metal reactor in sodium is studied. According to the internal composition in the cladding tube, the fuel pin has three cross sections, i.e. helium gas plenum, sodium-filled section, and fuel insertion section. The scattering spectra for each section of the fuel pin are different. The circumnavigating ultrasonic waves of each section are analyzed by the resonance scattering method. The whispering gallery wave modes are generated in the sodium-filled plenum section and the fuel rod insertion section with a sodium-gap. The circumferential wave modes are propagated in the cladding tube of the helium gas plenum section. The annular gap between the cladding tube and metal uranium pellet rod affects the scattering spectra. The different propagation characteristics can be utilized for the nondestructive method of detecting the unbonded area and measuring the level of the sodium-filled section of the fuel pin.
-
초음파 수신 신호의 공진주파수 변화를 이용한 온도 측정법에서 협대역 변환기를 사용한 초음파 온도측정이 가능함을 보여준다. 그리고 이를 위하여 공진주파수 변화와 온도변화간의 비례상수를 변화시켰다. 기존의 측정법은 온도변화와 기본주파수 변화와의 관계를 비례상수로 정의하였기 때문에, 최소한 3개 이상의 하모닉을 포함하는 광대역 변환기가 필요하였다. 하지만 협대역 변환기를 이용한 온도측정법에서는 비례상수를 주파수 변화비와 온도변화간의 관계로 나타내기 때문에 한 성분의 하모닉만을 측정하여도 온도측정이 가능하게 된다.
-
본 연구에서는 해석적인 방법을 사용하여 고감도 멘드릴형 광섬유 음향센서를 설계하고자 하였다. 음향감지부의 형상으로 실린더형 멘드릴 및 중공원통형 층상복합체 멘드릴을 선정하고, 음향감도에 대한 이론식을 유도하여 재질변수 및 형상변수 등에 따른 음향감도를 해석하였다. 또한 해석적 방법 및 유한요소법을 이용한 분석결과를 비교하여 해석적인 방법의 타당성을 검증하였다. 그 결과, 멘드릴의 외경변화에 의한 감도변화 경향만이 다소 차이를 보이고 있으나 그 이외의 재질변수 및 형상변수에 의한 음향감도 변화 경향은 서로 잘 일치하는 것으로 분석되었다.
-
In this paper, we have studied measurement technique for inhomogeneous residual stress using acoustic microscopy with quadrature detector. In experiment, aluminum tensile specimen with the flaw has been made and loaded by Instrone. A spherical typed acoustic transducer of center frequency 5MHz has been used for sending a longitudinal acoustic wave into a stressed specimen. It has been shown in experimental results that the phase has largely changed around the flaw that residual stress has been largely distributed and acoustic microscopy has been used in the field of residual stress measurement.
-
일반적으로 음성 합성용 데이터 베이스에서는 고음질을 유지할 수 있는 파형 부호화법을 주로 사용한다. 그것은 파형 부호화법이 발성자의 개성과 메시지 정보를 보존하기 때문에 음질의 명료성이 우수하기 때문이다. 그러나 기존에는 파형 부호화법을 적용해서 음성 파형 자체의 잉여성분만을 제거한 후 합성용 데이터 베이스로 사용하기 때문에 음성 합성용 데이터 베이스의 크기가 커지는 단점을 가진다. 따라서 본 논문에서는 이러한 단점을 극복하기 위해서 기존의 운율조절법을 통해서 음성 합성용 데이터 베이스를 압축하는 방법을 제안한다. 결과적으로 제안한 방법을 사용함으로써 고음질을 갖는 음성 합성용 데이터 베이스를 가질 수 있었고 데이터 베이스의 크기도 줄일 수 있었다.
-
본 논문에서는 고품질 한국어 합성을 위한 합성단위에 대해서 연구한다. 합성단위는 합성음의 음질을 좌우할 뿐만 아니라 전체 시스템의 크기에도 영향을 미친다. 음소와 같이 단위의 수가 적은 경우 적은 메모리로 시스템의 구성이 가능하지만 음운천이구간의 처리가 어려우며, 복합음소단위의 경우 많은 메모리를 요구하지만 음운천이특성을 잘 표현할 수 있는 장점이 있다. 본 논문에서는 합성단위가 한국어 합성음질에 미치는 영향을 분석하기 위하여 반음절, CVC형, VCV형 복합음소를 대상으로 음성을 합성하였다. 실험에 사용된 합성시스템은 최근 제안된 코퍼스에 기반한 합성시스템이다. 실험 전에 파악된 각 단위들의 통계적인 특성과 합성음의 음질을 비교한 결과 CVC형 복합음소가 제안된 시스템에 가장 적합한 합성단위로 판정되었다.
-
본 논문에서는 자연음성으로부터 통계적인 방법으로 일반적인 음성합성 규칙을 생성하기 위해, 남녀 각각 1명이 200문장에 대해 발성한 문음성 데이터를 음운 세그먼트, 음운 라벨링, 음운별 품사 태깅, 문법 정보 태깅하여 음성 데이터베이스를 구축하였다. 이 음성 데이터베이스로부터 휴지지속시간을 분석하여 긴 휴지와 짧은 휴지로 분류하였고, 이러한 휴지가 어느 경우에 나타나는가를 조사하였다. 음운지속시간을 보다 정교하게 예측하기 위하여, 각 음운의 고유 지속시간의 영향을 배제시킨 정규화 지속시간에 대해 2가지 class(장, 단)의 휴지시간을 고려한 회귀트리로 음운지속시간을 모델화하였다. 제안된 모델의 평가 결과 예측치와 관측치 간의 다중 상관 계수는 남성은 0.82, 여성은 0.84 정도로 평가되었다.
-
G.723.1은 저 전송률 환경에서 고음질을 제공하여 주고 있으나 CELP형 부호화기가 갖는 합성에 의한 분석(analysis by synthesis) 방식의 구조로 인해 많은 처리 시간과 계산량을 요구하게 된다. 본 논문에서는 G.723.1에 대해 skipping 기법을 이용하여 피치 검색과정이 계산량을 줄여 부호화기의 전체 처리 시간을 감소시키는 방법을 제안하였다. 예측 피치를 찾기 위한 개회로 피치 예측(open loop pitch estimation) 과정에서 계산량을 줄이기 위해 skipping 기법을 사용하였다. 피치 예측 과정시 상관관계를 파형은 양과 음의 파형이 교대로 나타나는 특징을 가지고 있기 때문에 계산시 음의 파형을 생략하는 방법을 사용하였다. 실제 음성시료에 대해 제안한 피치 검색법을 적용하였을 때 부호화시 평균 처리시간은 약 10%정도 감소하였으며 기존 G.723.1과 제안한 방법을 적용한 G.723.1의 음질 비교를 위하여 MOS 평가를 했을 때 기존의 방법이 평균 3.76인데 비해 제안한 방법의 평균 MOS는 3.73으로 주관적인 음질 저하는 거의 나타나지 않았다.
-
본 논문에서는 CELP 음성 부호화기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 최적 코드북 검색 과정에서 추가적인 알고리듬의 지연 없이 미래 정보를 이용하고 두 인접한 코드북 부프레임 사이의 동시 최적화를 통하여 음성 부호화기의 성능을 향상시킨다. 또한, 제안된 코드북 검색 과정의 계산량을 조절하기 위한 방법도 제공된다. 제안된 방법의 성능을 검증하기 위하여 IS-96A QCELP 음성 부호화기를 이용하여 합성음의 스펙트럼과 Segmental SNR로 성능을 측정하는 모의실험을 실시하였으며, 제안된 방법을 적용한 QCELP 음성 부호화기가 기존의 QCELP에 비하여 향상된 성능을 보여주었다.
-
본 논문에서는 다양한 멀티미디어 서비스를 위해 가변율 half rate 음성 부호화기를 설계하였다. 유, 무성음과 묵음의 구분을 위해 본 논문에서는 프레임 에너지와 음성 파라메터들을 이용한 효과적인 voicing 결정 알고리즘을 사용하였다. 유성음을 위한 half rate 음성 부호화기는 저속에서 좋은 특성을 보이는 generalized AbS구조를 이용하였다. LPC 계수는 LSP 계수로 변환한 후 predictive 2-stage VQ를 통해서 양자화하며, 여기 신호는 음질저하를 최소화하며 복잡도를 감소시킨 shift 방식의 대수적 고정 코드북 구조를 사용하고, 적응코드북과 여기코드북의 이득은 VQ로 양자화 하였다. 무성음을 위한 부호화기는 대부분이 유성음을 위한 부호화기와 동일하지만, 무성음에서는 피치간 상관도가 매우 낮으므로 피치 보간 방법을 사용하지 않고 개루프로 피치 lag를 찾은 후 전체 프레임에 사용한다. 1 kb/s 부호화기는 묵음 구간과 주변소음 구간에 사용되며 이 구간의 신호를 피치 성분이 미약한 주변소음들로 제한하고 이에 최적인 부음성 부호화기를 설계하였다. 최종적으로 완성된 가변율 half rate 부호화기는 voice activity factor(VAF)가 0.47인 시험음성에서 약 2.6 kb/s의 평균 전송률을 보였다. 주관적 음질 평가의 일환으로 IS-96 표준 코덱인 가변율 8 kb/s QCELP와 A-B preference 시험을 실시하였다. 시험 결과 평균전송률이 약 2배인 가변율 8 kb/s QCELP 보다 우수한 음질 성능을 보였다.
-
본 논문에서는 CDMA(Code Division Multiple Access) 채널을 통과하면서 여러 가지 형태로 손상된 음성에 대한 주관적 음질 평가를 할 수 있는 객관적 척도에 대한 연구를 수행하였다. 즉, CDMA 채널을 통과한 음성 신호에 대하여 주관적 음질 평가 방법 중 가장 많이 사용되고 있는 MOS(Mean Opinion Score) 테스트를 수행하고, 이 MOS 테스트 결과를 추정할 수 있는 객관척도 알고리즘을 시뮬레이션 하였다. 이러한 연구 결과로 PSQM(Perceptual Speech Quality Measure)을 CDMA 채널 환경에 맞게 수정하여 우수한 성능의 객관적 음질 평가 방법을 얻었다.
-
본 논문에서는 실측된 실내 충격 응답을 모델링하여 실내 잔향 필터 설계를 시도하였다. 급강하법(steepest descent method)을 이용하여 측정된 실내 충격 응답을 4개의 콤 필터(comb filter)와 2개의 올패스 필터(allpass filter)로 이루어진 잔향 필터로 모델링하여, 잔향 필터의 계수를 결정하였다.
-
본 논문에서는 핵심어 검출의 성능을 향상시키기 위한 새로운 후처리 방법을 제안한다. 일반적으로 핵심어 검출 시스템에 의해 검출된 상위 n개의 후보 단어들의 우도(likelihood)는 비슷한 경우가 많다. 따라서, 한 음성구간에 대해 음향학적으로 유사한 핵심어들간의 오인식 가능성이 높아진다. 그러나 기존의 핵심어 검출에 사용된 후처리 방법은 음성의 모든 구간에 같은 비중을 두고 우도를 평가하므로 비슷한 음향학적 특징을 가지는 유사한 핵심어들의 비교에 적합하지 못하다. 이를 해결하기 위하여, 본 논문에서는 후보단어들의 부분적인 음향학적 특징 차이에 기반한 가중치를 우도 계산 시에 반영함으로써 보다 변별력을 높이는 알고리즘을 제안한다. 실험 결과, 제안된 방법을 이용하여 유사한 후보단어들간의 변별력을 높일 수 있었고, 인식율이 93%일 때, 우도비검사 방법에 비해 19.6%의 false alarm rate을 감소시킬 수 있었다.
-
본 논문에서는 서브밴드 및 전 대역(full band)으로부터 얻은 특징 벡터를 함께 사용하여 잡음 환경에서 음성인식 시스템의 성능을 향상시키는 방법을 제안하였다. 이는 인식시 잡음에 오염된 대역에서 얻은 특징 벡터를 제거하는데 따른 정보 손실을 막기 위해 전 대역으로부터 얻은 특징 벡터를 함께 이용하며 신호 대 잡음비가 높은 대역을 강조하여 각 모델에 대한 확률 값을 계산한다. 전화망에서 수집된 데이터베이스를 이용하여 인식 실험을 수행한 결과 비교적 넓은 주파수 대역에 걸쳐 분포된 잡음의 경우에도 인식 성능을 향상시킬 수 있었다.
-
본 논문에서는 한국통신에서 음성인식을 이용한 전화정보 서비스의 일환으로 개발해 온 증권정보 시스템의 구조와 기능을 설명하고, 시스템을 다채널로 확장함에 있어서 시스템의 자원을 효율적으로 활용하기 위하여 적용한 방법에 대하여 기술하였다. 이 시스템에서는 음성특징을 추출하는 프로세서(DSP0)들과 단억검색을 하는 프로세서(DSP1)들이 분리되어 있으며, 이 둘 간의 개수 비율을 조절함으로써 실시간적 처리 효과를 유지하면서도 시스템의 전체 프로세서의 개수를 줄였다. DSP0와 DSP1 간의 음성 특징 데이터 전송에 있어서는 DSP0에서 발생하는 데이터를 음성이 입력되는 중에 전송할 수 있게 함으로써, DSP1에서는 DSP0과 병렬적으로 작업을 수행시킬 수 있으며, 결과적으로 시스템의 속도를 빠르게 하였다.
-
독립성분분석(ICA: Independent Component Analysis)이란 특징이 상이한 둘 이상의 신호들이 선형적으로 결합되어 있을 때 이를 효과적으로 분리하는 방법들을 통칭하며 잡음제거, 음질개선 및 신호처리 분야에서 많이 활용되고 있다. 본 논문에서는 전화음성 화자인식 시스템의 성능향상을 위해 독립성분분석을 이용하는 방법을 제안한다. 먼저 화자가 발성한 음성신호의 켑스트럼 계수를 여러 채널 함수들의 선형적인 합으로 가정하고, 독립성분분석을 이용하여 얻은 새로운 켑스트럼 벡터를 학습과 인식에 사용하였다. 실험자료는 잔화음성 화자식별기의 성능평가에 널리 쓰이고 있는 SPIDRE를 사용하였고 regodic 은닉 마코프 모델을 이용하여 문장 독립 화자식별 시스템을 구성하였다. 학습음성의 특징과 실험음성의 특징이 다른 조건에서 기존의 채널 정규화 방법들에 비해 10~15%이상 인식률이 향상되었다.
-
본 논문에서는 음성인식 알고리즘인 HMM을 사용하여 Windows 환경에서 온라인으로 사용할 수 있는 음성인식 게임“Voice Illust Magic”개발에 관하여 소개한다. 사용자와 컴퓨터가 상호작용(Interaction)할 수 있는 매체를 마우스와 키보드뿐만 아니라 게임에 필요한 명령어를 음성인식으로 실행함으로써 정보전달이 매우 효과적으로 이루어져 사용자가 접근하기 쉽고 편리하게 되었으며 의사전달 효율을 높일 수 있었다. 음성인식 과정을 온라인으로 마이크를 통해 들어온 음성을 자동으로 끝점을 검출한 후, Mel-Cepstrum을 추출하여 Word 단위의 reference HMM과 비교하여 최적의 model이 선택되면, 윈도우즈에게 메시지를 보내어 마우스나 키보드가 동작하는 것과 마찬가지로 실행되도록 하였다. 또한, 입력 음성을 모든 reference pattern과 비교하는 것이 아니라 그 상황에 적용될 수 있는 표준 패턴을 한정함으로써 탐색시간을 줄일 수 있었으며 높은 인식률을 나타내었다.
-
In this paper, we proposed various speaker adaptation methods and studied the performance of these methods. Methods which were studied in this paper are MAPE(Maximum A Posteriori Probability Estimation), ARTMAP. In order to evaluate the performance of these methods, we used Korean isolated digits as the experimental data, the hybrid speaker adaptation method, which unfied MAPE, linear spectral estimating and outpur probability of SCHMM, showed the better recognition result than those which performed other methods. And the method using ARTMAP showed the similar result to above hybrid method.
-
잡음환경에서의 음성인식 성능향상을 위하여 본 논문에서는 스펙트럼 차감법 이후에 남아 있는 잔여 잡음으로 인한 mismatch를 극복하는 수단으로 기존의 스펙트럼 차감법에서의 flooring factor를 사용하는 대신에 target 잡음레벨을 이용하여 잡음 마스킹을 적용하는 스펙트럼 차감법과 잡음 마스킹의 hybrid 방식을 사용한다. 이 방법은 낮은 SNR에서 개선되지 않는 기존의 잡음 마스킹이 가지는 약점을 극복하고 동시에 스펙트럼 차감버에서의 잔여 잡음 문제를 완화시킬 수 있었다. 특히 시간/주파수 영역 smoothing을 적용함으로써 스펙트럼 차감법과 잡음 마스킹의 hybrid 방식의 적용 이후에도 여전히 남아 있는 일부 잡음을 추가적으로 감소시켰으며, 더욱 향상된 인식성능을 얻을 수 있었다.
-
음성신호와 영상신호를 함께 이용하는 바이모달(Bi-modal)음성인식에서 어떤 입술 파라미터를 사용하는가에 따라 인식시스템의 성능이 달라진다. 그래서 본 논문에서는 이미지에 근거한 입술파라미터를 견인하게 추출하기 위한 방법으로 x 프로파일(profile)을 이용한 방법을 사용하였다. 파라미터를 선정을 달리하여 실험한 결과 15dB이상에서는 안쪽입술의 2개의 파라미터를 이용한 경우가, 10dB이하에서는 4개의 입술파라미터를 이용한 경우가 더 좋은 인식률을 보였다. 안쪽 입술 파라미터를 이용한 경우가 바깥쪽 입술 파라미터를 이용한 경우보다 더 좋은 인식률을 보였다.
-
4층구조인 다층퍼셉트론으로부터 입력층을 제외한 각 측의 출력성분을 하위은닉층으로 귀환하는 3모델의 다층회귀신경망을 구성하고, 각 모델별 망의 크기에 따른 음성인식성능을 분석 비교한다. 과거의 입력신호를 출력층에서 예측하여 오차신호를 계산하고, 이 오차신호가 최소화하는 방향으로 연결세기를 조정한다. 실험결과 3회귀모델중 상위은닉층의 회귀연결방식이 가장 양호한 인식율을 나타내었으며, 각 망 공히 상, 히위은닉층의 뉴런수 10, 15개, 예측차수 3, 4차 일 때 인식성능이 양호하였다. 그리고 회귀신경망이 비회귀신경망에 비해 인식율이 크게 향상된다는 것을 확인 할 수 있었다.
-
본 논문은 인식 속도의 개선을 위해 단어의 지속시간에 따라 Section의 수를 변경한 가변섹션 수 DMS모델을 사용한 실시간 인식 시스템을 연구하고 인식된 결과를 실제 수행하도록 하는 시스템을 구현하는 것이 목적이다. 이러한 윈도우 음성 제어 시스템 구현을 위해 음성의 자동 검출, 윈도우 제어 모듈 구현, 동적 모델 재구성을 이용하여 적용된 단어 단위인식 시스템의 단점을 장점으로 수용하는 시스템을 구현하였고 본 시스템의 이름은 “VocManagerII”라 명명하였다. 구현된 시스템의 성능 평가 결과 인식 및 제어 수행 속도는 1초이내에 이루어지며 인식율은 66개의 기본 명령어에 대하여 화자 종속 99.36%, 화자 독립 99.08%의 좋은 인식율을 보여 주었다.
-
본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 Voice Dialing System을 위한 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 전국 지역명과 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 음성으로 다이얼링을 수행하기 위하여 문맥자유문법을 이용하여 제한적이나마 대화체문장으로 수행할 수 있도록 하였다. 그리하여 숫자음에 대하여 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 문장으로도 음성 다이얼링을 수행하였을 경우 문장내에 단어와 숫자음에 대하여 약 80%의 인식률을 보였다.
-
본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.
-
통신 수단의 발달로 휴대단말기의 사용이 증가하고 있으며, 이와 함께 휴대단말기에서의 음성인식에 대한 수요도 증가하고 있다. 휴대단말기의 경우 저 전송율을 가지는 음성 부호화기를 사용하게 되며, 이러한 저전송율의 음성 부호화기에서의 음성인식을 수행할 경우 인식 성능이 저하되는 현상을 보이게 된다. 본 논문에서는 이러한 문제를 해결하기 위하여 LSP 파라메터 기반의 거리척도에 관하여 비교 검토하였으며, 적은 훈련 데이터에서 사용 가능한 화자 종속 음성인식 방법으로 Dynamic Time Warping(DTW)과 변형된 Hidden Markov Model(HMM)에 관하여 검토하였다. QCELP 음성 부호화기에서 인식 어휘 당 2번의 훈련 데이터만을 이용한 화자종속 인식방법을 사용한 결과 95% 이상의 인식 성능을 얻을 수 있었다.
-
HMM 기반의 음성 인식기를 구현하는데 있어서 모델의 복잡도와 제한된 훈련 데이터 사이의 균형을 유지하는 것은 중요한 문제이다. 중간규모 또는 대용량 어휘 인식 시스템은 정교한 모델을 얻기 위해서 문맥종속 음소 모델링이 필수적이다. 그러나, 제한된 훈련 데이터로는 발생 가능한 모든 context를 포함하기가 어렵고, 더구나 훈련 데이터에서 관찰된 context중에서도 그 관찰빈도가 낮은 것이 많아서 신뢰성 있는 문맥종속 모델들을 얻기에는 여전히 어려움이 따른다. 또한 경우에 따라서는 계산량의 감축을 위하여 모델 규모를 축소시킬 필요도 생긴다. 이러한 문제를 해결하기 위해 본 논문에서는 unit reduction 방법들과 state tying을 이용한 방법들의 성능을 실험을 통해 비교한다. 고립단어 인식 실험결과 state tying을 이용한 방법이 unit reduction에 비하여 우수함을 확인 할 수 있었다.
-
본 논문은 주행중인 자동차 환경에서 운전자의 안전성 및 편의성의 동시 확보를 위하여, 보조적인 스위치 조작없이 상시 음성의 입, 출력이 가능하도록 한다. 이때 잡음에 강인한 threshold 값을 구하기 위하여, 일정한 시간마다 기준 에너지와 영교차율(Zero Crossing Rate)을 변경하며, 밴드패스 필터(bandpass filter)를 이용하여 1차, 2차로 나누어 실시간 상태에서 자동으로, 정확하게 끝점검출(End Point Detection)을 처리한다. 기준패턴(reference pattern)은 DMS(Dynamic Multi-Section)을 사용하며, 화자의 변별력을 높이기 위하여 2개의 모델사용을 제안한다. 또한 주행중인 차량의 잡음환경에 강인하기 위하여 일반주행(80km/h 이내), 고속주행(80km/h 이상)등으로 나누며 차량의 가변잡음 크기에 따라 자동으로 선택하도록 한다. 음성의 특징 벡터와 인식 알고리즘은 PLP 13차와 One-Stage Dynamic Programming (OSDP)를 이용한다. 실험결과, 자주 사용되는 차량 편의장치 제어명령 33개에 대하여 중부, 영동 고속도로(시속 80Km/h 이상)에서 화자독립 89.75%, 화자종속 90.08%의 인식율을 구하였으며, 경부 고속도로에서는 화자독립 92.29%, 화자종속 92.42%의 인식율을 구하였다. 그리고 저속 주행중인 자동차 환경(80km/h 이내, 시멘트, 아스팔트 등의 서울시내 및 시외독립)에서는 화자독립 92.89%, 화자종속 94.44% 인식율을 구하였다.
-
DTW를 이용한 음성인식에서는 참조패턴이 인식률에 절대적인 영향을 미치므로 가장 적합한 참조패턴의 생성이 중요한 요인으로 작용한다. 그러므로 인식률 향상을 위해 여러개의 참조패턴을 사용하는 방법이 있다. 그러나 이러한 방법은 게산량의 과다 및 사용 메모리의 증가 등이 단점으로 지적되고 있다. 따라서 본 논문에서는 참조패턴의 수를 줄이면서 높은 인식률을 얻기 위해 유전자 알고리듬을 이용하여 보다 우수한 참조패턴을 생성하여 음성인식에 적용하였다. 본 논문에서는 참조패턴 생성을 위하여 훈련에 참가한 자료를 서로 비교하여 DTW 거리값의 누적값이 최소가 되는 데이터를 선정하는 방법, 유전자 알고리듬을 이용한 방법으로 선정하는 방법으로 나누어 실험을 했고, 그 결과 누적값의 최소값을 이용하였을 경우 98.33%의 인식률을 얻을 수 있었던 반면에 유전자 알고리듬을 사용하였을 경우 100%의 화자종속 인식률을 얻을 수 있었다.
-
본 논문에서는 극심한 가산 잡음에 의해 손상된 음성 신호를 스펙트럼 차감법으로 개선할 때, 잡음 스펙트럼 추정을 위한 무음 구간 추정 방법을 제안한다. 스펙트럼 차감법은 잡음을 효과적으로 제거한다고 알려져 있으나, SNR 0 dB 이하의 잡음 환경에서는 무음 구간의 검출이 힘들어 잡음 스펙트럼 추정치의 정확도가 저하된다. 일반화 스펙트럼 차감법의 과차감(oversubtraction)과 잡음 스펙트럼 추정을 반복하여 얻은 무음 구간은 SNR -10 dB~ 0 dB의 낮은 SNR에서도 비교적 정확하며, 프레임 에너지를 이용한 무음 검출 방법에 비해 향상된 성능을 보였다.
-
본 논문에서는 웨이브렛 변환에서 구해진 파라미터와 신경회로망을 이용하여 후두의 양성종양과 정상상태를 구분하는 실험을 행하였다. 식별 파라미터로는 웨이브렛변환으로부터 도출된 ECS 파라미터와 jitter, shimmer를 이용하였으며 신경회로망은 한 개의 은닉층을 갖는 다층구조 신경망을 이용하였다. 신경망의 입력으로는 세가지 파라미터의 조합을 두 개 또는 세 개를 입력하여 각각의 경우의 식별율을 조사하였다. 실험결과 75%에서 93%에 이르는 식별율을 얻었다.
-
본 논문에서는 환자의 음성을 정상, 양성종양, 악성종양으로 분류하는 실험을 켑스트럼 파라미터를 통한 음원분리와 신경회로망을 이용하여 수행하고 그 결과를 보고한다. 기존의 장애음성 데이터베이스에는 정상음성과 양성종양의 경우만 수록되어 있었고 외국의 환자들을 대상으로 한 경우만 있었기 때문에 국내의 환자들에게 직접 적용할 경우 어떠한 결과가 나올지 예측하기가 어려웠다. 최근 부산대학교 이비인후과팀에서 수집한 국내의 정상, 양성, 악성종양의 경우에 대한 데이터베이스를 분석하고 신경회로망에 의해 분류함으로써 사람의 음성신호만에 의한 후두질환이 식별이 가능하였다. 본 실험에서는 식별 파라미터로 음성신호의 선형예측오차신호에 관한 켑스트럼으로부터 음원비인 HNRR을 구하여 Jitter, Shimmer와 함께 사용하였다. 신경회로망은 입, 출력 층과 한 개의 은닉층을 갖는 다층신경망을 이용하였으며, 식별은 두단계로 나누어 정상과 비정상을 분류한 후 다시 비정상을 양성과 악성으로 분류하였다[1].
-
본 논문에서는 변형된 Teager 에너지를 이용하여 음성의 끝점을 검출하는 알고리듬을 제안하였다. 기존의 방법에서는 대부분 음성신호의 에너지와 영교차율을 이용하거나 이 파라미터들과 함께 다른 여러 파라미터들을 사용하여 끝점을 검출하였다. 여러 파라미터들을 사용하는 알고리듬의 경우 계산량이 많아지게 되는데, 이에 비해 본 논문에서는 하나의 파라미터를 이용하기 때문에 계산량이 기존의 알고리듬보다 적다. 그리고 이 알고리듬에서 사용한 변형된 Teager 에너지는 음성신호의 진폭뿐만 아니라 주파수까지 고려한 파라미터이다. 일반적으로 마찰음은 진폭이 작아 검출하기가 어려운데, 본 논문에서는 이러한 마찰음에 대해 실험을 했고, 그 결과를 통해 제안한 알고리듬이 기존의 다른 여러 알고리듬보다 성능이 우수하다는 것을 확인할 수 있었다.
-
음성의 음질 향상(Speech Enhancement)을 위한 여러 가지 방법 중에서 주파수 차감법(Spectral Subtraction)은 계산량이 적기 때문에 현재 실시간으로 Speech Enhancement를 할 수 있는 가장 적절한 방법이다. 그러나, 이 방법은 원래의 입력음성에 없던 새로운 잡음을 만들어내는 큰 단점이 있는데, 이를 제거하기 위해 많은 연구가 되어오고 있다. 이러한 연구의 방향은 대부분 주변프레임 또는 주변의 주파수 성분과의 평균을 통해 피크값을 무디게 해 줌으로써 새로 생긴 튀는 잡음을 감소시키는 것이다. 이런 방법은 음성자체의 정보 또한 평균이 되어버리게 하는 새로운 단점을 낳는데, 이런 현상은 무성음구간에서 특히 심각해진다. 본 논문에서는 입력음성의 LPC 분석으로 백색필터(Whitening Filter)를 구성하여 이를 통과시킨 잔류신호(Residual)를 주파수 차감하여 얻은 새로운 잔류신호를 역 필터링하여(Synthesis Filter) 개선된 음성을 얻는 방법을 제안하였다. 제안된 알고리듬은, 주파수 차감시 포만트(Formant)의 정보가 더 유지 될 수 있기 때문에 잔류잡음을 줄일 수 있다. 청취 테스트 결과 제안한 방법이 기존의 방법보다 잔류잡음을 더 줄이는 사실을 확인할 수 있었다.
-
법칙합성 시스템은 합성단위 합성기, 합성방식 등에 따라 여러 가지 다양한 음성합성시스템이 있으나 순수한 법칙합성 시스템이 아니고 기본 합성단위를 연결하여 합성음을 발생시키는 연결합성 시스템은 연결단위사이 그리고 문장단위에서의 매끄러운 합성계수의 변화를 구현하지 못해 자연감이 떨어지는 실정이다. 자연감을 높이기 위해 보다 자연음에 가까운 운율을 발생시키기 위해 먼저 운율에 영향을 주는 요소들을 고려하여 신경망 입력 패턴을 구성한다. 분절요인에 의한 영향을 고려해주기 위해 전후 3음소를 동시에 입력시키고 문장내에서의 구문론적인 영향을 고려해주기 위해 해당 음소의 문장내에서의 위치, 운율구에 관한 정보등을 신경망의 입력 패턴으로 구성하였다. 신경망을 훈련시키기 위한 언어자료로는 고립단어군과 음소균형 문장군 그리고 삽입음절연결어 등으로 구성한다. 특정화자로 하여금 신경망을 훈련시켜 자연음의 운율과 유사한 합성운을 발생시켰다.
-
화자 인식의 방법에서 사용되고 있는 특징 파라미터들은 음성 인식에서 사용되고 있는 특징 파라미터를 그대로 사용하고 있다. 따라서, 이를 화자 인식에 적용할 때 화자의 특성을 효과적으로 반영할 수 있어야 한다. 일반적인 화자의 특징이 고주파수 위주로 분포되어 있기 때문에 전체 스펙트럼의 고주파 영역을 강조시킬 수 있고, 또한 인간의 청각특성이 공진 주파수에 기반하여 이루어진다는 사실에 기반을 두어서 공진 주파수 위주로 강조시키는 인지 가중 필터를 인식단의 전처리로 사용하는 방법에 관한 것이다. 본 논문을 실험한 결과 전체 인식율에서는 기존의 방법보다 3.89%까지 인식율의 향상을 얻을 수 있었다. 또한 사칭자 수리율은 2.5%의 저하를 얻을 수 있었다.
-
서비스 반경이 1[km]이내인 마이크로셀 방식은 실제 이동국이 70[%]이상 전파 음영지역에 위치하기 때문에, 셀 반경내에 있는 지형과 구조물들에 의해 매우 큰 영향을 받는다. 그러므로, 셀내 지형지물의 형상에 따라 달라지는 전파경로를 추적하여 이동통신 전파환경을 분석함으로써 최적 기지국 위치를 선정할 필요가 있다. 따라서, 본 연구에서는 이동국이 가시거리 영역의 전파 음영지역 또는 가시거리 영역과 일정 경사각으로 기울어져 있는 비가시거리 영역에 위치한 경우로 구분하고, 삼각해석법에 의해 각 영역에서의 반사횟수의 전파 경로를 각각 연산처리하는 알고리즘을 개발하여 마이크로셀 PCS 이동통신 도심 전파환경에서 시뮬레이션하고, 그 결과를 분석함으로써 마이크로셀 이동통신 최적 기지국의 위치 선정 조건을 제시한다.
-
본 논문에서는 음소단위 비정형 연결합성 시, 접합점에서 포만트 불연속을 최소화할 수 있도록 이웃음소간 경계강도 예측모델과 합성단위 검색시 음소단위 최장일치 검색 알고리즘을 설계하였다. 합성단위 연결부에서 발생하는 신호왜곡을 최소화하기 위해 “_C_”환경에서 자음이 유성음화된 경우, “_V_”환경에서 모음이 무성음화된 경우, 그리고 유성음 사이의 포만트 주파수 차이에 대한 모델을 생성하여, 음소간의 조음강도가 약한 부분이 합성단위 경계로 설정되도록 하였다. 합성단위 경계가 결정되면 주어진 문장의 문맥정보만을 이용하여 코포스로부터 후보를 선택한다. 선택된 후보를 사이의 연결성을 측정하기 위하여 합성 경계를 기준으로 전, 후 음소에 대한 음성적 특성과 포만트 천이 특성을 고려하였다. 실험은 K-ToBI 레이블링된 200문장을 기반으로 하였으며, 코퍼스로부터 한 문장을 선택하여 이를 목적치 패턴으로 선정 한 후, 목적치 패턴과 후보사이의 단위비용과 후보들 간의 연결비용을 계산하여 최적의 합성단위열을 추출하는 방식으로 이루어졌다. 본 논문에서는 이러한 문맥종속 단위 기반의 합성단위 추출 알고리즘과 실험 결과에 대해 보고한다.
-
본 연구에서는 음성인식을 위한 화자적응화 기법에 대해 연구하였다. 첫째로 적응화에 포함되지 않은 카테고리 음절에 대해 적응화 효과를 줄 수 있는 보간적응화 방법에 대해 연구하였다. 표준모델과 소량의 음성 데이터만으로 적응화가 가능한 MAPE(최대사후확률추정)으로 적응화한 모델의 평균벡터 변화정도를 적응화 발화에 포함되지 않은 모델에 보간적응하는 방법이다. 둘째로 음절단위 모델을 구축한 후 적응화 하고자 하는 화자의 데이터를 연결학습법과 Viterbi 알고리즘으로 음절단위의 추출을 자동화 한 후 MAPE으로 적응화하는 방법에 대해 각각 실험을 하였다.
-
본 논문에서는 반음절 단위 HMM을 이용한 연속 숫자 음성인식 시스템의 2단계로 이루어지는 화자 적응 알고리즘을 수행하였다. 음성인식 시스템에서 사용되는 훈련데이터의 양이 많더라도 발성속도, 발성크기 등의 화자 발성 습관에 따라 화자독립 음성인식 시스템에서는 많은 문제점들이 발생하게 된다. 불특정 화자를 대상으로 한 음성 인식에 있어서 개인차에 의한 변동을 대처하는 방법으로 유효한 음향적 특성을 추출하기 위해 스펙트럼의 동적인(Dynamic) 특성을 주로 이용하고 있다. 따라서 본 논문에서는 화자 적을 기법의 하나인 frequency warped spectral matching 방법을 연속숫자 음성 인식시스템에 적용하였으며, 이때 인식에 의한 적절한 화자별 스케일링 계수 선정 방법을 수행하여 오인식률이 감소함을 확인하였다.
-
본 논문에서는 금액을 인식 대상으로 하는 음성 인식 시스템의 성능 향상을 위하여 프레임 동기 네트워크(Frame Synchronous Network)을 이용하였다. 연속음 인식에서 인식 대상이 가지는 규칙을 적용했을 경우 성능 향상을 가져올 수 있다. 금액이 가지는 반복적인 특성과 자릿수의 상하 관계가 인식 성능에 미치는 효과를 이용하여 다양한 수준의 제약을 갖는 FSN을 제안하였다. 제안된 FSN의 성능을 다양한 환경과 특징 벡터에 대하여 이산 hidden Markov model[5]을 이용하여 실험을 수행하였다. 인식 결과 제안된 FSN을 이용하여 금액 어휘의 인식 성능을 향상시킬 수 있었다.
-
The Implementation of Automatic Segmentation and Labelling System Using Context-dependent Demi-phone음소 단위로 레이블링된 데이터베이스는 음성연구에 있어 매우 중요하다. 그러나 수작업에 의한 음소분할 및 레이블링 작업은 많은 시간과 노력이 필요하기 때문에 자동 음소분할 및 레이블링 시스템에 대한 많은 연구가 진행되고 있다. 본 논문에서는 monophone과 triphone의 장점을 포함하는 문맥 종속 반음소 단위 모델을 이용한 자동 음소분할 및 레이블링 시스템을 구현하였다. 레이블링 단위로는 68개의 유사음소와 묵음 등 총 69개로 정하였으며, 음소 모델링은 연속 HMM을 사용하였다. 기존의 subword 단위모델과 본 논문에서 제안한 문맥종속 반음소 모델을 이용한 자동 음소분할 및 레이블링 시스템의 성능 비교 음소경계오차가 10ms 이내인 경우 각각 60.17%, 66.32%를 포함하여 6.15%의 향상을 보이고, 40ms 이내인 경우 90.36%, 94.27%를 포함하여 3.92%의 성능향상을 보였다.
-
현재 음성 인식에서 널리 사용되고 있는 피춰 중의 하나로 멜켑스트럼을 들 수 있다. 멜켑스트럼은 인간의 청각 특성을 적용한 critical band 필터를 사용하여 구하는데, 필터의 형태를 다양하게 적용하여 같은 음성에 대해서 여러 가지의 멜켑스트럼을 구할 수 있다. 본 논문에서는 critical band 필터의 형태, 즉 필터의 모양, 인접한 필터간의 중심 주파수 간격, 그리고 필터의 대역폭을 각각 변화시키면서 멜켑스트럼을 구하여 음성 인식 성능에 미치는 영향을 분석하였다. 또한 최적의 인식 성능을 나타내는 멜켑스트럼을 구하기 위하여 simplex 기법을 사용하여 필터를 최적화하는 방법을 제안한다. DTW(dynamic time warping)를 인식 알고리즘으로 사용하였고 한국어 숫자음을 사용하여 인식 실험을 수행한 결과, 제안된 방법으로 최적화된 필터를 사용하여 구한 멜켑스트럼은 기존의 critical band 필터를 사용하는 것보다 향상된 인식 성능을 나타내었다.
-
G.723.1은 부호화 방식은 제한된 계산량으로 낮은 전송율에서 음성을 가장 잘 표현할 수 있도록 최적화되어 있어서, 음성주파수 대역에 있는 DTMF톤의 경우 왜곡이 발생되어 전송성능이 떨어지는 문제점이 있다. 본 논문에서는 DTMF톤의 투명한 전송을 위해 LSP 계수를 이용한 톤 신호 검출에 기반을 둔 음성모드와 톤모드의 이중모드를 가지는 변형된 G.723.1 음성부호화 방식을 제안한다. 제안된 방식에서 음성모드 부호화기는 기존의 방식과 동일하며, 톤모드의 경우 부호화 단계에서 spectral smoothing 및 피치주기 검출 방식 등을 수정함으로써 수신단의 변경없이 DTMF톤의 전송왜곡을 개선시킨다. 본 논문에서는 컴퓨터 모의실험을 통해 제안된 방법이 DTMF 전송성능을 개선시킴을 확인하였다.