• 제목/요약/키워드: Noisy Model

검색결과 346건 처리시간 0.025초

HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구 (A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.74-82
    • /
    • 1995
  • 본 논문은 HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구이다. HMM(Hidden Markov Model)은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, HMM의 학습 방법인 maximum like-lihood estimation은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 었다. 이러한 문제점을 보완하기 위하여 Segmental K-means 학습 과정에 후저리를 이용하여 인식 실험을 하였다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level Building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가하였다. 이렇게 추가된 단어 모델들에 대한 몇 가지 규칙을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시 스템은 TMS320C30 프로세서를 내장한 DSP 보드와 IBM PC 상에서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성 화자3명을 대상으로 작성하였다. 인식 실험 결과 21종 전화 번호 252개 데이타에 대하여 화자 종속의 경우 $91.6\%$, 회자 독립의 경우 $80.5\%$의 인식률을 나타내었다.

  • PDF

음소기반의 순환 신경망 음성 검출기를 이용한 음성 향상 (Speech Enhancement using RNN Phoneme based VAD)

  • 이강;강상익;권장우;이상민
    • 전자공학회논문지
    • /
    • 제54권5호
    • /
    • pp.85-89
    • /
    • 2017
  • 본 논문에서는 향상된 연산 능력을 가진 하드웨어와 알고리즘의 혼합을 통하여 음성 향상을 위한 정확한 음성 검출기 구현을 목적으로 하였다. 음성은 음소의 나열로 구성되어있으며 음성 모델을 세우는데 적합한 방법은 이전의 정보를 이용하는 순환 신경망 (recurrent neural network, RNN)을 사용하는 것이다. 실제 존재하는 모든 잡음에 대하여 학습한 모델을 제시하는 것은 사실상 불가능 하므로 이를 극복하고자 음소기반 학습을 진행하였다. 학습의 결과로 세워진 모델을 기반으로 새로운 음성 신호에서 음성을 검출하고 그 결과를 이용하여 음성 향상을 진행하였다. 순환 신경망과 음소기반 학습은 프레임 별 높은 상관성을 가진 음성 신호에서 좋은 성능을 얻을 수 있었으며 음성 검출기의 성능을 검증하기 위하여 라벨 데이터와 음성 검출결과를 비교하고 다양한 잡음 환경에서 객관적 음질 평가를 진행하여 기존의 음성 향상 알고리즘과 비교하였다.

A/D 변환기 회로에서 터미네이션 임피던스의 crosstalk에 대한 영향 분석 (A Study On Effects of The Termination Conditions on Crosstalk in The A/D Converter Circuit)

  • 임한상
    • 전자공학회논문지SC
    • /
    • 제47권2호
    • /
    • pp.35-42
    • /
    • 2010
  • 본 논문은 A/D 변환기(Analog-to-Digital Converter) 회로에서 신호선의 터미네이션 조건이 crosstalk에 의해 왜곡되기 쉬운 특성을 가지며 동작 주파수가 높아짐에 따라 이에 대한 주의가 더욱 요구된다. 그중에서도 아날로그 신호인 입력 신호와 레퍼런스 전압 신호는 crosstalk에 의해 왜곡되기 쉬운 아날로그 신호이면서, A/D 변환 전체의 동작 성능을 좌우하는 신호들이다. 이 두 신호들은 각각의 회로 구성에 따라 독특한 터미네이션 조건을 가지므로 본 논문에서는 주파수 영역에서 임피던스 불일치 조건을 고려한 crosstalk를 모델링하고 해당 터미네이션 조건이 crosstalk에 미치는 영향을 확인한다. 먼저, A/D 변환기 회로에서 두 신호의 회로 구성을 파악한 후 near-end와 far-end에서 임피던스 불일치를 고려한 crosstalk 모델을 유도한다. 유도한 crosstalk 모델을 이용하여 입력 신호의 near-end와 터미네이션 임피던스 불일치와 레퍼런스 전압 신호의 far-end 커패시턴스 터미네이션이 crosstalk에 미치는 영향을 예측하고, 실험을 통해 예측 결과를 확인한다. 신호선으로는 가장 널리 사용되는 microstrip 구조를 사용하였으며 skin effect에 의한 손실 증가를 반영하였다.

HMM(Hidden Markov Model) 기반의 견고한 실시간 립리딩을 위한 효율적인 VLSI 구조 설계 및 FPGA 구현을 이용한 검증 (Design of an Efficient VLSI Architecture and Verification using FPGA-implementation for HMM(Hidden Markov Model)-based Robust and Real-time Lip Reading)

  • 이지근;김명훈;이상설;정성태
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.159-167
    • /
    • 2006
  • 립리딩은 잡음이 있는 환경에서 음성 인식 시스템의 성능 향상을 위한 한 방법으로 제안되었다. 기존의 논문들이 소프트웨어 립리딩 방법을 제안하는 것에 반하여, 본 논문에서는 실시간 립리딩을 위한 하드웨어 설계를 제안한다. 실시간 처리와 구현의 용이성을 위하여 본 논문에서는 립리딩 시스템을 이미지 획득 모듈, 특징 벡터 추출 모듈, 인식 모듈의 세 모듈로 분할하였다. 이미지 획득 모듈에서는 CMOS 이미지 센서를 사용하여 입력 영상을 획득하게 하였고, 특징 벡터 추출 모듈에서는 병렬 블록매칭 알고리즘을 이용하여 입력영상으로부터 특징벡터를 추출하도록 하였고, 이를 FPGA로 코딩하여 시뮬레이션 하였다. 인식 모듈에서는 추출된 특징 벡터에 대하여 HMM 기반 인식 알고리즘을 적용하여 발성한 단어를 인식하도록 하였고, 이를 DSP에 코딩하여 시뮬레이션 하였다. 시뮬레이션 결과 실시간 립리딩 시스템이 하드웨어로 구현 가능함을 알 수 있었다.

  • PDF

우리나라 저체중아 출생의 공간적 변동성 지도화: 베이지언적 접근 (Mapping the Geographic Variations of the Low Birth Weight cases in South Korea: Bayesian Approaches)

  • 노영희;박기호
    • 대한지리학회지
    • /
    • 제51권3호
    • /
    • pp.367-380
    • /
    • 2016
  • 본 연구에서는 우리나라에서 발생한 저체중아 출생 집계 자료를 공간적으로 지도화하기 위한 기법들을 검토 비교하고, 이를 기반으로 우리나라의 LBW 지도를 작성하였다. 표준화사망률이나 조사망률 등은 역학 분야에서 지속적으로 광범위하게 사용되고 있는 지표이다. 그러나 이러한 표준화사망률은 집계 단위의 샘플 수에 영향을 많이 받는다는 단점을 가지고 있다. 이에, 본 연구에서는 베이지언 기법을 활용하여 샘플 수에 따른 통계적 변동성을 감소시키고자 하였다. 이를 위해 경험적 베이지언 기법과 풀 베이지언 기법을 모두 활용하였고, 결과적으로 유사한 통계량을 산출한 것을 확인할 수 있었다. 반면, SMR 기반의 통계량은 높은 분산을 가지고 있음을 확인하였다. 연구의 결과에 따른 통계 지도는 우리나라 저체중아 출생의 높은 위험도를 가지는 지역들을 파악할 수 있도록 한다.

  • PDF

시간 변화에 따른 사전 정보와 이득 함수를 적용한 NMF 기반 음성 향상 기법 (A NMF-Based Speech Enhancement Method Using a Prior Time Varying Information and Gain Function)

  • 권기수;진유광;배수현;김남수
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.503-511
    • /
    • 2013
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 이 때 훈련으로부터, 시간 흐름에 따른 기저 사용량의 변화량을 각기 독립적인 가우시안 모델들로 만들고, 이를 이용하여 매 시간 프레임에서 주어진 모델들에 일정 가중치만큼 가까워지는 방향으로 최적화를 수행하였다. 또한 매 시간 얻은 NMF의 부호화 행렬의 결과를 이전 시간 프레임의 부호화 행렬 값과 평활화(smoothing) 과정을 수행하였다. 향상 과정에서는 Log-spectral Amplitude를 이용하여 이득(gain) 함수를 구하였다. 실험 결과에서는 PESQ 값을 지표로 사용하였고, 기존의 NMF를 이용한 음성 향상 보다 이 두 과정을 적용한 방법이 뛰어남을 확인 했다.

공항 인근주민들의 항공기소음에 대한 피해의식 구조에 관한 연구 - 대구공항을 사례지역으로 - (A Study on Subjective Nise Evaluation of Rdesidential Area on Aircraft Noise near Airport - Case Study on Taegu Airport -)

  • 김재석
    • 소음진동
    • /
    • 제10권1호
    • /
    • pp.41-48
    • /
    • 2000
  • Evaluation model for damage consciousness was established through the survey of 2,210 residents' consciousness on aircraft noise near Taegu Airport. There were none who replied that the level of the aircraft noise was as los as it was quiet. 77(3.5%) people replied the noise was normal, and 2,133(95.5%) people said it was noisy. As to the period of time when the aircraft noise occurred, 51%, 97%, 86%, 0.6% of the residents pointed out the morning time, the day time, the evening time, and the night time, respectively. Because of aircraft noise, 73%, 88%, 70%, 77%, 78%, and 33% of the residents felt it disturbing indoor conversation, telephoning, watching TV or listening to the ratio, reading or meditating, working, sleeping, and studying, respectively. It was examined that the bad effects of aircraft noise on the health were severe : 43% of the resident said they experienced embarrassment. 52% astonishment, 66% absence of mind, 61% heart-beating. 77% headaches, 78% earache, and 93% displeasure. For the survey of the residents' damage consciousness about aircraft noise, the level of aircraft noise was set as an objective variable, and gender, age, occupation. Education, the type of house, the structure of windows, the consciousness of settlement in the district, and the period of residence were set as explanatory variables. And the quantification theory I was applied to the analysis. The most influencing factor of the damage consciousness on aircraft noise was the education, the second occupation, the third age, the forth the consciousness of settlement, the fifth the period of residence, the sixth gender, the seventh the type of house, and the least influencing factor among them was the structure of windows. These findings will be a useful guideline when the government seeks to set up policies which will help solve the resident's noise problems near Taegu Airport.

  • PDF

자기 지도 학습훈련 기반의 Noise2Void 네트워크를 이용한 PET 영상의 잡음 제거 평가: 팬텀 실험 (The Evaluation of Denoising PET Image Using Self Supervised Noise2Void Learning Training: A Phantom Study)

  • 윤석환;박찬록
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제44권6호
    • /
    • pp.655-661
    • /
    • 2021
  • Positron emission tomography (PET) images is affected by acquisition time, short acquisition times results in low gamma counts leading to degradation of image quality by statistical noise. Noise2Void(N2V) is self supervised denoising model that is convolutional neural network (CNN) based deep learning. The purpose of this study is to evaluate denoising performance of N2V for PET image with a short acquisition time. The phantom was scanned as a list mode for 10 min using Biograph mCT40 of PET/CT (Siemens Healthcare, Erlangen, Germany). We compared PET images using NEMA image-quality phantom for standard acquisition time (10 min), short acquisition time (2min) and simulated PET image (S2 min). To evaluate performance of N2V, the peak signal to noise ratio (PSNR), normalized root mean square error (NRMSE), structural similarity index (SSIM) and radio-activity recovery coefficient (RC) were used. The PSNR, NRMSE and SSIM for 2 min and S2 min PET images compared to 10min PET image were 30.983, 33.936, 9.954, 7.609 and 0.916, 0.934 respectively. The RC for spheres with S2 min PET image also met European Association of Nuclear Medicine Research Ltd. (EARL) FDG PET accreditation program. We confirmed generated S2 min PET image from N2V deep learning showed improvement results compared to 2 min PET image and The PET images on visual analysis were also comparable between 10 min and S2 min PET images. In conclusion, noisy PET image by means of short acquisition time using N2V denoising network model can be improved image quality without underestimation of radioactivity.

심층신경망 기반의 음성인식을 위한 절충된 특징 정규화 방식 (Compromised feature normalization method for deep neural network based speech recognition)

  • 김민식;김형순
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.65-71
    • /
    • 2020
  • 특징 정규화는 음성 특징 파라미터들의 통계적인 특성의 정규화를 통해 훈련 및 테스트 조건 사이의 환경 불일치의 영향을 감소시키는 방법으로서 기존의 Gaussian mixture model-hidden Markov model(GMM-HMM) 기반의 음성인식 시스템에서 우수한 성능개선을 입증한 바 있다. 하지만 심층신경망(deep neural network, DNN) 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다. 본 논문에서는 이러한 현상의 원인을 과도한 특징 정규화로 인한 정보손실 때문이라 보고, 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 특징 정규화 방식이 있는 지 검토해보고자 한다. 이를 위해 평균 정규화(mean normalization, MN)와 평균 및 분산 정규화(mean and variance normalization, MVN)의 절충 방식인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 잡음 및 잔향 환경에서 분산에 대한 정규화의 정도에 따른 DNN 기반의 음성인식 시스템의 성능을 비교한다. 실험 결과, 성능 개선의 폭이 크지는 않으나 분산 정규화의 정도에 따라 MEVN이 MN과 MVN보다 성능이 우수함을 보여준다.

합성곱 순환 신경망 구조를 이용한 지진 이벤트 분류 기법 (Earthquake events classification using convolutional recurrent neural network)

  • 구본화;김관태;장수;고한석
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.592-599
    • /
    • 2020
  • 본 논문은 다양한 지진 이벤트 분류를 위해 지진 데이터의 정적인 특성과 동적인 특성을 동시에 반영할 수 있는 합성곱 순환 신경망(Convolutional Recurrent Neural Net, CRNN) 구조를 제안한다. 중규모 지진뿐만 아니라 미소 지진, 인공 지진을 포함한 지진 이벤트 분류 문제를 해결하려면 효과적인 특징 추출 및 분류 방법이 필요하다. 본 논문에서는 먼저 주의 기반 합성곱 레이어를 통해 지진 데이터의 정적 특성을 추출 하게 된다. 추출된 특징은 다중 입력 단일 출력 장단기메모리(Long Short-Term Memory, LSTM) 네트워크 구조에 순차적으로 입력되어 다양한 지진 이벤트 분류를 위한 동적 특성을 추출하게 되며 완전 연결 레이어와 소프트맥스 함수를 통해 지진 이벤트 분류를 수행한다. 국내외 지진을 이용한 모의 실험 결과 제안된 모델은 다양한 지진 이벤트 분류에 효과적인 모습을 보여 주었다.