• 제목/요약/키워드: Speech signal processing

검색결과 331건 처리시간 0.023초

디지털 맘모그램을 위한 라플라시안 피라미드에서 대비 척도를 이용한 대비 향상 방법 (A Contrast Enhancement Method using the Contrast Measure in the Laplacian Pyramid for Digital Mammogram)

  • 전금상;이원창;김상희
    • 융합신호처리학회논문지
    • /
    • 제15권2호
    • /
    • pp.24-29
    • /
    • 2014
  • X-선 유방촬영술은 유방암의 조기발견을 위해 가장 일반적으로 이용되고 있다. 유방암의 조기 발견과 진단의 효율성을 증가시키기 위하여 많은 영상향상 방법들이 연구개발 되었다. 본 논문은 디지털 맘모그램을 위하여 라플라시안 피라미드에서 대비척도를 이용한 다중 스케일 대비 향상 방법을 제안한다. 제안한 방법은 입력 영상을 가우시안 피라미드와 라플라시안 피라미드로 분해하고, 분해된 다해상도 영상의 피라미드 계수들은 저주파수 성분들과 고주파수 성분들의 비율로 대역 제한된 국부 대비척도를 정의한다. 대비 향상을 위하여 정의된 대비척도를 이용하여 분해된 피라미드 계수들을 수정하고, 수정된 계수들로 피라미드 복원 과정을 거처 최종 향상된 영상을 얻는다. 제안된 방법의 성능은 실험을 통하여 기존 방법들과 향상결과를 비교하고, 대비 측정 알고리즘을 이용한 정량적인 평가결과에서 우수한 성능을 확인하였다.

HMM의 출력확률을 이용한 신경회로망의 성능향상에 관한 연구 (A study on performance improvement of neural network using output probability of HMM)

  • 표창수;김창근;허강인
    • 융합신호처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-6
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이 용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드 시스템을 제안한다 HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후처리에 사용될 신경망의 학습용으로 사용하여 신경망을 학습하여 HMM과 신경망을 결합한 하이브리드 시스템을 만든다 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 MLP에서는 약 $4.5\%$ RBFN에서는 약 $2\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 패의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다

  • PDF

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System using Speech and Gesture)

  • 김정현;노용완;권형준;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.57-62
    • /
    • 2006
  • 휴대용 단말기의 소형화 및 지능화와 더불어 차세대 PC 기반의 유비쿼터스 컴퓨팅에 대한 관심이 높아짐에 따라 최근에는 펜이나 음성 입력 멀티미디어 등 여러 가지 대화 모드를 구비한 멀티 모달 상호작용 (Multi-Modal Interaction MMI)에 대한 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 잡음 환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 인터페이스의 연구를 목적으로 Voice-XML과 Wearable Personal Station(WPS) 기반의 음성 및 내장형 수화 인식기를 통합한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System : MMIRS)을 제안하고 구현한다. 제안되어진 MMIRS는 한국 표준 수화 (The Korean Standard Sign Language : KSSL)에 상응하는 문장 및 단어 단위의 명령어 인식 모델에 대하여 음성뿐만 아니라 화자의 수화제스처 명령어를 함께 인식하고 사용함에 따라 잡음 환경에서도 규정된 명령어 모델에 대한 인식 성능의 향상을 기대할 수 있다. MMIRS의 인식 성능을 평가하기 위하여, 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어인식 모델에 대하여 음성과 수화 제스처를 연속적으로 표현하고, 이를 인식함에 있어 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교하고 분석하였으며 MMIRS는 문장형 명령어 인식모델에 대하여 잡음환경에서는 93.45%, 비잡음환경에서는 95.26%의 평균 인식율을 나타내었다.

  • PDF

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

주파수 대역별 잔향시간 추정을 위한 변형된 AWSSDR 방식 (Modified AWSSDR method for frequency-dependent reverberation time estimation)

  • 김민식;김형순
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.91-100
    • /
    • 2023
  • 잔향시간(reverberation time, T60)은 대표적인 음향 매개 변수로서, 잔향에 대한 정보를 제공한다. 동일한 공간이라도 주파수 대역에 따라 잔향이 미치는 영향은 다르기 때문에, 주파수 대역별(frequency-dependent, FD) T60은 음향환경에 대한 세부적인 정보를 제공하여 유용하게 사용될 수 있다. 하지만 음성신호로부터 T60을 추정하는 기존의 블라인드 T60 추정 방식들은 대부분 전 대역 T60 추정에 집중되어 있으며, 소수의 블라인드 FDT60 추정 방식들은 공통적으로 저주파 대역에서 열악한 성능을 보인다. 본 논문은 블라인드 FDT60 추정을 위해, 이전에 제안한 주의 집중 풀링 기반 스펙트럼 감쇠율의 가중 합(Attentive pooling based Weighted Sum of Spectral Decay Rates, AWSSDR) 방식을 변형하여 목표를 전 대역 T60에서 FDT60으로 확장하였다. 본 논문에서 제안한 방식은 ACE challenge의 평가데이터 셋에 대한 성능 평가 결과, 기존의 블라인드 FDT60 추정 방식들보다 우수한 성능을 달성하였으며, 특히, 모든 주파수 대역에서 일관성 있는 우수한 추정 성능을 보였다. 이는, 잔향의 물리적인 특성과 관련된 스펙트럼 감쇠율을 주파수 대역별로 처리하여, 음성신호로부터 FDT60에 대한 정보를 취합하는, AWSSDR 방식의 매커니즘이 주파수에 따라 변하는 잔향의 영향을 반영하여 FDT60 추정에 유용함을 보여준다.

에너지 라벨링 그룹화를 이용한 고속 음성인식시스템 (Fast Speech Recognition System using Classification of Energy Labeling)

  • 한수영;김홍렬;이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.77-83
    • /
    • 2004
  • 본 논문에서는 입력된 음성의 음소단위로 추출된 에너지 파라미터를 이용하여 에너지를 라벨링(energy labeling)하고 라벨링된 값에 따라 입력 음성을 그룹화하였다. 그리고 동적패턴정합 수행 시 입력된 실험음성에서 검출된 에너지의 크기에 따라 선택된 라벨의 그룹 내에서 DTW를 수행시켜 처리시간을 단축시켜 저가형 프로세서에서도 고속으로 동작할 수 있게 하고자 하였다. 본 논문의 음성 라벨링 단계는 음성의 구간 검출 및 에너지 파라미터의 추출 단계에서 정확한 파라미터의 검출을 전제로 하기 때문에 이를 보완하기 위해 피치의 주기에 따른 가변윈도우를 사용하였다. 피치주기를 먼저 구하고 그 주기에 200 프레임에서 300프레임 사이에서 윈도우의 크기를 결정함으로써 윈도우의 영향이 제거된 에너지를 구하는 방법을 제안하였다. 실험결과 제안된 방법이 약 $25\%$ 정도의 연산량을 감소시켰다.

  • PDF

감음신경성 난청의 모델링을 통한 라우드니스 누가현상의 시뮬레이션 (Simulation of the Loudness Recruitment using Sensorineural Hearing Impairment Modeling)

  • 김동욱;박영철;김원기;도원;박선준
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1997년도 추계학술대회
    • /
    • pp.63-66
    • /
    • 1997
  • With the advent of high speed digital signal processing chips, new digital techniques have been introduced to the hearing instrument. This advanced hearing instrument circuitry has led to the need or and the development of new fitting approach. A number of different fitting approaches have been developed over the past few years, yet there has been little agreement on which approach is the "best" or most appropriate to use. However, when we develop not only new hearing aid, but also its fitting method, the intensive subject-based clinical tests are necessarily accompanied. In this paper, we present an objective method to evaluate and predict the performance of hearing aids without the help of such subject-based tests. In the hearing impairment simulation (HIS) algorithm, a sensorineural hearing impairment model is established from auditory test data of the impaired subject being simulated. Also, in the hearing impairment simulation system the abnormal loudness relationships created by recruitment was transposed to the normal dynamic span of hearing. The nonlinear behavior of the loudness recruitment is defined using hearing loss unctions generated from the measurements. The recruitment simulation is validated by an experiment with two impaired listeners, who compared processed speech in the normal ear with unprocessed speech in the impaired ear. To assess the performance, the HIS algorithm was implemented in real-time using a floating-point DSP.

  • PDF

마이크로폰 어레이를 위한 적응 모드 컨트롤러 (Adaptation Mode Controller for Adaptive Microphone Array System)

  • 정양원;강홍구;이충용;황영수;윤대희
    • 한국통신학회논문지
    • /
    • 제29권11C호
    • /
    • pp.1573-1580
    • /
    • 2004
  • 본 논문은 실제 환경에서 고품질 음성 신호 취득을 위해, 적응 마이크로폰 어레이 시스템을 위한 적응 모드 컨트롤러를 제안한다. 적응 어레이 알고리즘의 올바른 동작을 위하여, 제안된 적응 모드 컨트롤러는 시간 축의 정보뿐만 아니라 공간 축의 정보를 함께 사용한다. 제안된 적응 모드 컨트롤러는 초기화 단계와 수행 단계의 두 단계로 나뉘어 동작되는데, 초기화 단계에서는 음원 위치 추정 기술이 사용되며, 수행 단계는 신호의 상관 관계 특성에 의해 동작한다. 적응 어레이 알고리즘으로는 적응 차단 행렬을 이용한 Generalized Sidelobe Canceller가 사용되었다. 제안한 적응 모드 컨트롤러는 적응 차단 행렬이 수렴되지 않은 경우에도 사용 가능하며, 기존의 전력비 방법에 비해 안정적인 성능을 나타낸다. 본 논문은 제안한 시스템을 실제 환경에서 평가하였으며, 2m 거리에 위치한 화자에 대해 13dB SINR 향상을 얻었다.

음성신호 분석 요소의 적용으로 헬륨가스 흡입이 음성 기관의 특성 변화에 미치는 영향 (The Effect of Helium Gas Intake on the Characteristics Change of the Acoustic Organs for Voice Signal Analysis Parameter Application)

  • 김봉현;조동욱
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.397-404
    • /
    • 2011
  • 본 논문에서는 헬륨가스 흡입에 따른 조음기관의 특성이 변화되는 것을 측정하기 위해 음성분석학적 요소의 적용을 통한 실험을 수행하였다. 헬륨가스는 기존에 잠수부가 사용하던 질소가스가 인체에 치명적인 공기 색전증을 유발하게 되면서 이를 극복하기 위한 대체 호흡용 가스로 사용되고 있다. 그러나, 헬륨가스는 명료도가 낮은 squeaky voice를 유발하기 때문에 잠수부들의 비정상적인 음성에 대한 해석에 어려움이 많다. 따라서, 헬륨가스가 음성기관에 미치는 영향을 음성분석학적 특성 변화로 측정하기 위해 헬륨가스 흡입 전과 후의 음성을 기반으로 피치 및 스펙트로그램 측정, 분석에 대한 실험을 수행하였다.

음성 신호를 이용한 화자의 5가지 감성 인식 (Recognizing Five Emotional States Using Speech Signals)

  • 강봉석;한철희;우경호;양태영;이충용;윤대희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.101-104
    • /
    • 1999
  • 본 논문에서는 음성 신호를 이용해서 화자의 감정을 인식하기 위해 3가지 시스템을 구축하고 이들의 성능을 비교해 보았다. 인식 대상으로 하는 감정은 기쁨, 슬픔, 화남, 두려움, 지루함, 평상시의 감정이고, 각 감정에 대한 감정 음성 데이터베이스를 직접 구축하였다. 피치와 에너지 정보를 감성 인식의 특징으로 이용하였고, 인식 알고리듬은 MLB(Maximum-Likelihood Bayes)분류기, NN(Nearest Neighbor)분류기 및 HMM(Hidden Markov Model)분류기를 이용하였다. 이 중 MLB 분류기와 NN 분류기에서는 특징벡터로 피치와 에너지의 평균과 표준편차, 최대값 등 통계적인 정보를 이용하였고, TMM 분류기에서는 각 프레임에서의 델타 피치와 델타델타 피치, 델타 에너지와 델타델타 에너지 등 시간적 정보를 이용하였다. 실험은 화자종속, 문장독립형 방식으로 하였고, 인식 실험 결과는 MLB를 이용해서 $68.9\%, NN을 이용해서 $66.7\%를 얻었고, HMM 분류기를 이용해서 $89.30\%를 얻었다.

  • PDF