• Title/Summary/Keyword: 음성추출

Search Result 987, Processing Time 0.025 seconds

Design and Implementation of a Bimodal User Recognition System using Face and Audio (얼굴과 음성 정보를 이용한 바이모달 사용자 인식 시스템 설계 및 구현)

  • Kim Myung-Hun;Lee Chi-Geun;So In-Mi;Jung Sung-Tae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.5 s.37
    • /
    • pp.353-362
    • /
    • 2005
  • Recently, study of Bimodal recognition has become very active. In this paper we propose a Bimodal user recognition system that uses face information and audio information. Face recognition consists of face detection step and face recognition step. Face detection uses AdaBoost to find face candidate area. After finding face candidates, PCA feature extraction is applied to decrease the dimension of feature vector. And then, SVM classifiers are used to detect and recognize face. Audio recognition uses MFCC for audio feature extraction and HMM is used for audio recognition. Experimental results show that the Bimodal recognition can improve the user recognition rate much more than audio only recognition, especially in the Presence of noise.

  • PDF

A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square (최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구)

  • Lee, See-Woo
    • The KIPS Transactions:PartB
    • /
    • v.9B no.2
    • /
    • pp.223-230
    • /
    • 2002
  • In a speech coding system using excitation source of voiced and unvoiced, it would be involves a distortion of speech waveform in case coexist with a voiced and an unvoiced consonants in a frame. This paper present a new method of TSIUVC (Transition Segment Including Unvoiced Consonant) approximate-synthesis by using Least Mean Square. The TSIUVC extraction is based on a zero crossing rate and IPP (Individual Pitch Pulses) extraction algorithm using residual signal of FIR-STREAK Digital Filter. As a result, This method obtain a high Quality approximation-synthesis waveform by using Least Mean Square. The important thing is that the frequency signals in a maximum error signal can be made with low distortion approximation-synthesis waveform. This method has the capability of being applied to a new speech coding of Voiced/Silence/TSIUVC, speech analysis and speech synthesis.

Extraction and Analysis of Voice Feature Parameter of Chungbuk News Announcers (충북방송 뉴스 진행자의 음성적 특징 추출 및 분석)

  • Kim, Bong-Hyun;Lee, Se-Hwan;Ka, Min-Kyoung;Cho, Dong-Uk;J.Bae, Young-Lae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.363-364
    • /
    • 2009
  • 방송 산업이 기술적 구조적으로 발전하고 시청자의 수준 향상 및 문화 산업이 급변함에 따라 현대사회에서 방송 분야는 거대 성장을 거듭하고 있다. 이러한 방송 산업의 시대적 변화속에서 지속적으로 관심의 대상이 되고 있는 것이 시청자들의 수준 및 변화의 초점이며 이를 파악하여 원활한 방송의 진행을 주도해야 하는 것이 방송 진행자의 역할이다. 따라서 본 논문에서는 충북지역의 방송 3사에서 뉴스를 담당하고 있는 진행자에 대한 음성을 수집하여 다양한 음성 분석 요소들을 적용하고 이에 따른 결과값을 기반으로 방송 진행자의 음성에 대한 특징적 정보를 추출하는 실험을 수행하였다. 특히, 음성을 통해 전달할 수 있는 영향력을 분석하기 위해 피치, 지터, 짐머, 안정도, 및 스펙트로그램 등의 다양한 음성 분석 요소를 적용하였으며 결과값에 대한 비교, 분석을 수행하였다.

신경회로망을 이용한 연속음성중 키워드(keyword)인식에 관한 연구

  • 최관선;한민홍
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1993.04a
    • /
    • pp.275-281
    • /
    • 1993
  • 본 발표에서는 신경회로망을 이용하여 연속음성중에서 키워드를 인식하는 방법을 설명한다. 연속음성에서 파형소편 및 음절을 식별하는 휴리스틱 알고리즘을 개발하였고, 연속음성을 음절단위로 파형소편 스펙트럼분석(선형예측법)으로 특성치를 추출하였다. 음절의 특성치는 코호넨 신경회로망을 통하여 학습을 시켰으며, 연속음성중 키워드인식은 먼저 음절을 인식하여 단어를 찾고, 인식된 단어가 키워드와 일치하는가를 확인한다. 본 연구의 의의는 파형소편 및 음절식별 알고리즘을 통하여, 크기불변성(Scaling invariance), 시간불변성(Time warping 및 Time-shift invariance), 중복성제거의 문제점을 해결하였고, 신경회로망의 학습을 통하여 화자독립적인 연속음성인식시스템 구축의 기반을 확립한데 있다. 본 음성인식모델은 학교구내 전화번호 안내시스템으로 활용단계에 있으며 전화번호뿐만아니라 주소안내시스템으로도 활용될 예정이다. 또한 자동차 운전보조시스템 및 주행안내시스템의 음성명령에 응용될 수 있는데, 예로 음성명령은 "핸들 좌로 20도", "시청까지 주행", "시청 지도안내"등이 될 수 있다. 현재 자동차 운전보조시스템은 컴퓨터 화면상 모의동작시스템으로 운영되고 있다. 본 음성인식모델은 화자종속시 90%이상, 화자독립시 70%의 인식결과를 보였다.시 90%이상, 화자독립시 70%의 인식결과를 보였다.

  • PDF

An Implementation of Word Relay Game using Speech Recognition (음성인식 끝말 이어가기 게임의 구현)

  • 김동환;윤재선;홍광석
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.12a
    • /
    • pp.177-180
    • /
    • 2000
  • 최근에 음성인식의 상용화가 급격히 추진되고 있다. 그러나 음성인식 응용제품의 부족과 음성인식 시스템의 성능문제로 인하여 일반인의 이용은 그다지 많지 않다. 본 논문에서는 연구실에서 만든 가변 어휘 음성인식기를 이용하여 음성인식 끝말 이어가기 게임을 구현하였다. 가변어휘 음성 인식기는 VCCV(Vowel+consonant+Consonant+vowel) 기반의 화자독립으로 구현하였다. 끝말 이어가기 게임을 위해서 약 500만 어절이 포함된 문장에서 추출한 단어의 일부를 이용하여 사전을 구축하였고, 같은 음절로 시작하는 단어가 많은 경우에는 그 수를 제안하였다. 본 연구에서 구현한 음성인식 끝말 이어가기 게임은 제한된 단어사전을 이용하도록 하였으나 음성인식기의 성능향상과 완전한 사전구축이 이루어지면 음성인식을 이용한 언어 학습기나 게임 등의 개발과 이용의 활성화에 크게 기여할 것이라 생각된다.

  • PDF

A Study on Numeral Speech Recognition Using Integration of Speech and Visual Parameters under Noisy Environments (잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구)

  • Lee, Sang-Won;Park, In-Jung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.38 no.3
    • /
    • pp.61-67
    • /
    • 2001
  • In this paper, a method that apply LP algorithm to image for speech recognition is suggested, using both speech and image information for recogniton of korean numeral speech. The input speech signal is pre-emphasized with parameter value 0.95, analyzed for B th LP coefficients using Hamming window, autocorrelation and Levinson-Durbin algorithm. Also, a gray image signal is analyzed for 2-dimensional LP coefficients using autocorrelation and Levinson-Durbin algorithm like speech. These parameters are used for input parameters of neural network using back-propagation algorithm. The recognition experiment was carried out at each noise level, three numeral speechs, '3','5', and '9' were enhanced. Thus, in case of recognizing speech with 2-dimensional LP parameters, it results in a high recognition rate, a low parameter size, and a simple algorithm with no additional feature extraction algorithm.

  • PDF

Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments (잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합)

  • Yoon, Sung-Wook;Kwon, Oh-Wook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.5
    • /
    • pp.439-451
    • /
    • 2021
  • We propose a deep learning-based beamformer combined with spectral subtraction for continuous speech recognition operating in noisy environments. Conventional beamforming systems were mostly evaluated by using pre-segmented audio signals which were typically generated by mixing speech and noise continuously on a computer. However, since speech utterances are sparsely uttered along the time axis in real environments, conventional beamforming systems degrade in case when noise-only signals without speech are input. To alleviate this drawback, we combine online beamforming algorithm and spectral subtraction. We construct a Continuous Speech Enhancement (CSE) evaluation set to evaluate the online beamforming algorithm in noisy environments. The evaluation set is built by mixing sparsely-occurring speech utterances of the CHiME3 evaluation set and continuously-played CHiME3 background noise and background music of MUSDB. Using a Kaldi-based toolkit and Google web speech recognizer as a speech recognition back-end, we confirm that the proposed online beamforming algorithm with spectral subtraction shows better performance than the baseline online algorithm.

A Study on Detection of Carcinoma Cell of Uterine Cervical Using Marker Information and Directional Information (마커 정보와 방향성 정보를 이용한 자궁 경부진 암종세포 추출에 관한 연구)

  • Lee, Dong-gyun;Kim, Kwang-baek
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.364-368
    • /
    • 2009
  • 자궁경부암은 다른 암과 달리 전암(前癌) 단계가 존재하므로 조기에 발견할 경우 생존율이 높다. 그러나 검체 적정성의 부족과 검체 체취의 오류로 인해 질병이 있음에도 음성으로 나타나는 위음성률이 높다. 따라서 본 논문에서는 세포 도말검사에서 사용되는 자궁 경부진 세포에서 암종 세포를 추출하는 방법을 제안한다. 영상의 배경 그리고 핵과 세포질 영역의 구분이 중요하기 때문에 조기 자궁 경부 세포진 영상에서 핵의 추출은 Lighting Compensation을 적용하여 영상을 보정하고, 명암도 분포가 가장 작은 B 채널과 명암도 분포가 높은 R채널과의 OR 연산을 적용한 후, $3{\times}3$마스크를 이용하여 잡음을 제거한다. 잡음이 제거된 영상을 이진화하고 Grassfire 알고리즘을 이용하여 암종 세포의 후보 객체를 추출한다. 추출된 세포 객체에서 핵의 크기, 핵의 면적과 핵의 외곽의 방향성 정보를 이용하여 백혈구와 잡음으로 구성된 객체를 제거한다. 세포 도말검사 과정에서 겹쳐진 부분은 거리 함수와 명암도를 이용하여 마커를 추출하고 추출된 마커 정보와 워터쉐드 알고리즘을 적용하여 겹쳐진 암종 세포를 분리한다. 자궁경부 편평 세포진 400 배율 영상과 자궁 경부 상피내 종양 400 배율 영상을 대상으로 실험한 결과, 기존의 자궁 경부진 암종 세포 추출 방법보다 효과적으로 암종 세포 영역이 추출되는 것을 확인하였다.

  • PDF

Automatic Segmentation Using LPC Smoothed Log Amplitude Spectra (LPC Smoothed Log Amplitude Spectra를 이용한 자동 음성 분할)

  • 김도한;이상운;이기정;홍재근
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.795-798
    • /
    • 2000
  • 연속음 인식과 음성 합성을 위해서는 정밀한 음성학적 모델과 연속 음성에 적용 가능한 언어 모델의 개발이 중요하다. 이를 위해서는 음성 데이터 베이스에 대한 인식 단위, 혹은 합성 단위의 분할이 필요한데, 수동음성 분할은 일관성의 유지가 어렵고 긴 시간이 소요되므로 최근에는 자동 분할 기술이 많이 연구되고 있다. 자동 음성 분할 기법으로는 시간 영역이나 주파수 영역특징 벡터의 천이를 분석하는 방법과 특징 벡터간의 상관도를 구하여 경계를 추출하는 방법이 있다. LPC smoothed log amplitude spectra는 음성의 주파수 영역의 특징을 잘 나타내며, 동일 음소 내의 상관도가 서로 다른 음소의 상관도보다 더 크고, 음소의 경계구간에서 급격한 상관도의 변화를 보인다. 이 특성을 이용하여 이웃 프레임에 대한 상관도의 방향성이 특정조건을 만족하는가를 검사하여 음소의 경계를 구하는 방법을 찾았다. 또한 LPC. 이득 인자만으로 묵음 구간을 검출하는 방법을 제시한다. 이렇게 하면 묵음 구간검출과 음소 경계 검출의 일관성을 향상시키고 수행 시간을 단축시킬 수 있다. 제안한 기법으로 허용 오차 20ms 이내에서 연속음성에 대한 음소 경계 검출 실험을 수행한 결과, 수작업으로 행한 경계 검출 지점의 약 88%를 정확히 검출하였다.

  • PDF

Design & Implementation of Voice-Interface for Web-Browsing (웹 브라우징을 위한 음성 인터페이스 설계 및 구현)

  • Lee, Seung-Ho;Youk, Sang-Cho;Kwon, Young-Mi;Lee, Geuk
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.04a
    • /
    • pp.106-109
    • /
    • 1998
  • WWW은 무한한 확장 가능성을 지닌 HTTP(Hyper-Text Transfer Protocol)와 편리한 웹 브라우져를 통해 질적, 양적 성장 계속해 왔으며 특히 GUI(Graphic User Interface) 환경에서 동작하는 웹 브라우져는 WWW이 수많은 이용자를 확보하는데 일익을 담당했다. 본 논문에서는 이 웹 브라우져에 음성인식 기술을 접목하여 WWW의 이용자가 자신의 음성으로 편리하게 웹 브라우징을 할 수 있도록 하는 음성 인터페이스를 설계, 구현 한다. 본 음성 인터페이스는 계속적으로 입력되는 음성 정보 중 화자의 발성음을 추출하여 음성 인식기에 전달하는 음성 입력기와 화자의 발성을 인식하는 음성 인식기 그리고 인식결과를 웹 브라우져에게 처리 하도록 하는 결과 처리기로 구성되어 있다.

  • PDF