통합 검색 | Korea Science

음성인식을 위한 분산개념을 자율조직하는 신경회로망시스템 (A Neural Net System Self-organizing the Distributed Concepts for Speech Recognition)

김성석;이태호
- 대한전자공학회논문지
- /
- 제26권5호
- /
- pp.85-91
- /
- 1989
본 연구에서는 자기지도 BP 신경회로망의 은닉노드상의 활성패턴을 음성패턴의 분산표현된 개념으로 설정하고, 이 분산개념을 T.Kohonen의 자율조직 신경회로망(SOFM)의 입력특징으로 하는 복합적 회로망을 제안한다. 이렇게 함으로써 통상의 BP 신경망의 교육에 관련된 어려움과 패턴정합기로 떨어지는 약점을 해소하는 동시에 의미있고 다양한 내부표현을 추출해 낼 수 있다는 강점을 활용할 수 있고, SOFM의 강력한 판단기능을 이용하여 보다 구조적이고 의미있는 개념맵의 배열을 얻을 수 있게 되었다. 결과적으로 전처리가 불필요하고 자기교육이 가능한 독자적인 인식시스템이 구성된다.
PDF

한국어 발화음성에서 중점단어 탐색을 위한 기본주파수에 대한 연구 (A Study of Fundamental Frequency for Focused Word Spotting in Spoken Korean)

권순일;박지형;박능수
- 정보처리학회논문지B
- /
- 제15B권6호
- /
- pp.595-602
- /
- 2008
각 문장 별 중점단어는 발화음성을 인식하고 그 의미를 이해하는데 도움을 준다. 발화된 음성신호로부터 중점단어를 탐색할 수 있는 방법을 찾기 위한 노력의 일환으로 실험을 통하여 문장 내에서 중점단어와 그 외의 단어들의 기본주파수의 평균과 분산, 그리고 평균 에너지를 분석해 보았다. 한국어로 된 100개의 발화문장의 음성데이터를 가지고 실험을 한 결과 중점단어는 그 외의 단어들에 비해 대부분 상대적으로 높은 기본주파수의 평균값을 나타내거나 상대적으로 높은 기본주파수의 분산 값을 나타냈다. 이 연구 결과를 이용하면 한국어의 구어문장에서 운율적 특성을 알 수 있을 뿐만 아니라, 자연어 처리를 이용한 핵심어를 추출하는 데에도 도움이 될 것이다.
https://doi.org/10.3745/KIPSTB.2008.15-B.6.595 인용 PDF KSCI

유색 잡음 환경하에서 Cumulant를 이용한 한국어 단모음 인식 (Korean Single-Vowel Recognition Using Cumulants in Color Noisy Environment)

이형근;양원영;조용수
- 한국음향학회지
- /
- 제13권2호
- /
- pp.50-59
- /
- 1994
본 논문에서는 3차 Cumulant를 이용하여 음성의 특징벡타를 추출하고, 이것을 신경회로망의 입력으로 사용하는 음성 인식 방법을 제시한다. 3차 이상의 고차 cumulant를 이용하면 Gaussian 잡음과 음성 신호의 분리가 가능하며, 충분히 많은 데이타를 사용할 경우 음성 데이타를 AR 모델링한 계수값을 bias 없이 추출할 수 있다. 또한 기존의 2차 statistics를 이용한 특징 벡타 추출 방법과 비교할 때 잡음이 큰 경우에도 분산은 크지만 bias가 작아 보다 잡음에 강한 특징벡타를 추출할 수 있다. 한국어 단모음에 대한 모의실험을 통하여 유색 잡음 환경에서 SNR이 커질수록 3차 cumulant를 이용한 방법이 기존의 2차 statistics를 이용한 방법보다 높은 인식율을 나타냄을 보인다.
PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System Using Continuous Hidden Markov Model for Korean Language)

김도영;박용규;권오욱;은종관;박성현
- 한국음향학회지
- /
- 제13권1호
- /
- pp.24-31
- /
- 1994
본 논문에서는 연속분포 hidden Markov모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다 성능 평가를 위한 회자 독립인식 실험에서 문법이 없을 경우 $83\%$, finite state network을 적용한 경우에는 $94\%$의 인식률을 나타내었다.
PDF

강인한 음성인식을 위한 극점 필터링 및 스케일 정규화를 이용한 켑스트럼 특징 정규화 방식 (Cepstral Feature Normalization Methods Using Pole Filtering and Scale Normalization for Robust Speech Recognition)

최보경;반성민;김형순
- 한국음향학회지
- /
- 제34권4호
- /
- pp.316-320
- /
- 2015
본 논문에서는 Cepstral Mean Normalization(CMN)과 Cepstral Mean and Variance Normalization(CMVN) 프레임워크에서 극점 필터링(pole filtering) 개념을 Mel-Frequency Cepstral Coefficient(MFCC) 특징 벡터에 적용한다. 또한 분산 정규화를 대신하여 스케일 정규화를 사용하는 Cepstral Mean and Scale Normalization(CMSN)의 성능을 잡음 환경 음성인식 실험을 통해 평가한다. CMN과 CMVN은 보통 발화 단위로 수행되기 때문에 짧은 발화의 경우 특징에 대한 평균과 분산의 추정 신뢰도가 보장되지 않는 문제점을 가지는데, 극점 필터링과 스케일 정규화 방식을 적용함으로 이러한 문제점을 보완할 수 있다. Aurora 2 데이터베이스를 이용한 실험 결과, 극점 필터링과 스케일 정규화를 결합한 특징 정규화 방식의 성능이 가장 높은 성능 향상을 보인다.
https://doi.org/10.7776/ASK.2015.34.4.316 인용 PDF KSCI

분산음성인식 환경에서 서버에서의 스케일러블 고품질 음성복원 (Scalable High-quality Speech Reconstruction in Distributed Speech Recognition Environments)

윤재삼;김홍국;강병옥
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2007년도 하계종합학술대회 논문집
- /
- pp.423-424
- /
- 2007
In this paper, we propose a scalable high-quality speech reconstruction method for distributed speech recognition (DSR). It is difficult to reconstruct speech of high quality with MFCCs at the DSR server. Depending on the bit-rate available by the DSR system, we can send additional information associated with speech coding to the DSR sorrel, where the bit-rate is variable from 4.8 kbit/s to 11.4 kbit/s. The experimental results show that the speech quality reproduced by the proposed method when the bit-rate is 11.4 kbit/s is comparable with that of ITU-T G.729 under both ideal channel and frame error channel conditions while the performance of DSR is maintained to that of wireline speech recognition.
PDF

신경회로망의 광학적 구현 (Optical Implementation of Neural Neworks)

김흥만;정재우
- 한국광학회:학술대회논문집
- /
- 한국광학회 1991년도 광학 및 양자전자학 워크샵
- /
- pp.55-59
- /
- 1991
신경회로망은 뒤뇌의 신경조직이 갖는 병렬적이며 분산적인 정보처리 능력을 흉내낸 인공적인 회로망이다. 이러한 신경회로망을 영상인식, 음성인식, 적응제어 및 최적화등에 응용할 경우 지금까지 얻지 못하였던 우수한 여러 가지 특성을 얻을수 있음을 알려짐에 따라 신경회로망을 구체적으로 구현하고자 하는 연구가 활발히 이루어지고 있다. 본 고에서는 신경소자간의 연결세기의 변조에 의한 학습 원리를 설명하고 광전기적인 그현방법에 대해서 몇 개의 예를 들어 설명하고 그 발전 가능성에 대하여 기술하였다.
PDF

효율적인 차량 환경을 위한 딥 러닝 기반의 음성인식 상품 구매 시스템 (Deep learning-based voice recognition product purchase system for efficient vehicle environment)

권병욱;강원민;박종혁
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2017년도 추계학술발표대회
- /
- pp.330-332
- /
- 2017
최근 차량사고는 운전자의 운전 행동이 많은 비중을 차지하며 행동이 올바르지 못했을 경우 주의가 분산되어 사고가 발생하고 있다. 자동차 업계에서는 자율주행 기술의 출현으로 운전자의 운전환경이 변화되고 있다. 차량 서비스들은 차량에 부착된 센서들을 이용한 다양한 차량 서비스가 개발되고 있으며 차량 서비스는 도로주변 환경과 운전자의 안전에 집중된 서비스가 대부분이다. 하지만 차량에 부착된 센서들의 성능문제로 인한 기능적 문제점으로 상용화가 늦어지고 있다. 본 논문에서는 사용자에게 효율적인 차량 서비스를 제공하기 위해 사용자의 음성을 활용한 상품구매 시스템을 제안한다. 본 시스템은 딥 러닝 기술이 적용된 DB를 통해 사용자의 음성데이터 분류를 통해 상품을 검색 및 구매할 수 있는 시스템이다. 제안된 시스템은 음성인식을 활용하여 별도의 과정 없이 간편하게 상품을 구매할 수 있으며, 사고의 위험으로부터 벗어날 수 있다.
https://doi.org/10.3745/PKIPS.y2017m11a.330 인용 PDF

한국어 음소인식을 위한 기준 프레임 추출 (Typical Frame Etraction for Korean Phoneme Recognition)

김범국
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
- /
- pp.121-124
- /
- 1994
음소를 인식의 기본으로 하는 한국어 음성인식 시스템을 구현하기 위한 기초 연구의 일환으로서 각 음소의 특징 가장 잘 표현하는 기준프레임 추출을 위한 연구를 수행하였다. 이를 위하여 먼저 선행 실험과 분산비 분석을 통해서 인식에 필요로한 시간 패턴의 길이를 추출한 후 이를 바탕으로 통계적 인식방법인 베이즈 결정법칙을 이용하여 시단 프레임으로부터 3프레임씩 시점을 1프레임씩 옮기면서 인식 실험을 해？여, 각 음소별 특징이 가장 풍부한 기준 프레임을 추출하였다. 그리고 이 기준 프레임을 중심으로 각 음소군별 인식 실험을 수행하여 그 결과를 시단을 기준으로 한 경우와 비교 검토하고 한국어 전 음소별로 확장하여 인식 실험을 실시하였다. 이 실험 결과 모음의 경우 시단으로부터 5프레임, 파열음은 시단에서부터 5프레임사이, 마찰음은 3프레임에서부터 10프레임까지, 파찰음은 5프레임까지, 비음과 유음의 경우 초성은 시단 프레임에서 6프레임, 종성은 종단으로부터 전 4프레임 구간이 인식률이 높게 나타나 이 부분의 특징이 인식에 가장 유효함을 알 수 있었다.
PDF

무선랜 환경에서의 분산 음성 인식을 이용한 음성 다이얼링 시스템 (A Voice-Activated Dialing System with Distributed Speech Recognition in WiFi Environments)

박성준;구명완
- 대한음성학회지:말소리
- /
- 제56호
- /
- pp.135-145
- /
- 2005
In this paper, a WiFi phone system with distributed speech recognition is implemented. The WiFi phone with voice-activated dialing and its functions are explained. Features of the input speech are extracted and are sent to the interactive voice response (IVR) server according to the real-time transport protocol (RTP). Feature extraction is based on the European Telecommunication Standards Institute (ETSI) standard front-end, but is modified to reduce the processing time. The time for front-end processing on a WiFi phone is compared with that in a PC.
PDF

검색결과 56건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)