• Title/Summary/Keyword: 화자 패턴

Search Result 111, Processing Time 0.028 seconds

Acoustics of Young People's In Busan : Developmental Changes of Spectral Parameters (부산 지역 청소년 음성의 연령별 특징 변화 분석)

  • Back Sung-Kwan;Ro Yong-Ju;Yoon Jong-Rak
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.49-52
    • /
    • 2001
  • 부산지역 청소년 음성의 지속시간, 피치주파수 포만트 주파수 특성을 연령별, 성별로 분석하였다. 실제 발음 환경에서의 음성 패턴은 발성화자 개인 및 화자별로 다양하게 변화한다. 이를 모델 화하기 위해서는 다량의 음성 데이터로부터 통계적 방법에 의한 변화 요인별 파라미터 분석이 선행되어야 할 것이다. 실험에 사용된 데이터는 부산지역에 거주하는 청소년(초등학생, 중학생, 고등학생)들이 연령별로 3회 발성한 우화의 일부와 단모음(/아/,/이/,/우/,/에/,/오/)이다 실험 결과로부터 얻어진 지속시간, 주파수 특성 변화 패턴을 연령별, 성별로 구분하여 통계적으로 분석한 뒤 이를 정량화 하였다. 실험 결과로부터 부산 지역 청소년 음성의 지속시간, 주파수 특성은 예측된 바와 같이 기 연구된 성인 음성과 많은 차이를 보였으며 이는 부산 지역 방언의 DB 구축 시 설계자가 고려해야 할 기초자료로 활용 될 수 있을 것이다.

  • PDF

User Adjustment Post-Process Using Neural Network In Isolated Word Speech Recognition (고립단어 음성인식에서 신경망을 이용한 사용자 적응형 후처리)

  • Kim, Young-Jin;Kim, Eun-Ju;Kim, Myoung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.736-738
    • /
    • 2005
  • 최근 PDA나 PMP와 같은 개인용 모바일 기기의 인터페이스 개발로써 잡음환경에 강인한 음성인식 기술들이 연구되고 있으며 이러한 방법으로 오류패턴, 순차패턴, 의미정보, 문맥정보와 같이 인식기에 독립적인 정보를 이용하거나 영상 정보와 같이 언어와 성격이 다른 이질적인 정보를 이용하여 후처리를 하는 연구들이 진행되어 왔다. 그러나 인식기와 독립적인 정보로 후처리를 하는 방법들의 인식률은 인식기의 사전 인식률이 주변 잡음에 의해 떨어질 경우 후처리 인식률도 같이 떨어지는 현상이 벌어진다. 따라서 본 논문에서는 주변 잡음으로 인한 인식기의 사전 인식률에 저하를 줄이는 방법으로 사용자 적응형 후처리를 제안한다. 사용자 적응형 후처리에 사용되는 데이터는 사용자의 발화에 대한 인식기의 출력 값들이며, 출력 값들은 화자독립모델에 의해 계산되는 각 단어들의 유사도 들이다. 따라서 화자독립모델의 결과를 사용자 적응형 후처리에 적용한 결과 인식기의 오류를 $58.7\%$ 줄일 수 있었다.

  • PDF

On a updating reference pattern of speaker recognition using F1/F0 in the WINDOWS environment (위도우즈 환경에서 F1/F0 율을 이용한 화자인식의 기준패턴 형성에 관한연구)

  • 정종순;이윤주;배재옥;배명진
    • Proceedings of the IEEK Conference
    • /
    • 1998.06a
    • /
    • pp.611-614
    • /
    • 1998
  • 윈도우즈 95와 같은 멀티미디어 환경 하에서 개인 신분 확인을 위한 방법은 비밀번호를 키보드로 입력받는 것이었으나, 본 논문에서는 음성을 이용하는 방법으로 기존의 방법이 기준패턴의 시간에 따라 변하는 특성을 보상하지 못한다는 단점을 보완하는 방법이다. 즉, 이를 위해 음성신호의 특징인 기본주파수와 제1포만트의 비율을 이용하여 기준패턴을 형성화하는 방법에 관한 것이다. 제안한 방법으로 실험한 결과, 98%의 전체 인식율을 얻게 되었고, 윈도우즈 환경에서 비밀번호 사용 대신 음성 사용에 대한 가능성을 보여 주었다.

  • PDF

The Implementation of Windows 95 Control System with Speech Recognition (음성인식을 이용한 Windows 95 제어 시스템의 구현)

  • 남동선
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.43-46
    • /
    • 1998
  • 본 논문은 컴퓨터 사용에 미숙한 초보자나 키보드나 마우스를 사용할 수 없는 신체적인 조건을 가진 장애인 또는 PC사용에 미숙한 사용자들을 위해 기존의 인터페이스에 추가적으로 음성을 사용하여 더 효율적인 작업 환경을 만들기 위한 음성을 이용한 Window95 환경에서의 음성 인식 시스템 구현에 관한 것이다. 인터페이스 구현을 위해 사용되는 인식 알고리즘으로는 연결어 인식에 사용되는 OSDP[1] 알고리즘을 단독어 인식에 적용하여 사용하였다. 특징 벡터는 화자 독립적인 특성을 지닌 Perceptual Linear Predictive(PLP)[2] 13차 계수를 사용하였다. 인식 대상 어휘는 윈도우 사용자에게 자주 사용되는 60개의 명령어로 설정하였다. 인식된 후 그 결과는 구현된 시스템의 명령 실행 모듈로 전달되어 윈도우 상에서 실제 수행된다. 구현된 시스템에서는 노트북 내장 마이크를 사용하여 음성을 검출하였고 이를 위한 음성 구간 검출 알고리즘을 사용하였다. 기준 패턴은 20대 남성화자 9인이 2회 발성한 데이터를 이용하였고, 화자 독립으로 온라인 인식률은 91.71%이고, 오프라인 인식률은 96.4%의 인식률을 얻었다.

  • PDF

A Study on DTW Reference Pattern Creation Using Genetic Algorithm (유전자 알고리듬을 이용한 DTW 참조패턴 생성에 관한 연구)

  • 서광석
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.385-388
    • /
    • 1998
  • DTW를 이용한 음성인식에서는 참조패턴이 인식률에 절대적인 영향을 미치므로 가장 적합한 참조패턴의 생성이 중요한 요인으로 작용한다. 그러므로 인식률 향상을 위해 여러개의 참조패턴을 사용하는 방법이 있다. 그러나 이러한 방법은 게산량의 과다 및 사용 메모리의 증가 등이 단점으로 지적되고 있다. 따라서 본 논문에서는 참조패턴의 수를 줄이면서 높은 인식률을 얻기 위해 유전자 알고리듬을 이용하여 보다 우수한 참조패턴을 생성하여 음성인식에 적용하였다. 본 논문에서는 참조패턴 생성을 위하여 훈련에 참가한 자료를 서로 비교하여 DTW 거리값의 누적값이 최소가 되는 데이터를 선정하는 방법, 유전자 알고리듬을 이용한 방법으로 선정하는 방법으로 나누어 실험을 했고, 그 결과 누적값의 최소값을 이용하였을 경우 98.33%의 인식률을 얻을 수 있었던 반면에 유전자 알고리듬을 사용하였을 경우 100%의 화자종속 인식률을 얻을 수 있었다.

  • PDF

GMM-based Emotion Recognition Using Speech Signal (음성 신호를 사용한 GMM기반의 감정 인식)

  • 서정태;김원구;강면구
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.3
    • /
    • pp.235-241
    • /
    • 2004
  • This paper studied the pattern recognition algorithm and feature parameters for speaker and context independent emotion recognition. In this paper, KNN algorithm was used as the pattern matching technique for comparison, and also VQ and GMM were used for speaker and context independent recognition. The speech parameters used as the feature are pitch. energy, MFCC and their first and second derivatives. Experimental results showed that emotion recognizer using MFCC and its derivatives showed better performance than that using the pitch and energy parameters. For pattern recognition algorithm. GMM-based emotion recognizer was superior to KNN and VQ-based recognizer.

Speaker Verification System Using Continuants and Multilayer Perceptrons (지속음 및 다층신경망을 이용한 화자증명 시스템)

  • Lee, Tae-Seung;Park, Sung-Won;Hwang, Byong-Won
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2003.10a
    • /
    • pp.1015-1020
    • /
    • 2003
  • Among the techniques to protect private information by adopting biometrics, speaker verification is expected to be widely used due to advantages in convenient usage and implementation cost. Speaker verification should achieve a high degree of the reliability in the verification score, the flexibility in speech text usage, and the efficiency in verification system complexity. Continuants have excellent speaker-discriminant power and the modest number of phonemes in the category, and multilayer perceptrons (MLPs) have superior recognition ability and fast operation speed. In consequence, the two provide viable ways for speaker verification system to obtain the above properties. This paper implements a system to which continuants and MLPs are applied, and evaluates the system using a Korean speech database. The results of the experiment prove that continuants and MLPs enable the system to acquire the three properties.

  • PDF

A Study on the Speaker Adaptation in CDHMM (CDHMM의 화자적응에 관한 연구)

  • Kim, Gwang-Tae
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.39 no.2
    • /
    • pp.116-127
    • /
    • 2002
  • A new approach to improve the speaker adaptation algorithm by means of the variable number of observation density functions for CDHMM speech recognizer has been proposed. The proposed method uses the observation density function with more than one mixture in each state to represent speech characteristics in detail. The number of mixtures in each state is determined by the number of frames and the determinant of the variance, respectively. The each MAP Parameter is extracted in every mixture determined by these two methods. In addition, the state segmentation method requiring speaker adaptation can segment the adapting speech more Precisely by using speaker-independent model trained from sufficient database as a priori knowledge. And the state duration distribution is used lot adapting the speech duration information owing to speaker's utterance habit and speed. The recognition rate of the proposed methods are significantly higher than that of the conventional method using one mixture in each state.

An Improvement of the Outline Mede Error Backpropagation Algorithm Learning Speed for Pattern Recognition (패턴인식에서 온라인 오류역전파 알고리즘의 학습속도 향상방법)

  • 이태승;황병원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.616-618
    • /
    • 2002
  • MLP(multilayer perceptron)는 다른 패턴인식 방법에 비해 몇 가지 이점이 있어 다양한 문제영역에서 사용되고 있다 그러나 MLP의 학습에 일반적으로 사용되는 EBP(error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 실시간 처리를 요구하는 문제나 대규모 데이터 및 MLP 구조로 인해 학습시간이 상당히 긴 문제에서 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 MLP의 내부변수를 갱신하는 은라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 EBP 알고리즘에서는 내부 가중치 갱신시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률을 고정함으로써 온라인 방식에서 패턴별 갱신의 특성을 완전히 활용하지 못하는 비효율성이 발생한다. 또한, 학습도중 패턴군이 학습된 패턴과 그렇지 못한 패턴으로 나뉘고 이 가운데 학습된 패턴은 학습을 위한 계산에 포함될 필요가 없음에도 불구하고, 기존의 온라인 EBP에서는 에폭에 할당된 모든 패턴을 일률적으로 계산에 포함시킨다. 이 문제에 대해 본 논문에서는 학습이 진행됨에 따라 패턴마다 적절한 학습률을 적용하고 필요한 패턴만을 학습에 반영하는 패턴별 가변학습률 및 학습생략(COIL) 방댑을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

  • PDF

A Fast-Loaming Algorithm for MLP in Pattern Recognition (패턴인식의 MLP 고속학습 알고리즘)

  • Lee, Tae-Seung;Choi, Ho-Jin
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.8 no.3
    • /
    • pp.344-355
    • /
    • 2002
  • Having a variety of good characteristics against other pattern recognition techniques, Multilayer Perceptron (MLP) has been used in wide applications. But, it is known that Error Backpropagation (EBP) algorithm which MLP uses in learning has a defect that requires relatively long leaning time. Because learning data in pattern recognition contain abundant redundancies, in order to increase learning speed it is very effective to use online-based teaming methods, which update parameters of MLP pattern by pattern. Typical online EBP algorithm applies fixed learning rate for each update of parameters. Though a large amount of speedup with online EBP can be obtained by choosing an appropriate fixed rate, fixing the rate leads to the problem that the algorithm cannot respond effectively to different leaning phases as the phases change and the learning pattern areas vary. To solve this problem, this paper defines learning as three phases and proposes a Instant Learning by Varying Rate and Skipping (ILVRS) method to reflect only necessary patterns when learning phases change. The basic concept of ILVRS is as follows. To discriminate and use necessary patterns which change as learning proceeds, (1) ILVRS uses a variable learning rate which is an error calculated from each pattern and is suppressed within a proper range, and (2) ILVRS bypasses unnecessary patterns in loaming phases. In this paper, an experimentation is conducted for speaker verification as an application of pattern recognition, and the results are presented to verify the performance of ILVRS.