• 제목/요약/키워드: phoneme classification

검색결과 33건 처리시간 0.02초

Recursive Least-Square 알고리즘을 이용한 한국어 음소분류에 관한 연구 (A Study on Korean Phoneme Classification using Recursive Least-Square Algorithm)

  • 김회린;이황수;은종관
    • 한국음향학회지
    • /
    • 제6권3호
    • /
    • pp.60-67
    • /
    • 1987
  • 본 논문에서는 recursive least-square(RLS) 알고리즘을 이용한 한국어 음소분류방법에 관하여 연구하였다. 각 음소의 특징벡터는 prewindowed RLS lattice 알고리즘을 사용하여 추출하는 방법을 제안하였고, 각 음소의 기준패턴은 추출된 특징벡터들을 벡터양자화하여 구성하였다. 제안된 음소인식방식의 성능시험을 위하여 한국어 음소중 자음11개와 모음 8개가 포함된 7개의 한국어 도시명을 발음하여 사용하였으며 초기의 각 음소의 기준패턴으로는 음성신호의 파형을 관찰하여 추출한 표준패턴(prototype)을 사용하였다. 컴퓨터 simulation의 결과로는 화자종속 음소인식의 경우 약간의 음소규칙을 고려할 때 약$85\%$의 음소인식율을 얻었으나, 화자독립 음소인식의 경우는 이보다 훨씬 낮은 인식율을 보였다.

  • PDF

Support Vector Machine Based Phoneme Segmentation for Lip Synch Application

  • Lee, Kun-Young;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.193-210
    • /
    • 2004
  • In this paper, we develop a real time lip-synch system that activates 2-D avatar's lip motion in synch with an incoming speech utterance. To realize the 'real time' operation of the system, we contain the processing time by invoking merge and split procedures performing coarse-to-fine phoneme classification. At each stage of phoneme classification, we apply the support vector machine (SVM) to reduce the computational load while retraining the desired accuracy. The coarse-to-fine phoneme classification is accomplished via two stages of feature extraction: first, each speech frame is acoustically analyzed for 3 classes of lip opening using Mel Frequency Cepstral Coefficients (MFCC) as a feature; secondly, each frame is further refined in classification for detailed lip shape using formant information. We implemented the system with 2-D lip animation that shows the effectiveness of the proposed two-stage procedure in accomplishing a real-time lip-synch task. It was observed that the method of using phoneme merging and SVM achieved about twice faster speed in recognition than the method employing the Hidden Markov Model (HMM). A typical latency time per a single frame observed for our method was in the order of 18.22 milliseconds while an HMM method applied under identical conditions resulted about 30.67 milliseconds.

  • PDF

The Study on Korean Phoneme for Korean Speech Recogintion

  • Hwang, Young-Soo
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.629-632
    • /
    • 2000
  • In this paper, we studied on the phoneme classification for Korean speech recognition. In the case of making large vocabulary speech recognition system, it is better to use phoneme than syllable or word as recognition unit. And, In order to study the difference of speech recognition according to the number of phoneme as recognition unit, we used the speech toolkit of OGI in U.S.A as recognition system. The result showed that the performance of diphthong being unified was better than that of seperated diphthongs, and we required the better result when we used the biphone than when using mono-phone as recognition unit.

  • PDF

SOFM 신경회로망을 이용한 한국어 음소 인식 (Korean Phoneme Recognition Using Self-Organizing Feature Map)

  • 전용구;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.101-112
    • /
    • 1995
  • 본 논문에서는 패턴 매칭 방법에 근거하여 인식 단위가 음소인 음소 기반 인식 시스템을 구성하였다. 선택한 신경망 구조는 생물학적 신경망인 코호넨(T. Kohonen)의 SOFM(Self-Organizing Feature Map)으로 패턴 매칭 과정 중 클러스터러(clusterer)로 사용하였다. SOFM 신경망은 신호 공간에 대해서 최적의 국소(局所) 해부적 사상(local topographical mapping)에 의한 자기 조직화 과정을 수행하며, 그 결과 인식 문제에 있어서 상당히 높은 정확도를 나타낸다. 따라서 SOFM 신경망은 음소 인식에도 효과적으로 응용될 수 있다. 또한 음소 인식 시스템의 성능 향상을 위해 K-means클러스터링 알고리즘이 결합된 학습 알고리즘을 제안하였다. 제안된 음소 인식 시스템의 성능을 평가하기 위해 먼저, 인식 대상음소는 모음군 17개, 자음의 경우 파열음9개, 마찰음 3개, 파찰음 3개, 유음 및 비음 4개, 음소의 성질이 다른 종성 7개의 음소군으로 모두 43개의 음소를 대상으로 실험하였으며, 각 음소군에 대한 특징 지도를 구성하여 레이블러(labeler)의 기능을 수행하게 하였다. 화자 종속 인식 실험 결과 $87.2\%$의 인식률을 보였으며 제안한 학습법의 빠른 수렴성과 인식률 향상을 확인하였다.

  • PDF

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구 (CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm)

  • 홍윤석;기경서;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.115-122
    • /
    • 2019
  • 지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN) 계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

산업용 로보트의 동작제어 명령어의 인식에 관한 연구 (A study on the voice command recognition at the motion control in the industrial robot)

  • 이순요;권규식;김홍태
    • 대한인간공학회지
    • /
    • 제10권1호
    • /
    • pp.3-10
    • /
    • 1991
  • The teach pendant and keyboard have been used as an input device of control command in human-robot sustem. But, many problems occur in case that the usef is a novice. So, speech recognition system is required to communicate between a human and the robot. In this study, Korean voice commands, eitht robot commands, and ten digits based on the broad phonetic analysis are described. Applying broad phonetic analysis, phonemes of voice commands are divided into phoneme groups, such as plosive, fricative, affricative, nasal, and glide sound, having similar features. And then, the feature parameters and their ranges to detect phoneme groups are found by minimax method. Classification rules are consisted of combination of the feature parameters, such as zero corssing rate(ZCR), log engery(LE), up and down(UD), formant frequency, and their ranges. Voice commands were recognized by the classification rules. The recognition rate was over 90 percent in this experiment. Also, this experiment showed that the recognition rate about digits was better than that about robot commands.

  • PDF

신경망과 구문분석을 이용한 한국어 연결 숫자음 인식 (Connected Korean Digit Recognition Using Neural Networks and Lexical Analysis)

  • 이종석;이상욱
    • 전자공학회논문지B
    • /
    • 제30B권12호
    • /
    • pp.21-30
    • /
    • 1993
  • In this paper, we propose a connected Korean digit recohnition system employing neural networks and lexical constraints of the Korean digits. In the proposed recognition system, firstly, each frame of digit string is labelled by phoneme classification neural networks.which are trained with the reference phoneme segments extracted form an isolated digit based on the position information. And, the frame labels are combined with each other for constructing the phoneme segments. Then, these segments are combined to form a digit candidate using the digit combination rules. The digit candidate is decided based on the condition for digit decision. If the condition is not satisfied, the digit candidate is further recognized using the digit decision neural network in the next step. In our approach, the neural networks are trained with 10 isolated digits uttered by 5 male speakers. To investigate the performance of the proposed recognition system, an intensive computer simulation on the 30 connected digit strings uttered by 5 male speakers is performed. The simulation result indicates that 95.6% digit recognition rate and 82% digit string recognition rate are provided by the proposed Korean digit recognition system.

  • PDF

음절구조로 본 서울코퍼스의 글 어절과 말 어절의 음소분포와 음운변동 (Phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus)

  • 양병곤
    • 말소리와 음성과학
    • /
    • 제8권3호
    • /
    • pp.1-9
    • /
    • 2016
  • This paper investigated the phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus in order to provide linguists and phoneticians with a clearer understanding of the Korean language system. To achieve the goal, the phrasal words were extracted from the transcribed label scripts of the Seoul Corpus using Praat. Following this, the onsets, peaks, codas and syllable types of the phrasal words were analyzed using an R script. Results revealed that k0 was most frequently used as an onset in both orthographic and pronounced phrasal words. Also, aa was the most favored vowel in the Korean syllable peak with fewer phonological processes in its pronounced form. The total proportion of all diphthongs according to the frequency of the peaks in the orthographic phrasal words was 8.8%, which was almost double those found in the pronounced phrasal words. For the codas, nn accounted for 34.4% of the total pronounced phrasal words and was the varied form. From syllable type classification of the Corpus, CV appeared to be the most frequent type followed by CVC, V, and VC from the orthographic forms. Overall, the onsets were more prevalent in the pronunciation more than the codas. From the results, this paper concluded that an analysis of phoneme distribution and phonological processes in light of syllable structure can contribute greatly to the understanding of the phonology of spoken Korean.

형상 형성 제어를 이용한 어휘인식 공유 모델의 가우시안 최적화 (Gaussian Optimization of Vocabulary Recognition Clustering Model using Configuration Thread Control)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.127-134
    • /
    • 2010
  • 연속 어휘 인식 확률 분포의 공유 방법에서는 사용될 모델 파라미터들의 초기 추정치를 생성하기 위한 각 문맥들에 대한 음소 데이터가 반드시 필요하지만 이들 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 가우시안 모델의 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하고, 음소 단위로 데이터를 탐색을 지원하는 형상 형성 시스템을 제안한다. 본 논문의 형상 형성 시스템은 확장 facet 분류를 이용하여 사용자에게 음소 단위의 형상 형성 정보를 제공하므로 가우시안 모델의 정확성을 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.31%, 어휘 독립 인식률은 97.63%의 인식률을 나타내었다.