• 제목/요약/키워드: 트라이폰

검색결과 30건 처리시간 0.02초

연속 음성 인식을 위한 PTM 음절 모델 (Phonetic Tied-Mixture Syllable Model for CSR)

  • 김봉완;이용주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.33-36
    • /
    • 2004
  • 최근 연속 음성 인식에서의 성능 향상을 위하여 음절을 인식 단위로 사용하고자 하는 노력들이 보고되고 있다. 그러나 음절의 경우 음소에 비해 학습성이 좋지 않고 모델의 수가 많으므로 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 본 논문에서는 음절의 이러한 단점을 극복하기 위하여 모노폰과 트라이폰을 이용하여 음절 모델을 합성하는 방법을 제안한다. 제안된 모델은 트라이폰에 비하여 평균 $55\%$, PTM에 비하여 평균 $13\%$의 인식 속도 향상을 보이며, 동일한 속도일 경우 PTM, 트라이폰 모델 모두에 대하여 ERR이 약$8\%$ 향상됨을 볼 수 있었다.

  • PDF

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석 (Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure)

  • 최승호
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.96-100
    • /
    • 2006
  • 고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

한국어 어휘 인식을 위한 혼합형 음성 인식 단위 (Monophone and Biphone Compuond Unit for Korean Vocabulary Speech Recognition)

  • 이기정;이상운;홍재근
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.867-874
    • /
    • 2001
  • 본 논문에서는 한국어의 발음 특성을 고려하여 인식시간 단축과 동시에 조음현상을 반영할 수 있는 인식단위 표현법을 제안하였다. 제안한 인식단위는 단음소(monophone)와 바이폰(biphone)의 혼합형으로서, 단음소 단위는 안정적인 특성을 나타내는 모음에 적용되고 바이폰 단위는 인접한 모음에 의해 변하는 자음에 적용된다. PBW455 데이터베이스에 대한 단어인식 실험에서 혼합형 단위표현법은 트라이폰 단위에 비해 비슷한 인식률을 나타내면서 57%의 인식시간 단축효과를 나타냈고, 음절 단위에 비해 향상된 인식률과 비슷한 인식시간을 나타내었다. 또한 트라이폰 및 음절 단위보다 적은 모델 수를 가져 메모리 양을 줄일 수 있었다.

  • PDF

한국어최적상호명코퍼스설계에관한연구 (A Study on the optimal text corpus for company names)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권7호
    • /
    • pp.747-754
    • /
    • 2004
  • 본 논문에서는 114 안내시스템에 저장되어있는 서로 중복되어 있지 않는 1,566,943개의 상호명 코퍼스에서 이 코퍼스의 특징을 가장 잘 표현 해 줄 수 있는 최적 코퍼스를 설계하였다. 최적 코퍼스를 구하기 위해 두 단계의 방식을 택한다. 일 단계는 기본코퍼스에 존재하는 트라이폰이 모두 나타내는 최소의 단어 셋을 구하는 최적 음소균형 코퍼스 셋이고 다음 단계는 기본코퍼스에 존재하는 트라이폰의 빈번도를 고려하는 최소의 단어 셋을 구하는 음소 분포코퍼스 셋을 설계하였다. 실험 결과 최적 음소 균형 셋으로 8,699단어가 선정되었으며 최적 음소 분포 균형 셋으로 16,783 단어가 선정되었다. 이러한 최적 코퍼스는 음성 및 합성 시스템을 위한 음성데이터베이스를 구축 할 때 이용된다.

  • PDF

대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법 (A DB Pruning Method in a Large Corpus-Based TTS with Multiple Candidate Speech Segments)

  • 이정철;강태호
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.572-577
    • /
    • 2009
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

DSP를 이용한 연속숫자 음성 인식기 구현 (The Implementation of Continuous Digit Recognition Using DSP)

  • 이성권;임영춘;서준배;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.93-96
    • /
    • 2004
  • 본 논문은 TMS320C5501 16bit DSP를 적용한 실시간 화자독립 연속 숫자인식기의 구현에 관해 서술한다. 하드웨어 모듈의 구성은 TMS320C5501 300MHz DSP, 코덱으로는 TLV320AIC1103, SDRAM, 외부장치와의 인터페이스를 위한 HPI, Uart, MIC, SPK Out 단자로 구성되었다. 음성인식 알고리즘은 HM-Net 방식을 사용하였고 고정소수점 연산처리 방식으로 C를 이용한 최적화 작업을 수행하였으며 스트리밍 방식의 인식 방법으로 실시간 처리가 가능하도록 구현하였다. 숫자 인식에 사용한 모델은 41음소에 기반한 트라이폰을 학습하였으며, 특징 파라미터로는 LPCMEL 20차를 사용하였다. 임베디드 시스템의 실시간 음성인식 시스템 구성에 중점을 두었으며 PC상에서의 성능과 비교해 볼때 본 DSP 상에서 500단어, 50문장의 인식을 평균 1.5초 전후로 인식하도록 하였으며 간단한 연결 단어 인식을 수행하는데 무리 없음을 보여준다. 특별히 한국어 연속숫자 부분에 중점을 두었고, 본 연구에서 구현된 연속 음성인식 시스템에 사용된 숫자 인식에서 음절 바이폰 모델에 대하여 $92.92\%$의 인식율을 얻을 수 있었다.

  • PDF

모노폰 거리를 이용한 트라이폰 클러스터링 방법 연구 (Efficient Triphone Clustering Using Monophone Distance)

  • 방규섭;육동석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.41-44
    • /
    • 2006
  • The purpose of state tying is to reduce the number of models and to use relatively reliable output probability distributions. There are two approaches: one is top down clustering and the other is bottom up clustering. For seen data, the performance of bottom up approach is better than that of top down approach. In this paper, we propose a new clustering technique that can enhance the undertrained triphone clustering performance. The basic idea is to tie unreliable triphones before clustering. An unreliable triphone is the one that appears in the training data too infrequently to train the model accurately. We propose to use monophone distance to preprocess these unreliable triphones. It has been shown in a pilot experiment that the proposed method reduces the error rate significantly.

  • PDF

메타문자를 사용한 한국어 사전 탐색 앱 (Korean Word Search App Using Meta-characters)

  • 권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-113
    • /
    • 2011
  • 스마트 폰의 보급이 대중화됨에 따라 다양한 앱들이 사용되고 있으나 효율적인 사전 탐색에 관한 앱은 그다지 많지 않다. 현재 공개된 한국어 사전 탐색 앱은 완전한 단어이거나 단어의 부분 문자열을 질의로 사용한다. 이 경우 완전한 단어를 기억하지 못하거나 한국어 정보처리를 위한 여러 형태의 음운 정보를 쉽게 탐색할 수 없다. 이러한 문제를 개선하기 위해 본 논문에서는 메타문자를 사용하여 효율적으로 단어를 탐색할 수 있는 앱을 개발한다. 본 논문에서 사용하는 메타문자는 임의의 음절을 표현하는 '*'와 '?'과 종성을 표현하는 ':'를 사용하며 사전구조는 자소 단위의 트라이를 사용한다. 또한 음절은 물론이고 자소(초성, 중성, 종성)로 구성된 질의를 탐색할 수 있다. 더구나 음절과 자소가 혼합된 질의도 사용할 수 있도록 하여 사용자의 편의를 크게 도모하였다.

  • PDF

촉감 감성 해석을 위한 미끄럼 마찰 시험과 신호 분석 (Analysis of Friction Signals Based on Sliding Tests with Finger for Tactile Sensibility)

  • 박진확;박세민;;이영제
    • Tribology and Lubricants
    • /
    • 제29권3호
    • /
    • pp.167-170
    • /
    • 2013
  • The friction behavior of human skin is determined by the complex interplay of the material and surface properties of the skin, as well as the contacting material, and strongly depends on the contact parameters (e.g., pressure and sliding velocity) and the presence of substances such as water, sweat, or skin surface lipids at the interface. Including a study on the effect of a surface's physical roughness for skin sliding over the surface, various studies have been conducted to understand human tactile sensibility. However, to investigate products in relation to human tactile sensibility, more objective research is needed. This study performed sliding experiments between the skin and the surfaces of phone cases to understand how the texture, friction, and stick-slip characteristics are related. Eight phone case surfaces with different topologies and chemical (or mechanical) compatibilities with skin were prepared and tested multiple times.

가변어휘 인식기를 이용한 PDA상에서의 음성제어 구현 (Implementation of Voice Control on PDA using the Text Independent Vocabulary Recognizer)

  • 곽상훈;최승호;신도성;김진영
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.57-72
    • /
    • 2002
  • The technology of speech recognition has a wide field of application. The range of such technology is spreading into mobile computing having the large amount of movement for communication equipments at the present time. Particularly, recognition in internet environment is rapidly moving into mobile environment. Because of these environments, users want the faster speed of data transmission and the lighter portable equipment for data access. That is PDA(Personal Digital Assistant). Therefore, we designed a triphone-based text independent vocabulary recognizer for the implementation of speech control in this paper. The text independent vocabulary recognizer is based on the state .joint algorithm with decision trees

  • PDF