• Title/Summary/Keyword: 음성 훈련

Search Result 278, Processing Time 0.021 seconds

VOICE REHABILITATION FOLLOWING LARYNGECTOMY -MYOMUCOSAL TRACHEOESOPHAGEAL SHUNT- (후두전적출술후 Myomucosal tracheoesophageal shunt를 이용한 음성 재활에 관한 연구)

  • 엄재욱;이건주;박춘근
    • Proceedings of the KOR-BRONCHOESO Conference
    • /
    • 1991.06a
    • /
    • pp.27-27
    • /
    • 1991
  • 저자들은 후두전적출술을 시행한 환자의 음성재활을 위해 식도의 근육과 점막을 이용한 shunt를 만들고 이상적인 shunt의 기능을 위해 shunt의 길이, 직경, 적절한 괄약효과 보강, 음성훈련 요령등에 대해 개 5마리를 이용한 동물실험 및 5례의 임상 적용을 통해 다음과 같은 지식을 얻었기에 문헌 고찰과 아울러 보고하는 바이다. 1. shunt의 협착에 대한 문제는 없었다. 2. 식도측의 입구를 좁혀 줌으로서 기관으로의 흡인을 방지할 수 있었다. 3. Nelaton catheter는 72시간 삽입이 적당했다. 4. 음성훈련은 3주부터 시작함이 적당했다. 5. shunt의 길이는 3 cm가 적당했다.

  • PDF

Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment (최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가)

  • 권오욱
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.2
    • /
    • pp.84-89
    • /
    • 1998
  • 본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

  • PDF

A Study on the Implementation of an Automatic Segmentation System of Korean Speech based on the Hidden Markov Model (HMM에 의한 한국어음성의 자동분할 시스템의 구현에 관한 연구)

  • 김윤중;김미경;이인동
    • Journal of Information Technology Application
    • /
    • v.1 no.3_4
    • /
    • pp.1-23
    • /
    • 1999
  • 본 연구에서는 HMM(Hidden Markov Model) 및 Levelbuilding 알고리즘을 이용하여 인식대상 음소열의 표본 집합(훈련패턴 집합)을 입력으로 하는 음성의 자동 분할 시스템을 구현하였다. 본 시스템은 자연스럽게 발음되어진 연결음 음성으로부터 표준 음소모델을 생성한다. 본 시스템의 구성은 초기화 과정, HMM학습과정 그리고 Levelbuilding을 이용한 분리 및 CLustering 과정으로 구성되어 있다. 초기화 과정에서는 제어 정보를 이용하여 훈련패턴 집합으로부터 초기 음소 집합 군을 생성한다. Levelbuilding을 이용한 분리 및 Clustering 단계에서는 음소 모델과 제어 정보를 이용하여 훈련패턴들을 음소 단위로 분리하고, 분리된 후보 음소들을 Clustering하여 음소집합 군을 생성한다. 음소모델의 구성에 변화가 없을 때까지 이 작업을 반복 수행하여 최적의 음소모델을 생성한다. 본 연구에서는 3개 이하의 숫자단어로 구성된 연결되어 음성 패턴을 대상으로 실험하였다. 연결단어에 대한 음소의 표준모델 생성과정에서 가장 중요한 처리인 훈련패턴의 자동분할 과정을 분석하기 위하여 각 반복과정에서 분리된 정보를 그래프로 도시화하여 확인하였다.

  • PDF

Development of a Foreign Language Speaking Training System Based on Speech Recognition Technology (음성 인식 테크놀로지 기반의 외국어 말하기 훈련 시스템 개발)

  • Koo, Dukhoi
    • Journal of The Korean Association of Information Education
    • /
    • v.23 no.5
    • /
    • pp.491-497
    • /
    • 2019
  • As the world develops into a global society, more and more people want to speak foreign languages fluently. To speak fluently, you must have sufficient training in speaking, which requires a dialogue partner. Recently, it is expected that the development of voice recognition information technology will enable the development of a system for conducting foreign language speaking training without human beings from the other party. In this study, a test bed system for foreign language speaking training was developed and applied to elementary school classes. Elementary school students were asked to present their English conversation situation and conduct speaking training. Then, satisfaction with the system and potential for continuous utilization were surveyed. The system developed in this study has been identified as helpful for the training of learning to speak a foreign language.

Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition (음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가)

  • 김회린;이항섭;권오욱
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.7
    • /
    • pp.22-27
    • /
    • 1998
  • 본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

  • PDF

Development of a Speech Recognition System uSing e++ Language and Standard library (C++ 언어와 Standard Library 를 이용한 음성인식기 개발)

  • 황규웅
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.74-77
    • /
    • 1998
  • 우리는 C++를 이용하여 음성인식기를 구현하여 기존의 C를 이용한 경우에 비하여 30% 수준의 소스로 표현하였고 인식기의 공동개발, 확장 및 개선, 기술 전수 등이 용이하게 되었으며 이를 음성인식 엔진 및 음성인식 연구를 위한 툴로 사용할 수 있게 되었다. 이 인식기의 특징으로는 연속 음성 및 대화체 음성을 인식할 수 있으며 trigram 언어 모델을 사용하였고 문맥 종속 음소 모델링에서는 기존의 triphone 보다 넓은 문맥을 고려한 n-phone context modeling을 사용하였으며 모델의 선정에는 음성학적 지식을 기반으로 한 질문을 사용한 decision tree를 사용하여 훈련에 나타나지 않은 단어나 문맥인 경우라도 가장 가까운 모델을 선정할 수 있게 하였다. 또, tree lexicon을 사용하여 속도를 개선하였으며 state 단위의 모델 공유를 통해 제한된 데이터를 이용하여 더 많은 모델을 훈련할 수 있어 성능을 개선하였다. 상용화를 염두에 두고 pc에서 구현하였다.

  • PDF

An improved automatic segmentation algorithm (자동 음성 분할 시스템의 성능 향상)

  • Kim Mu Jung;Kwon Chul Hong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.45-48
    • /
    • 2002
  • 본 논문에서는 한국어 음성 합성기 데이터베이스 구축을 위하여 HMM을 이용하여 자동으로 음소경계를 추출하고, 음성 파라미터를 이용하여 그 결과를 보정하는 반자동 음성분할 시스템을 구현하였다. 개발된 시스템은 16KHz로 샘플링된 음성을 대상으로 삼았고, 레이블링 단위인 음소는 39개를 선정하였고, 음운현상을 고려한 확장 모노폰도 선정하였다. 그리고 언어학적 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴 매칭 방법으로는 HMM을 이용하였다. 유성음/무성음/묵음 구간 분류에는 ZCR, Log Energy, 주파수 대역별 에너지 분포 등의 파라미터를 사용하였다. 개발된 시스템의 훈련된 음성은 정치, 경제, 사회, 문화, 날씨 등의 코퍼스를 사용하였으며, 성능평가를 위해 훈련에 사용되지 않은 문장 데이터베이스에 대해서 자동 음성 분할 실험을 수행하였다. 실험 결과, 수작업에 의해서 분할된 음소경계 위치와의 오차가 10ms 이내가 $87\%$, 30ms 이내가 $91\%$가 포함되었다.

  • PDF

Effect of semi-occluded vocal tract exercise via telepractice on subjective voice evaluation of early childhood teachers (원격으로 실시한 반폐쇄성도훈련이 영유아 교사의 주관적 음성평가에 미치는 효과)

  • Ryu, Hyeong Sun;Kim, Jaeock
    • Phonetics and Speech Sciences
    • /
    • v.13 no.4
    • /
    • pp.67-74
    • /
    • 2021
  • This study examines the effectiveness of semi-occluded vocal tract exercise (SOVTE) conducted through telepractice for 10 female teachers who have experienced vocal discomfort while working in early childhood education facilities (childcare centers, kindergartens). The effects of SOVTE conducted through telepractice were evaluated based on the Korean voice handicap index (KVHI), the Korean version of the voice activity and participation profile (K-VAPP), vocal effort, and auditory perception evaluation by using the grade, roughness, breathiness, asthenia, and strain (GRBAS) scale. The results show that total, functional, and physical scores of KVHI significantly reduced after SOVTE. The total score in K-VAPP significantly reduced after SOVTE. Moreover, vocal effort significantly decreased after SOVTE. However, statistically significant differences were not noted in GRB scales before and after SOVTE. In conclusion, early childhood teachers experienced reduced vocal discomfort SOVTE conducted through telepractice. The study results indicate that voice therapy conducted through telepractice is an effective method for reducing vocal discomfort in early childhood teachers.

Performance comparison on vocal cords disordered voice discrimination via machine learning methods (기계학습에 의한 후두 장애음성 식별기의 성능 비교)

  • Cheolwoo Jo;Soo-Geun Wang;Ickhwan Kwon
    • Phonetics and Speech Sciences
    • /
    • v.14 no.4
    • /
    • pp.35-43
    • /
    • 2022
  • This paper studies how to improve the identification rate of laryngeal disability speech data by convolutional neural network (CNN) and machine learning ensemble learning methods. In general, the number of laryngeal dysfunction speech data is small, so even if identifiers are constructed by statistical methods, the phenomenon caused by overfitting depending on the training method can lead to a decrease the identification rate when exposed to external data. In this work, we try to combine results derived from CNN models and machine learning models with various accuracy in a multi-voting manner to ensure improved classification efficiency compared to the original trained models. The Pusan National University Hospital (PNUH) dataset was used to train and validate algorithms. The dataset contains normal voice and voice data of benign and malignant tumors. In the experiment, an attempt was made to distinguish between normal and benign tumors and malignant tumors. As a result of the experiment, the random forest method was found to be the best ensemble method and showed an identification rate of 85%.