통합 검색 | Korea Science

음소 인식을 위한 특징 추출의 위치와 지속 시간 길이에 관한 연구 (A Study on Duration Length and Place of Feature Extraction for Phoneme Recognition)

김범국;정현열
- 한국음향학회지
- /
- 제13권4호
- /
- pp.32-39
- /
- 1994
한국어 음성인식 시스템을 구현하기 위한 기초 연구로서 한국어 전음소를 대상으로 1) 각 음소의 특성을 가장 잘 나타내는 최적의 위치, 2) 최고의 인식률을 얻기 위한 적당한 지속시간길이를 찾기위해서 음소인식을 수행하였다. 인식실험을 위해 특징파라메터로 21차원 켑스트럼계수를 이용하여 베이즈 결정법칙으로서 세화자에 대한 종속인식실험을 행하였다. 인식실험결과 최고의 인식률을 보이는 최적의 특징추출의 위치는 모음에서는 10~50ms, 마찰음및 파찰음은 40~100ms, 비음, 유음은 10~50ms, 그리고 파열음은 10~50ms임을 알 수 있었다. 또, 35 전음소를 대상으로한 인식에 있어서는 최고의 인식률을 얻기위한 지속시간 정 보의 길이는 60~70ms정도가 충분함을 알 수 있었다.
PDF

전화 대역 확장에 따른 통화품질의 변화 (On the Transmission Quality of Wide-Band Telephony)

김정환
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
- /
- pp.155-158
- /
- 1995
150~7,000Hzd의 확대역 전화를 위한 전화 전송특성 설계지침으로 활용하기 위해, 확대역과 300~3400Hz 의 협대역 전화에 대한 통화품질 평가결과를 비교/분석하였다. 토화품질 평가는, 조정법에 의한 선호 라우드니스 레벨고 ㅏ동가 라우드니스 레벨 조정실험, 그리고 단음절 명료도평가로 구성되었다. 선호 라우드니스 레벨 조정실험의 결과, 협대역과 확대역 음성에 대한 피험자의 선호레벨이 각각 70.7dB 및 68.6dB로 약 2dB의 차이를, 피험자간 분산은 2.12와 6.11로 의미있는 차이를 보였는데, 이것은 음성대역의 확장에 따라 사용자들의분산이 크기 때문에 확대역 전화에서 수화음량 조절기능이 필요함을 증명한 결과이다. 그리고, 협/확대역 조건에서의 100개 단음절에 대한 명료도 실험 결과에서, 전체 명료도 점수간에는 통계적으로 의미있는 차이를 보이지 않았지만 단음절중 3,400Hz이상에서 많은 에너지를 갖는, 파열음 'ㅌ', 파찰음 'ㅈ', 'ㅉ', 'ㅊ', 그리고 마찰음 'ㅅ', 'ㅆ' 으로 시작하는 20개 단음절에 대한 부분명료도에 있어서 협대역과 확대역 조건간에 20%의 명료도 차이를 나타내었다. 또한, 비교 라우드니스 레벨 조정실험의 결과, 협대역과 확대역 사이의 평균 라우드니스 레벨 차이가 약 3.4dB (A)로 나타났는데, 이 결과는 국내 확대역 전화의 수화음량적격 설정에 지침으로 활용할 것이다.
PDF

한국어 마찰음, 파찰음, 치조 파열음의 음향학적 및 공기역학적 특성에 관한 연구 (An Acoustic and Aerodynamic Study of Korean Fricatives, Affricates, Alveolar Plosives)

최재남;남도현;최홍식
- 대한후두음성언어의학회지
- /
- 제16권2호
- /
- pp.152-157
- /
- 2005
Background and Objectives : 10 normal Korean native speakers participated subjects to investigate the acoustic and aerodynamic study of Korean fricatives, affricates, and plosives and to make good use of the results for the patients with articulation problems. Materials and Method Their productions of [asa], [as'a], [aca], $[ac^ha]$, (ac'a), (ata) , $[at^ha]$, and [at'a] were analyzed with Lx Speech Studio Program (Laryngogrtaph Ltd, UK) for acoustic analysis and Phonatory Function Analyze. (Nagashima Ltd. Model PS 77H, Tokyo, Japan) for aerodynamic analysis. Results : The results are as follows : 1) Plosives showed higher Qx1 in vocal folds closure ratio than fricatives and affricates. 2) Tense fricatives, affricates, and plosives showed higher Qx2 in vocal folds closure ratio than asperated and 1ax. 3) Asperated showed higher Qx1 in vocal folds closure ratio than tense and 1ax. 4) Asperated showed higer peak flow rate than tense and 1ax. Conclusion This results may be helpful for treatment in articulation disorders.
PDF

변동성과 전환점에 기반한 한국어 음소 'ㅅ', 'ㅈ', 'ㅊ' 음성 인식 (Speech Recognition of Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' based on Volatility and Turning Points)

이재원
- 정보과학회 컴퓨팅의 실제 논문지
- /
- 제20권11호
- /
- pp.579-585
- /
- 2014
음소는 음성을 구성하는 최소 단위로서 음성을 인식하는데 있어 매우 중요한 역할을 한다. 본 논문은 음소 기반 한국어 음성 인식의 일부로서, 한국어 음소 중 'ㅅ', 'ㅈ', 'ㅊ'에 대한 새로운 인식 방안을 제안한다. 제안하는 방식은 입력 음성 신호를 구성하는 각각의 블록에 대해 계산되는 변동성 지표와 전환점 지표에 기반한다. 변동성 지표는 블록 내의 인접한 샘플 값들의 차이의 총합이며, 전환점 지표는 블록 내에서 샘플 값의 증가와 감소의 방향이 전환되는 극점의 총수이다. 두 지표를 결합하여 음소 인식을 수행하는 인식 알고리즘은 두 지표와 관련하여 최적화된 임계치들을 활용하여 목표로 하는 세 가지 음소가 인식된 위치를 최종적으로 결정한다. 실험 결과를 통해, 제안하는 방식을 사용함으로써 기존의 방식들에 비해 FRR과 FAR의 관점에서 모두 오류율을 현저히 감소시킬 수 있음을 확인하였다.
https://doi.org/10.5626/KTCP.2014.20.11.579 인용

언어습득 이후 난청 성인 인공와우이식자의 음소 지각과 오류 (Phoneme Recognition and Error in Postlingually Deafened Adults with Cochlear Implantation)

최아현;허승덕
- 재활복지공학회논문지
- /
- 제8권3호
- /
- pp.227-232
- /
- 2014
이 연구는 언어습득 이후 난청 성인의 인공와우 이식 후 음소 지각과 음소 지각에 오류 양상 등을 알아보고자 한다. 일측 인공와우를 1년 이상 사용한 23 세부터 79($49{\pm}14$) 세 사이의 21 명(m:f=13:8)의 자음 지각 검사를 이용하였다. 자음 지각 성적은 11~86 ($60{\pm}17$)%로 관찰되었고, 인공와우 교정청력(p< .046)을 제외한 술 전 청력, 난청 기간, 인공와우 이식 연령, 술 후 사용기간 등은 유의한 관계가 나타나지 않았다. 이는 언어발달이 정상적인 경우 다른 요인들 보다는 청력의 개선을 통한 청각적 자극이 자음지각에 가장 중요하다는 것을 시사한다. 음소 정답률은 마찰음(/ㅅ, ㅆ, ㅎ/)과 파찰음(/ㅈ, ㅉ, ㅊ/)이 71~92 ($79{\pm}7$)%로 파열음(/ㅂ, ㅃ, ㅍ, ㄷ, ㄸ, ㅌ, ㄱ, ㄲ, ㅋ/)과 유음(/ㄹ/) 및 비음(/ㅁ, ㄴ/)의 33~80 ($50{\pm}13$)%보다 높게 관찰되었다. 오류 양상은 조음 방법이 같은 음소들을 서로 혼동하는 경향을 보였으며, 이는 주파수의 미세한 변화나 강도의 시간적 변화를 변별하지 못한 것으로 보인다.
PDF

저자원 환경의 음성인식을 위한 자기 주의를 활용한 음향 모델 학습 (Acoustic model training using self-attention for low-resource speech recognition)

박호성;김지환
- 한국음향학회지
- /
- 제39권5호
- /
- pp.483-489
- /
- 2020
본 논문에서는 저자원 환경의 음성인식에서 음향 모델의 성능을 높이기 위한 음향 모델 학습 방법을 제안한다. 저자원 환경이란, 음향 모델에서 100시간 미만의 학습 자료를 사용한 환경을 말한다. 저자원 환경의 음성인식에서는 음향 모델이 유사한 발음들을 잘 구분하지 못하는 문제가 발생한다. 예를 들면, 파열음 /d/와 /t/, 파열음 /g/와 /k/, 파찰음 /z/와 /ch/ 등의 발음은 저자원 환경에서 잘 구분하지 못한다. 자기 주의 메커니즘은 깊은 신경망 모델로부터 출력된 벡터에 대해 가중치를 부여하며, 이를 통해 저자원 환경에서 발생할 수 있는 유사한 발음 오류 문제를 해결한다. 음향 모델에서 좋은 성능을 보이는 Time Delay Neural Network(TDNN)과 Output gate Projected Gated Recurrent Unit(OPGRU)의 혼합 모델에 자기 주의 기반 학습 방법을 적용했을 때, 51.6 h 분량의 학습 자료를 사용한 한국어 음향 모델에 대하여 단어 오류율 기준 5.98 %의 성능을 보여 기존 기술 대비 0.74 %의 절대적 성능 개선을 보였다.
https://doi.org/10.7776/ASK.2020.39.5.483 인용 PDF KSCI

한국어 파열음에 대한 후두내근의 역할 (LYRYNGEAL ADJUSTMENTS FOR KOREAN CONSONANTS)

홍기환
- 대한기관식도과학회:학술대회논문집
- /
- 대한기관식도과학회 1991년도 제25차 학술대회 연제순서 및 초록
- /
- pp.15-15
- /
- 1991
한국어 자음에 대한 생리적인 분류는 조음점 및 조음발법에 따라 다시 세분화할 수 있는데 그중에서 조음발법에 따라 파열음, 마찰음, 파찰음 및 비음들 여러가지로 분류할 수 있다. 그중 특히 파열음은 그 개방하는 방법에 따라 연음(lenis), 경음(glottalized) 및 기식음(aspirated)등으로 구분하는데 이러한 각음을 육안으로 확인하면 모음이 발성되기 위한 성대진동이 있기전의 자음을 위한 성대의 운동의 현상을 보면 기식음에서는 성대열림이 가장 크고 연음에서도 열림이 크지만 기식음보다는 적고 경음에서는 성대의 열림이 가장 작았다. 이러한 현상은 후두내시경에 의해 쉽게 확인할 수 있었는데 이것을 과학적으로 규명하기 위해서는 여러연구에 의해 가능하나 흔히 후두근전도 검사에 의한 성대내전근과 외전근의 역할의 차이를 비교함으로서 가능해지리라 예상되어 본 연구를 시행하였다. 사용된 문형 또는 단어는 한가지를 제외하고는 모두 의미있는 단어를 사용하였으며 EMG recording을 위해 사용된 근육은 후두내전근인 Vocalis muscle과 후두외전근인 Posterior cricoarytenoid muscle이 사용되었고 전기신호는 computer data processing system에 의해 분석되어졌다. 결과는 내시경에 의한 성대열림의 거리측정 결과를 분석함과 동시에 후두내근에 대한 근전도검사에 의한 분석을 토대로 하였으며 이를 간단히 설명하면 이제까지 많은 사람들은 한국어 자음에 대한 각각의 특징적인 현상들을 주로 성대내전근의 역할에 의해 규명하였으나 본 결과로는 성대내전근의 역할도 중요하지만 성대외전근의 역할 또한 상호 연관성을 가지면서 매우 중요한 역할을 한다는 점이다.for the Isotropic plates can be used. Use of some coefficients can produce "exact" value for laminates with such configuration.trap with 2.88[eV] deep of injected space charge from the chathode in the crystaline regions. The origin of ${\alpha}$$_2$ peak was regarded as the detrapping process of ions trapped with 0.9[eV] deep originated from impurity-ion remained in the specimen during production process of the material, in the crystalline regions. The origin of ${\beta}$ peak was concluded to be due to the depolarization process of "C=0"dipole with the activation energy of 0.75[eV] in the amorphous regions. The origin of ${\gamma}$ peak was responsible to the process combined with the depolarization of "CH$_3$", chain segment, with the activation energy of carriers from the shallo
PDF

웨이브렛 계수의 표준편차를 이용한 음성신호의 적응 잡음 제거 (Adaptive Noise Reduction using Standard Deviation of Wavelet Coefficients in Speech Signal)

황향자;정광일;이상태;김종교
- 감성과학
- /
- 제7권2호
- /
- pp.141-148
- /
- 2004
일상생활의 대화중에 포함되는 잡음, 특히 모든 주파수 대역에 포함되는 백색잡음에 의해 오염된 음성신호는 청각적으로 심한 불쾌감과 거부감을 주며 대화의 명료성을 저해시키는 요인으로 작용할 수 있다. 본 논문은 이러한 잡음환경 하에서 음성인식을 위하여 음성에 부가된 잡음을 제거하는 방범으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 cD1 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 cA3 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다. 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE 측면에서 향상됨을 확인할 수 있었다. 또한 웨이브렛 변환과 웨이브렛 패킷 변환에서는 파열음, 마찰음 및 파찰음 성분이 많이 제거되는 반면 제안한 방법은 본래 신호와 유사하게 복원됨을 실험 결과 확인할 수 있었다.
PDF

식도발성 발화의 명료도에 대한 연구 (A Study on the Intelligibility of Esophageal Speech)

표화영
- 한국음향학회지
- /
- 제26권5호
- /
- pp.182-187
- /
- 2007
본 연구는 후두적출술 후 성대를 상실한 후두적출자들이 식도를 통하여 끌어들인 공기로 발성하는 식도발성 발화의 명료도를 조사해 보고자 하였다. 정상 청력을 가진 3명의 청취자가, 식도발성을 사용하는 화자 10인이 산출한 자음+모음+모음(CVV), 모음+자음+모음(VCV)의 무의미 2음절어를 듣고 그 내용을 기록하였다. 그 결과, 식도발성의 전체적인 명료도는 27%로 나타났다. 조음방법적 측면에서는 파찰음이 가장 높은 명료도를 보였고 마찰음이 가장 낮은 명료도를 보였다. 조음위치적 측면에서의 명료도는 경구개음이 가장 높고, 치경음이 가장 낮은 것으로 나타났고, 전반적으로 경음의 명료도가 높고, 격음의 명료도가 매우 낮은 것으로 나타났다. 그리고, 음절내 3위치 측면에서는 CVV 음절보다 VCV 음절에 나타난 자음이 더 높은 명료도를 보였다. 식도발성 발화자가 보이는 명료도의 문제는 대개 충분한 공기량을 확보하지 못함으로써 나타나는 것으로 판단된다. 따라서, 정확한 조음동작의 훈련 뿐 아니라, 충분히 공기를 유입하는 훈련을 병행함으로써 명료도를 개선시키도록 노력하는 것이 바람직할 것이다.
https://doi.org/10.7776/ASK.2007.26.5.182 인용 PDF KSCI

SOFM 신경회로망을 이용한 한국어 음소 인식 (Korean Phoneme Recognition Using Self-Organizing Feature Map)

전용구;양진우;김순협
- 한국음향학회지
- /
- 제14권2호
- /
- pp.101-112
- /
- 1995
본 논문에서는 패턴 매칭 방법에 근거하여 인식 단위가 음소인 음소 기반 인식 시스템을 구성하였다. 선택한 신경망 구조는 생물학적 신경망인 코호넨(T. Kohonen)의 SOFM(Self-Organizing Feature Map)으로 패턴 매칭 과정 중 클러스터러(clusterer)로 사용하였다. SOFM 신경망은 신호 공간에 대해서 최적의 국소(局所) 해부적 사상(local topographical mapping)에 의한 자기 조직화 과정을 수행하며, 그 결과 인식 문제에 있어서 상당히 높은 정확도를 나타낸다. 따라서 SOFM 신경망은 음소 인식에도 효과적으로 응용될 수 있다. 또한 음소 인식 시스템의 성능 향상을 위해 K-means클러스터링 알고리즘이 결합된 학습 알고리즘을 제안하였다. 제안된 음소 인식 시스템의 성능을 평가하기 위해 먼저, 인식 대상음소는 모음군 17개, 자음의 경우 파열음9개, 마찰음 3개, 파찰음 3개, 유음 및 비음 4개, 음소의 성질이 다른 종성 7개의 음소군으로 모두 43개의 음소를 대상으로 실험하였으며, 각 음소군에 대한 특징 지도를 구성하여 레이블러(labeler)의 기능을 수행하게 하였다. 화자 종속 인식 실험 결과 $87.2\%$의 인식률을 보였으며 제안한 학습법의 빠른 수렴성과 인식률 향상을 확인하였다.
PDF

검색결과 33건 처리시간 0.033초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)