• 제목/요약/키워드: 음절 오류

검색결과 67건 처리시간 0.019초

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.

뇌성마비로 인한 마비말장애의 음소대조 낱말명료도와 문장명료도 (Perceptual-phonemic Contrasts of Single-word Intelligibility for Testing Korean Dysarthric Speech)

  • 김수진
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.694-702
    • /
    • 2003
  • 이 연구는 말장애의 진단에 유용한 일음절 낱말대조 명료도 검사 (낱말명료도)의 타당도와 신뢰도를 얻기 위한 것이다. 첫번째로 낱말명료도의 타당성을 확인하기 위하여 문장명료도와의 상관을 구한 결과 상관은 .83으로 비교적 높았다. 두 번째로는 평가자들 간의 일치도를 분석하였다. 낱말명료도는 명료도 손상의 수준에 상관없이 평가자들간에 일정한 변산을 보였다. 마지막으로 낱말명료도 평가도구를 이용하여 마비말장애인의 명료도를 떨어뜨리는데 주요한 역할을 하는 음소대조 요인을 살펴본 결과 종성이 가장 오류가 많았으며 다음으로 초성, 중성의 순서였으나, 회귀분석 결과 초성이 전체 명료도에 미치는 영향이 가장 컸다.

한국어 자소 기반 Hybrid CTC-Attention End-to-End 음성 인식 (Hybrid CTC-Attention Based End-to-End Speech Recognition Using Korean Grapheme Unit)

  • 박호성;이동현;임민규;강요셉;오준석;서순신;;김지환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.453-458
    • /
    • 2018
  • 본 논문은 한국어 자소를 인식 단위로 사용한 hybrid CTC-Attention 모델 기반 end-to-end speech recognition을 제안한다. End-to-end speech recognition은 기존에 사용된 DNN-HMM 기반 음향 모델과 N-gram 기반 언어 모델, WFST를 이용한 decoding network라는 여러 개의 모듈로 이루어진 과정을 하나의 DNN network를 통해 처리하는 방법을 말한다. 본 논문에서는 end-to-end 모델의 출력을 추정하기 위해 자소 단위의 출력구조를 사용한다. 자소 기반으로 네트워크를 구성하는 경우, 추정해야 하는 출력 파라미터의 개수가 11,172개에서 49개로 줄어들어 보다 효율적인 학습이 가능하다. 이를 구현하기 위해, end-to-end 학습에 주로 사용되는 DNN 네트워크 구조인 CTC와 Attention network 모델을 조합하여 end-to-end 모델을 구성하였다. 실험 결과, 음절 오류율 기준 10.05%의 성능을 보였다.

  • PDF

음소별 성조 정보를 이용한 신경망 기반의 한국어 음소 지속시간 모델링 (A Neural Network Based Korean Segmental Duration Modeling Using Tonal Information of Phonemes)

  • 김은경;이상호;오영환
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.84-88
    • /
    • 1999
  • 음소별 지속시간의 정확한 예측은 TTS 시스템의 자연성을 향상시키는데 중요한 역할을 한다. 기존의 한국어 음소 지속 시간의 모델링을 위해 사용된 특징 변수에는 음소 문맥 정보, 품사 정보, 운율구 내에서의 위치 정보 등이 있다. 본 논문에서는 음소별 성조 정보 값을 새로운 특징 변수로 정의하여 예측 성능을 향상시키고자 한다. 성조 정보의 표현을 위해 두 개의 비경계 성조와 여섯 개의 경계 성조를 정의한 후, 400문장의 음성 코퍼스에 음절별 표기를 수행하였다. 성조 정보를 이용한 지속 시간 예측을 위해, 출력노드에서 음소의 지속 시간을 실수 형태로 출력하는 신경망을 구성하고 이를 오류 역전파 알고리즘으로 학습시켰다. 실험 결과, 성조 정보를 사용하는 경우 실험 데이터에 대해 예측값과 실제값 사이의 상관계수로 0.863을 얻을 수 있었으며 이는 성조를 사용하지 않는 경우에 비해 향상된 성능을 나타내었다.

  • PDF

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

KFL중국인학습자들의 한국어 동형다의 종결어미 발화문에 대한 원어민화자의 지각 평가 양상 (Perceptive evaluation of Korean native speakers on the polysemic sentence final ending produced by Chinese Korean learners)

  • 윤영숙
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.27-36
    • /
    • 2020
  • 본 논문은 중국인 한국어학습자들이 발화한 한국어 동형다의 종결어미 '-(으)ㄹ 걸' 대한 한국어 원어민화자들의 지각양상을 분석하고 이를 바탕으로 '-(으)ㄹ 걸'의 청지각적 의미 변별에 결정적인 역할을 하는 운율변수를 한국어 교육적 관점에서 분석하는 데 목적이 있다. 동형다의 종결어미는 하나의 형태로 두 개 이상의 의미를 전달하는 종결어미를 일컫는다. 지금까지 외국인학습자들을 대상으로 한 동형다의 종결어미에 대한 연구는 외국인학습자들의 발화문을 원어민 화자의 발화문과 비교·분석하여 음운론적·음성학적 유사점과 차이점을 분석하여 발화정확도나 오류유형을 측정하는 데 집중되었다. 이로 인해 원어민화자와의 유사성과 차이점이 '-(으)ㄹ 걸'의 의미 판별에 실제로 유의미한 작용을 하는지에 대한 청지각적 연구는 이루어지지 못했다. 본 연구에서는 중국인 한국어학습자들의 동형다의 종결어미 문장이 한국어 원어민화자들에게 어떤 양상으로 지각되는지 분석하여 동형다의 종결어미 억양교육에 필요한 운율 규범을 상정해 보고자 한다. 본 연구의 실험자료 산출에는 한국어 숙달도 중·고급에 해당하는 10명의 중국인 한국어학습자들이, 지각 실험에는 20대의 한국인 원어민화자들이 참가하였다. 분석 자료는 '-(으)ㄹ 걸'이 추측으로 사용된 두 문장과 후회로 사용된 두 문장이다. 10명의 중국인화자들이 4개의 실험문장을 4회 반복 발화분이 지각실험 자료로 사용되었다. 지각실험참가자들은 실험 자료를 들으면서 문장 경계성조의 억양에만 의존하여 '-(으)ㄹ 걸'의 의미와 정확성 정도를 판별하였다. 25명의 청취실험자들의 지각실험 결과를 바탕으로 정확한 추측, 추측, 모호함, 후회, 정확한 후회로 지각된 문장들의 운율변수, 즉 경계성조, 경계성조의 기울기, 경계음절과 선행음절 간 피치편차, 경계음절의 피치레벨을 측정하였다. 통계분석 결과 상기된 모든 운율변수가 '-(으)ㄹ 걸'의 의미변별과 유의미한 관련이 있음을 알 수 있었다. 즉 운율변수가 커질수록 추측으로 작아질수록 후회문장으로 지각됨을 관찰할 수 있었다. 그러나 로지스틱 회귀분석을 통해 의미변별에 가장 핵심적인 역할을 수행하는 운율변수는 피치편차임을 알 수 있었다. 이러한 결과는 '(으)ㄹ 걸'의 발화에서 마지막 두 음절의 피치 조절로 두 의미를 변별하여 발화할 수 있음을 의미하며 '-(으)ㄹ 걸'의 억양교육에서 보다 객관적이고 유의미한 규범적 운율 요소로 적용될 수 있을 것이다.

한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델 (Two Statistical Models for Automatic Word Spacing of Korean Sentences)

  • 이도길;이상주;임희석;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.358-371
    • /
    • 2003
  • 자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다.