• 제목/요약/키워드: Semi-syllable

검색결과 6건 처리시간 0.019초

반음절기반의 한국어 연속숫자음인식과 그 후처리에 대한 연구 (A Study on Korean Connected Digit Recognizer Based on Semi-syllable and Post-processing)

  • 정재부;정훈;정익주
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.1-15
    • /
    • 2001
  • This paper describes the effect of new recognition unit, a unit based on semisyllable, and its post processing method. A recognition unit based on semi-syllable expresses Korean connected digit's coarticulation effect. An existing method using semi-syllable limits next models, derived from current recognized models, to make complete connected digit sequence. However, this paper uses a new method to make complete connected digit sequence. The new post-processing method recognizes isolated digit words which include digits sequence from the digit combinations being able to occur from current recognized semi-syllable sequence. This method gives an improved accuracy rate than that of existing method. This new post processing provides two advantages. 1) It corrects current mis-recognized semi-syllable unit. 2) When people say each digit, they say it without regard to saying duration.

  • PDF

연속음 처리를 위한 프랙탈 차원 방법 고찰 (Fractal Dimension Method for Connected-digit Recognition)

  • 김태식
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.45-55
    • /
    • 2003
  • Strange attractor can be used as a presentation method for signal processing. Fractal dimension is well known method that extract features from attractor. Even though the method provides powerful capabilities for speech processing, there is drawback which should be solved in advance. Normally, the size of the raw signal should be long enough for processing if we use the fractal dimension method. However, in the area of connected-digits problem, normally, syllable or semi-syllable based processing is applied. In this case, there is no evidence that we have sufficient data or not to extract characteristics of attractor. This paper discusses the relationship between the size of the signal data and the calculation result of fractal dimension, and also discusses the efficient way to be applied to connected-digit recognition.

  • PDF

VCCV단위를 이용한 어휘독립 음성인식 시스템의 구현 (An Implementation of the Vocabulary Independent Speech Recognition System Using VCCV Unit)

  • 윤재선;홍광석
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.160-166
    • /
    • 2002
  • 본 논문에서는 CV (Consonant Vowel), VCCV (Vowel Consonant Consonant Vowel), VC (Vowel Consonant) 인식 단위를 이용한 새로운 어휘 독립 음성인식 시스템을 구현하였다. 이 인식 단위는 음절의 안정된 모음 구간에서 분할하여 구성했기 때문에 분할이 용이하다. VCCV단위가 존재하지 않을 경우에는 VC와 CV 반음절 모델을 결합하여 대체모델을 구성하였다. 모음군 군집화 (clustering)와 VCCV 모델이 존재하지 않을 경우 대체모델에 결합규칙을 적용하여 제 1후보에서 90.4% (모델 A)에서 95.6% (모델 C)로 5.2%의 인식 성능향상을 가져왔다. 인식실험결과 제 2후보에서 98.8%의 인식률로 제안된 방법이 효율적임을 확인하였다.

한국어 방송 음성 인식에 관한 연구 (A Study on the Korean Broadcasting Speech Recognition)

  • 김석동;송도선;이행세
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.53-60
    • /
    • 1999
  • 이 논문은 한국 방송 음성 인식에 관한 연구이다. 여기서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 주요 관점은 언어 모델과 탐색 방법이다. 사용된 음성 모델은 기본음소 Semi-continuous HMM이고 언어 모델은 N-gram 방법이다. 탐색 방법은 음성과 언어 정보를 최대한 활용하기 위해 3단계의 방법을 사용하였다. 첫째로, 단어의 끝 부분과 그에 관련된 정보를 만들기 위한 순방향 Viterbi Beam탐색을 하였으며, 둘째로 단어 의 시작 부분과 그에 관련된 정보를 만드는 역방향 Viterbi Beam탐색, 그리고 마지막으로 이들 두 결과와 확률적인 언어 모델을 결합하여 최종 인식결과를 얻기 위해 A/sup */ 탐색을 한다. 이 방법을 사용하여 12,000개의 단어에 대한 화자 독립으로 최고 96.0%의 단어 인식률과 99.2%의 음절 인식률을 얻었다.

  • PDF

감정단어 발화 시 억양 패턴을 반영한 멜로디 특성 (Tonal Characteristics Based on Intonation Pattern of the Korean Emotion Words)

  • 이수연;오재혁;정현주
    • 인간행동과 음악연구
    • /
    • 제13권2호
    • /
    • pp.67-83
    • /
    • 2016
  • 본 연구는 감정단어의 억양 패턴을 음향학적으로 분석하여 멜로디의 음높이 패턴으로 전환한 뒤 그 특성을 알아보았다. 이를 위해 만 19-23세 여성 30명을 대상으로 기쁨, 화남, 슬픔을 표현하는 4음절 감정단어의 음성자료를 수집하였다. 총 180개의 어휘를 수집하고 Praat 프로그램을 이용하여 음절 당 평균 주파수(f0)를 측정한 후 평균 음정과 음높이 패턴의 멜로디 요소로 전환하였다. 연구 결과, 첫째, 감정단어의 음높이 패턴은 '즐거워서' A3-A3-G3-G3, '즐거워요' G4-G4-F4-F4, '행복해서' C4-D4-B3-A3, '행복해요' D4-D4-A3-G3, '억울해서' G3-A3-G3-G3, '억울해요' G3-G3-G3-A3, F3-G3-E3-D3, '불안해서' A3-A3-G3-A3, '불안해요' A3-G3-F3-F3, '침울해서' C4-C4-A3-G3, '침울해요' A3-A3-F3-F3으로 나타났다. 둘째, 음 진행에서는 기쁨이 넓은 간격의 도약 진행, 화남이 좁은 간격의 도약 진행, 슬픔이 넓은 간격의 순차 진행 특성을 보였다. 본 연구에서는 감정의 속성과 본질, 한국어의 음성 특성을 고려하여 감정단어의 억양 패턴을 분석하고, 이를 멜로디 요소에 반영한 특성을 제시하였다. 또한, 체계적이고 객관화된 방법으로 말과 멜로디의 전환 가능성 및 적합성을 확인한 것에 의의가 있다. 본 연구의 결과는 감정을 효과적으로 표현할 수 있는 멜로디 창작 방안을 마련하기 위한 근거 자료로 활용될 수 있다.

동영상 기반 자동 발화 심층 분석(SUDA) 어플리케이션 개발 (Development of the video-based smart utterance deep analyser (SUDA) application)

  • 이수복;곽효정;윤재민;신동춘;심현섭
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.63-72
    • /
    • 2020
  • 본 연구는 동영상을 기반으로 일상생활에서 녹화한 아동 및 성인의 발화를 자동으로 분석해주는 SUDA(smart utterance deep analyser) 하이브리드 앱 개발에 관한 것이다. 특히, 아동과 부모가 원하는 시간 및 장소에서 상호작용하는 장면을 촬영하여 업로드할 수 있고 시간의 흐름에 따라 데이터를 계속 축적하여 이를 관찰하고 분석할 수 있도록 도울 수 있다. SUDA는 안드로이드폰, 아이폰, 태플릿 PC 기반에서 구동되며, 대용량의 동영상을 녹화 및 업로드할 수 있고, 사용자의 목적(일반인, 전문가, 관리자)에 따라 차별화된 기능을 제공할 수 있다. 전문가 모드에서는 자동화된 시스템과 협업하여 대상자의 발화를 말·언어적인 측면(비유창성, 형태소수, 음절수, 단어수, 말속도, 반응시간 등)에서 세부적으로 분석할 수 있다. 즉, SDUA 시스템이 대상자의 발화를 반자동으로 전사 및 분석하면, 언어치료사가 이를 검토하고, 보완하여 의사소통장애 진단과 중재 시 활용할 수 있다. 일반인(부모)의 경우, 전문가가 분석한 결과를 그래프 형태로 제공 받아 모니터링 할 수 있고, 관리자는 발화 분석, 영상삭제 등 전체 시스템을 관리할 수 있다. 본 시스템은 발화 분석의 반자동화로 치료사와 연구자의 부담을 줄여주고, 부모가 자녀의 발화를 기반으로 하여 말·언어발달에 대한 정보를 쉽고 다양하게 제공 받을 수 있다는 점에서 임상적 의의가 있다. 또한, 한국형 말더듬아동 진단 및 중재에 적용할 수 있는 종단데이터를 구축하고, 말더듬 회복 예측 요인들을 찾는 기초자료로 활용하고자 한다.