• 제목/요약/키워드: Speech signals

검색결과 499건 처리시간 0.028초

한국어 문장 유형의 자동 분류 한국어-수화 변환 및 한국어 음성 합성에의 응용 (Sentence Type Identification in Korean Applications to Korean-Sign Language Translation and Korean Speech Synthesis)

  • 정진우;이호준;박종철
    • 한국HCI학회논문지
    • /
    • 제5권1호
    • /
    • pp.25-35
    • /
    • 2010
  • 본 논문에서는 한국어 문장 유형을 자동으로 분류하는 방법을 제안하고 한국어-수화 변환과 한국어 음성 합성 분야에서 문장 유형 정보가 자연스러운 수화 표현과 음성 표현을 생성하는데 이용되는 과정을 보인다. 한국어에서 문장 유형은 크게 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지로 분류되는데, 기존의 방법으로는 대화체 문장에서 동일한 문장이 여러 가지 유형으로 해석되는 중의성의 문제가 발생한다. 본 논문에서는 문장 내에서 형태소 및 구문단위의 다양한 단서들을 활용하여 이를 해결하는 방법을 제안하며, 실험 결과 본 논문에서 제시한 문장 유형 분류 시스템이 만족할 만한 성능을 보이는 것을 확인하였다. 이를 이용하여 한국어-수화 변환 시스템에서 문장 유형에 따라 수화의 비수지신호가 다르게 표현되는 현상을 처리하는 과정과 한국어 음성 합성 시스템에서 문장 유형에 따라 문장의 문미 억양이 변하는 현상을 처리하는 과정을 제시한다. 문장 유형 정보를 음성 합성과 수화 자동 생성에 이용하는 것은 기존에는 연구되지 않았던 방법으로, 좀 더 자연스러운 음성과 수화 표현을 생성하는데 중요한 역할을 할 것으로 기대한다.

  • PDF

영상 기반 음성합성에서 심도 영상의 유용성 (The usefulness of the depth images in image-based speech synthesis)

  • 이기승
    • 한국음향학회지
    • /
    • 제42권1호
    • /
    • pp.67-74
    • /
    • 2023
  • 발성하고 있는 입 주변에서 취득한 영상은 발성 음에 따라 특이적인 패턴을 나타낸다. 이를 이용하여 화자의 얼굴 하단에서 취득한 영상으로부터 발성 음을 인식하거나 합성하는 방법이 제안되고 있다. 본 연구에서는 심도 영상을 협력적으로 이용하는 영상 기반 음성합성 기법을 제안하였다. 심도 영상은 광학 영상에서는 관찰되지 않는 깊이 정보의 취득이 가능하기 때문에 평면적인 광학 영상을 보완하는 목적으로 사용이 가능하다. 본 논문에서는 음성 합성 관점에서 심도 영상의 유용성을 평가하고자 한다. 60개의 한국어 고립어 음성에 대해 검증 실험을 수행하였으며, 실험결과 객관적, 주관적 평가에서 광학적 영상과 근접한 성능을 얻는 것을 확인할 수 있었으며 두 영상을 조합하여 사용하는 경우 각 영상을 단독으로 사용하는 경우보다 향상된 성능을 나타내었다.

정현파 모델을 이용한 오디오 신호의 심리음향적 분석 및 합성 (Analysis and Synthesis of Audio Signals using a Sinusoidal Model with Psychoacoustic Criteria)

  • 남승현;강경옥;홍진우
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.77-82
    • /
    • 1999
  • 정현파 모델은 음성과 오디오 신호의 분석과 합성에 많이 활용되어 왔으며 최근 고음질 저비트율 오디오 부호화에 효율적인 방법의 하나로 대두되고 있다. 정현파 모델을 이용한 오디오 신호의 분석과 합성에서 중요한 단계 중의 하나는 순음의 검출이다. 본 논문은 정현파를 이용한 오디오 신호의 분석과 합성에 매스킹 효과와 매스킹 인덱스 그리고 JNDf(Just Noticeable Difference in Frequency) 등의 심리음향적 기준들을 활용하는 효율적인 방안을 제안하였다. 모의실험 결과, 심리음향적 기준을 사용하면 합성된 음질에 거의 영향을 주지 않으면서 합성에 사용되는 정현파의 개수를 현저하게 줄일 수 있었음을 알 수 있었다.

  • PDF

ITU-T G.729/G.729E와 호환성을 갖는 광대역 음성/오디오 부호화기 (A New Wideband Speech/Audio Coder Interoperable with ITU-T G.729/G.729E)

  • 김경태;이민기;윤대희
    • 대한전자공학회논문지SP
    • /
    • 제45권2호
    • /
    • pp.81-89
    • /
    • 2008
  • 광대역 신호는 16 kHz로 표본화되어 50-7000 Hz로 밴드 제한된 신호를 말하며, 전화대역 음성 신호에 비해서 높은 자연성(naturalness)과 명료성(intelligibility)을 가진다. 이런 특징으로 광대역 부호화기는 화상회의, 디지털 AM 방송 및 고음질 음성통신 등에 사용될 수 있다. 본 논문에서는 가변대역 특징을 갖는 광대역 음성 오디오 부호화기를 제안하였다. 제안된 부호화기는 대역분한 구조를 가진다. 저주파 대역은 전화대역 음성 부호화기로 많이 사용되고 있는 8 kbit/s ITU-T G.729나 보다 높은 전송률로 오디오 신호까지 처리할 수 있는 11.8 kbit/s ITU-T G.729 Annex E로 부호화한다. 고주파 대역은 청각 모델을 기반으로 한 파라미터 부호화 방법으로 부호화한다. 제안된 고주파 대역 부호화는 감마톤 필터뱅크(gammatone filterbank)를 이용하여 입력신호를 임계대역으로 분할한 후, 각각의 임계대역 신호를 양자화한다. 저주파 대역 부호화기와 고주파 대역 부호화기는 서로 독립되어 있으므로, 복호화기에서는 채널 조건에 따라 전화대역 합성신호와 광대역 합성신호를 선택할 수 있는 특징이 있다. 성능 평가 결과, 제안된 부호화기는 낮은 전송률과 짧은 지연 시간으로 음성과 오디오 신호 모두에 대해 ITU-T G.722.1 24 kbit/s와 동등한 음질을 제공한다는 것을 확인하였다.

콜퍼스에 기반한 한국어 문장/음성변환 시스템 (Corpus-based Korean Text-to-speech Conversion System)

  • 김상훈;박준;이영직
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.24-33
    • /
    • 2001
  • 이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

  • PDF

과제, 성별, 세대에 따른 휴지의 실현 양상 연구 (A realization of pauses in utterance across speech style, gender, and generation)

  • 유도영;신지영
    • 말소리와 음성과학
    • /
    • 제11권2호
    • /
    • pp.33-44
    • /
    • 2019
  • 이 연구의 목적은 한국어의 휴지 실현에 과제, 세대, 성별이라는 변수가 어떠한 영향을 미치는지 살펴보는 것이다. 이를 위해 구어 코퍼스에서 세대, 성별에 따른 총 48명을 선정하여 두 가지 발화 과제 데이터를 분석하였다. 휴지는 발화에서 출현하는 위치와 들숨 동반 여부에 따라 들숨 동반 발화 말 휴지, 들숨 동반 발화 내 휴지, 들숨 비동반 발화 말 휴지, 들숨 비동반 발화 말 휴지로 구분하여 살펴보았고 각각의 빈도와 길이, 그리고 휴지에 영향을 줄 수 있는 다양한 요소들을 함께 살펴보았다. 그 결과 발화 말 휴지 길이가 발화 내 휴지 길이보다 약 160 ms 이상 더 긴 것을 확인하였다. 이는 휴지가 운율적 정규성을 가지며, 발화 말 휴지는 발화의 종결을 신호하는 역할을 체계적으로 수행한다는 것을 의미한다. 자유 발화는 낭독 발화보다 더 긴 휴지가 더 자주 나타나는 것을 확인하였다. 낭독 발화에서는 화자의 즉각적이고 적극적인 발화 계획이 요구되기 때문이다. 성별의 경우 전반적으로 남성은 여성보다 길고 빈번한 휴지를 보였다. 특히 들숨 동반 휴지는 남성이 여성보다 길었다. 세대의 경우 장년층이 청년층보다 더 자주 휴지를 산출했다. 이 밖에도 변수 간 상호 작용 효과가 관찰되었다. 휴지 길이의 성별 차이에 따르면 남성이 여성보다 휴지 길이가 긴데, 이는 특히 발화 말 휴지에서 두드러졌다.

딥러닝 기반 한국어 실시간 TTS 기술 비교 (Comparison of Korean Real-time Text-to-Speech Technology Based on Deep Learning)

  • 권철홍
    • 문화기술의 융합
    • /
    • 제7권1호
    • /
    • pp.640-645
    • /
    • 2021
  • 딥러닝 기반 종단간 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호를 합성하는 보코더 등 두 가지 과정으로 구성되어 있다. 최근 TTS 시스템에 딥러닝 기술을 적용함에 따라 합성음의 명료도와 자연성이 사람의 발성과 유사할 정도로 향상되고 있다. 그러나 기존의 방식과 비교하여 음성을 합성하는 추론 속도가 매우 느리다는 단점을 갖고 있다. 최근 제안되고 있는 비-자기회귀 방식은 이전에 생성된 샘플에 의존하지 않고 병렬로 음성 샘플을 생성할 수 있어 음성 합성 처리 속도를 개선할 수 있다. 본 논문에서는 비-자기회귀 방식을 적용한 Text2Mel 기술인 FastSpeech, FastSpeech 2, FastPitch와, 보코더 기술인 Parallel WaveGAN, Multi-band MelGAN, WaveGlow를 소개하고, 이를 구현하여 실시간 처리 여부를 검증한다. 실험 결과 구한 RTF로 부터 제시된 방식 모두 실시간 처리가 충분히 가능함을 알 수 있다. 그리고 WaveGlow를 제외하고 학습 모델 크기가 수십에서 수백 MB 정도로, 메모리가 제한되어 있는 임베디드 환경에 적용 가능함을 알 수 있다.

프랙탈 차원을 이용한 단음절 음성의 자$\cdot$모음 분리 (Consonant/Vowel Segmentation in Monosyllabic Speech Data Using the Fractal Dimension)

  • 최철영;김형순;김재호;손경식
    • 한국음향학회지
    • /
    • 제13권3호
    • /
    • pp.51-62
    • /
    • 1994
  • 본 논문에서는 음성신호의 프랙탈 차원을 이용하여 한국어 CV(Consonant-Vowel) 단음절에서 자음과 모음을 분리하는 실험을 하였다. 프랙탈 차원은 Minkowski-Bouligand 차원을 사용하였으며, 형태학적 커버링 (morphological covering) 방법을 이용하여 구하였다. 프랙탈 차원의 음성분리에 있어서의 유용성을 조사하기 위하여 프랙탈 차원과 단구간 에너지 각각을 이용한 음성분리 실험과 에너지와 프랙탈 차원을 같이 이용한 음성분리 실험을 하여 그 결과들을 비교하였다. 실험 결과 에너지의 기울기를 사용한 경우는 $88.0\%$의 바른 분리 결과를 보였고, 프랙탈 차원의 기울기를 사용한 경우는 그보다 더 나은 $93.6\%$의 바른 분리 결과를 보였으며, 에너지의 기울기와 프랙탈 차원의 기울기의 곱을 사용한 경우는 $96.1\%$로 가장 높은 바른 분리결과를 나타냈다. 이를 통해 프랙탈 차원이 음성신호의 분리에 있어서 하나의 유용한 파라메타가 될 수 있음을 확인하였다.

  • PDF

위상 보상된 고조파 스케일링에 의한 음성합성용 피치변경법 (On a Pitch Alteration Method using Scaling the Harmonics Compensated with the Phase for Speech Synthesis)

  • 배명진
    • 한국음향학회지
    • /
    • 제13권6호
    • /
    • pp.91-97
    • /
    • 1994
  • 신호처리에서, 파형부화법은 음성신호의 잉여성분을 감소시킴으로써 파형을 유지하는 부호화 방법이다. 음성 합성의 경우, 고음질의 파형부호화법은 주로 분석에 의한 합성법에 이용된다. 그러나, 파형부호화법은 여기 파라미터와 성도 파라미터로 분리하지 않고 처리하기 때문에 규칙에 의한 합성에 적용되기 어렵다. 따라서 파형부호화법을 규칙에 의한 합성에 이용하기 위해서는 피치변경이 필요하다. 본 논문에서, 우리는 파형부호화법에서 음성신호를 성도 파라미터와 여기 파라미터로 분리함으로써 피치 주기를 바꿀 수 있는 새로운 피치변경법을 제안한다. 이 방법은 시-주파수 혼성영억 방법으로 시간영역에서 파형의 위상성분과 주파수영역에서 파형의 진폭성분을 보존한다. 따라서 파형부호화법은 음성처리에 있어 규칙에 의한 합성을 할 수 있다. 본 논문에서 제안한 알고리즘을 이용한 경우, 단지 $2.94\%의$ 스펙트럼 왜곡만이 일어났다. 즉, 스펙트럼 왜곡이 시간영역에서의 피치변경법보다 $5.06\%$ 이상 감소되었다.

  • PDF

WRLS-VFF-VT 알고리듬을 이용한 새로운 피치 검출 방법 (A New Pitch Detection Method Using The WRLS-VFF-VT Algorithm)

  • 이교식;박규식
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2725-2736
    • /
    • 1998
  • 본 논문은 WRLS-VFF-VT 알고리듬을 이용한 새로운 피치 검색 방법론을 제안하도록 한다. 제안된 알고리듬에서는 VFF(가변 망각 인자)를 사용하여 유성음에서의 주 여기 펄스 시점과 관련된 성문 폐쇄 점을 확인한다. 또한 본 논문은 VFF 기반 알고리듬과 함께 기존의 EGG 와 LP-Error 방법을 이용한 피치 검색 알고리듬에서 가변 한계 값을 이용 수정된 알고리듬을 제안한다. 제안된 알고리듬들은 주기와 주기 근간에서 강인한 피치 측정 능력과 준 주기 및 비 주기성 음성 신호에서도 우수한 피치 검색 기능을 가지고 있음을 알 수 있다. 제안된 알고리듬의 우수성을 입증하기 위해 실제 사람의 자연스러운 음성 및 사람의 비정상 상태 음성에서 준 주기 및 비 주기성 음성 진동 패턴을 확인하고 검출하는 성능 측정을 통하여 표준 SIFT 알고리듬과 비교 평가하였다.

  • PDF