• Title/Summary/Keyword: 자연음

Search Result 228, Processing Time 0.022 seconds

Design of Room Reverberation Filter by Using 5 DOF Reverberation Model (5자유도 잔향 모델을 이용한 실내 잔향 필터 설계)

  • Kim Sohee;Kim Yang-Hann
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.227-230
    • /
    • 1999
  • 잔향에 대한 인간의 주관적인 지각을 잔향기 설계에 객관적인 수치로써 반영하는 방법으로, 5 자유도 잔향 모델이 제안된 바 있다[1]. 5자유도 잔향 모델은 잔향에 대한 다섯 개의 객관적인 평가량들을 이용하여 시간에 따른 음 에너지 감쇠 곡선을 근사화한 것이다. 즉 5 자유도 잔향 모델을 이용하여 청취자가 원하는 특성을 갖는 잔향을 객관적으로 묘사할 수 있고, 이는 잔향을 합성할 때 잔향 필터의 설계 기준이 된다. 그러나 이 모델로부터 만들 수 있는 잔향 필터의 개수는 실로 무한하고, 그 중에는 인간이 듣기에 부자연스러운 합성음을 만들어 내는 경우도 있다. 즉 자연스러운 잔향을 만들기 위해서는 잔향 모델 외에도 부가적인 잔향 설계 기준이 필요하다. 시간, 주파수 영역에서 대표적인 특성을 갖는 몇 종류의 원음에 대한 청음실험을 통해, 필요한 잔향 설계 기준을 제시한다.

  • PDF

Implementation of the Voice Conversion in the Text-to-speech System (Text-to-speech 시스템에서의 화자 변환 기능 구현)

  • Hwang Cholgyu;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.33-36
    • /
    • 1999
  • 본 논문에서는 기존의 text-to-speech(TTS) 합성방식이 미리 정해진 화자에 의한 단조로운 합성음을 가지는 문제를 극복하기 위하여, 임의의 화자의 음색을 표현할 수 있는 화자 변환(Voice Conversion) 기능을 구현하였다. 구현된 방식은 화자의 음향공간을 Gaussian Mixture Model(GMM)로 모델링하여 연속 확률 분포에 따른 화자 변환을 가능케 했다. 원시화자(source)와 목적화자(target)간의 특징 벡터의 joint density function을 이용하여 목적화자의 음향공간 특징벡터와 변환된 벡터간의 제곱오류를 최소화하는 변환 함수를 구하였으며, 구해진 변환 함수로 벡터 mapping에 의한 스펙트럼 포락선을 변환했다. 운율 변환은 음성 신호를 정현파 모델에 의해서 모델링하고, 분석된 운율 정보(피치, 지속 시간)는 평균값을 고려해서 변환했다. 성능 평가를 위해서 VQ mapping 방법을 함께 구현하여 각각의 정규화된 켑스트럼 거리를 구해서 성능을 비교 평가하였다. 합성시에는 ABS-OLA 기반의 정현파 모델링 방식을 채택함으로써 자연스러운 합성음을 생성할 수 있었다.

  • PDF

A Study on Phoneme-Based PSOLA Speech Synthesis Using LSP (LSP를 이용한 음소단위 PSOLA 음성합성에 관한 연구)

  • 권혁제;조순계;김종교
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.2
    • /
    • pp.3-10
    • /
    • 1998
  • 본 논문에서는 음소단위 PSOLA 한국어 합성을 LSP line의 조절과 자모음 분석을 통해서 실시하였다. 음성합성에서 많이 사용하는 triphone, diphone, demisyllable등과 같은 합성단위들은 자연스러운 합성음을 위해 다양한 음운환경에서 수집된다. 그러나, 이런 방법 은 많은 시간과 메모리가 요구된다. 본 논문에서는 합성단위로서 자음17개, 모음 16개로 총 33개의 음소를 이용하였다. 자음은 후위모음/이/인 CV에서 segment되고, 모음은 단음절의 단모음과 이중모음을 1인의 화자로부터 합성데이터를 수집하였다. 또한, 10명의 화자가 발성 한 CV에서 각 모음에 따라 변하는 자음의 주파수를 분석하였고, CV+VC 또는 CV+CV에서 각 자음에 따라 변하는 모음의 포먼트변화를 분석하였다. 분석결과를 토대로 모음은 LSP line을 조절해서 PSOLA합성을 하고, 자음은 합성하려는 모음과 결합하였다. 그 결과 6개의 합성단어에 대한 청취율은 65%를 보였다.

  • PDF

"한글음성문자(The Korean Phonetic Alphabet)"의 연원에 대한 고찰

  • 심소희
    • Proceedings of the KSPS conference
    • /
    • 1996.10a
    • /
    • pp.300-307
    • /
    • 1996
  • 한글은 세계 여느 문자처럼 자연 발생적으로 생긴 문자체계가 아니라 수천년간 인류의 어음에 대한 사유와 고도의 어음기술이 집약된 문자관에 의해 연역적 방법으로 창제된 문자체계이므로 다른 문자와는 차별적인 연구방법이 요구된다. 세종조에 편찬되었던 ${\ll}훈민정음{\gg}{;\}.{\;}{\ll}홍무정운역훈{\gg}{;\}.{\;}{\ll}동국정운{\gg}$는 제작 동기와 목적이 달라서 각각 상이한 어음체계를 가지고 있는데, 각 어음체계가 필요로 하는 글자꼴을 한글은 27개(자음16개, 모음11개)의 기본글자꼴에 발음부위 및 발음방법을 상형한 새로운 글자꼴을 제공하여 각각의 문자체계를 구성하였다. 유교적 언어관의 토양에서 세상 모든 음의 생성원리에 의해 창제된 한글은 바로 세상의 모든 음을 표기할 수 있는 문자체계인 것이다. 이러한 한글음성문자는 오늘날 이질어음체계의 외국어를 표음하는 데에도 예외 없이 적용될 수 있을 뿐만 아니라 글자꼴의 유연성.응용면에서 국제음성문자(I.P.A)보다 월등히 과학적이고 완정한 음성문자로서 기능할 수 있다.

  • PDF

Standardization of the Peelee (국악 피리의 규격화)

  • 이성수
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.6
    • /
    • pp.3-8
    • /
    • 2001
  • The pitch of Korean musical scales and intervals were calculated with the method of a One Third More and Less, that described at the AcHacKueBum. In this study, the standardized Peelee have been made and its sound frequencies were measured. The measured sound frequencies uniformly played agree well with the Korean musical scales.

  • PDF

Study on equivalent material property of Tetra Chiral Honeycomb structure using finite element method (유한 요소 해석을 이용한 Tetra Chiral Honeycomb 구조의 등가 물성치에 대한 연구)

  • Park, Jung-Hoon
    • Proceeding of EDISON Challenge
    • /
    • 2016.03a
    • /
    • pp.190-194
    • /
    • 2016
  • 자연에서 안정적이고 경제성이 높은 구조로 벌집 구조가 많이 언급이 된다. 이러한 벌집 구조의 특징으로 인해 많은 공학자들이 그 구조를 모방하여 적용하고 있다. 벌집 구조에도 다양한 종류가 존재하지만 그 중 음의 푸아송 비(Poisson's ratio)를 갖는 Chiral Honeycomb 구조가 많이 연구되고 있다. 푸아송 비는 물질이나 구조의 고유한 물성치로 종, 횡 방향의 변형율로 나타내며 이 값으로 외부 조건으로부터의 변형을 예측 할 수 있게 된다. 흔히 푸아송 비는 양의 값을 가지지만 Chiral Honeycomb 구조는 음의 푸아송 비를 가져 기존의 구조와는 다른 기계적 성질을 가지게 된다. 이 논문에서는 Chiral Honeycomb 구조 중에서도 4개의 관절(ligament)를 가지는 Tetra Chiral Honeycomb 구조에 대해 EDISON용 CASADsovler 프로그램을 통해 유한 요소 해석을 수행하여 등가 물성치를 구해 보았으며 기존 실험의 값들과 비교를 통해 해석을 위해 필요한 적절한 대표 체적에 대해 확인해 보았다.

  • PDF

UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS (대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안)

  • Lee, Jung-Chul
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.7
    • /
    • pp.91-98
    • /
    • 2010
  • Large corpus-based concatenating Text-to-Speech (TTS) systems can generate natural synthetic speech without additional signal processing. Because the improvements in the natualness, personality, speaking style, emotions of synthetic speech need the increase of the size of speech DB, it is necessary to prune the redundant speech segments in a large speech segment DB. In this paper, we propose a new method to construct a segmental speech DB for the Korean TTS system based on a clustering algorithm to downsize the segmental speech DB. For the performance test, the synthetic speech was generated using the Korean TTS system which consists of the language processing module, prosody processing module, segment selection module, speech concatenation module, and segmental speech DB. And MOS test was executed with the a set of synthetic speech generated with 4 different segmental speech DBs. We constructed 4 different segmental speech DB by combining CM1(or CM2) tree clustering method and full DB (or reduced DB). Experimental results show that the proposed method can reduce the size of speech DB by 23% and get high MOS in the perception test. Therefore the proposed method can be applied to make a small sized TTS.

A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System (가변 Break를 이용한 코퍼스 기반 일본어 음성 합성기의 성능 향상 방법)

  • Na, Deok-Su;Min, So-Yeon;Lee, Jong-Seok;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.2
    • /
    • pp.155-163
    • /
    • 2009
  • In text-to-speech systems, the conversion of text into prosodic parameters is necessarily composed of three steps. These are the placement of prosodic boundaries. the determination of segmental durations, and the specification of fundamental frequency contours. Prosodic boundaries. as the most important and basic parameter. affect the estimation of durations and fundamental frequency. Break prediction is an important step in text-to-speech systems as break indices (BIs) have a great influence on how to correctly represent prosodic phrase boundaries, However. an accurate prediction is difficult since BIs are often chosen according to the meaning of a sentence or the reading style of the speaker. In Japanese, the prediction of an accentual phrase boundary (APB) and major phrase boundary (MPB) is particularly difficult. Thus, this paper presents a method to complement the prediction errors of an APB and MPB. First, we define a subtle BI in which it is difficult to decide between an APB and MPB clearly as a variable break (VB), and an explicit BI as a fixed break (FB). The VB is chosen using the classification and regression tree, and multiple prosodic targets in relation to the pith and duration are then generated. Finally. unit-selection is conducted using multiple prosodic targets. In the MOS test result. the original speech scored a 4,99. while proposed method scored a 4.25 and conventional method scored a 4.01. The experimental results show that the proposed method improves the naturalness of synthesized speech.

Sound Source Externalization Algorithm Using Modified HRTFs and an Acoustic Simulation Method (변형된 머리전달 함수 및 음향 시뮬레이션 기법을 이용한 음상 외재화 알고리즘)

  • Lee, Yong-Ju;Jang, Dae-Young;Jang, In-Seon;Kang, Kyeong-Ok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.8
    • /
    • pp.714-722
    • /
    • 2009
  • This paper presents a new sound source externalization algorithm for increasing spaciousness and presence on earphone or headphone environments. To do this, we used modified head related transfer functions (M-HRTFs) and room impulse responses acquired by an acoustic simulation method. M-HRTFs developed by ETRI have less tone color distortion of original sound sources than traditional HRTFs. The acoustic simulation method is used to obtain more natural reflected sound. To verify the proposed externalization algorithm, we performed a listening test. From the test, the proposed algorithm is effective in externalizing the sound sources especially when they are on the left and right sides.

Application of a One-Dimensional Upwind Model for Natural Rivers (일차원 상류이송형모형의 자연하도에 대한 적용)

  • Kim, Won;Han,, Kun-Yeun;Woo, Hyo-Seop
    • Journal of Korea Water Resources Association
    • /
    • v.38 no.5 s.154
    • /
    • pp.333-343
    • /
    • 2005
  • The upwind model is well known to simulate shockwaves, but it is rarely applied to natural rivers because of problems caused by the source terms. Although several methods have been developed to deal with the source terms, none of them has been applied to natural rivers. This paper deals with application of the upwind model to the natural river. An implicit upwind model is applied to a hypothetical irregular channel and a natural river with highly irregular bed, width, and hydraulic structures. Different types of the flows including steady-state flow, flood wave, dam-break wave, and bore are simulated to test accuracy and applicability of the implicit upwind model. It is proved that the model can simulate various types of flows in natural rivers with high accuracy and robustness.