• Title/Summary/Keyword: 음성다중연구

Search Result 149, Processing Time 0.024 seconds

An Efficient Coding of LSP Parameters Using Multiple Type Frame Segmentation (다중 형태 프레임 분할 방법을 이용한 효율적인 LSP 계수 부호화에 관한 연구)

  • 이윤근
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.159-163
    • /
    • 1995
  • 음성 코딩에 있어서 스펙트럼 정보의 효율적인 방법으로써 다중 형태 프레임 분할 방법을 제안하였다. 일반적인 보코더의 경우 엔코더에서 전송된 스펙트럼 정보를 인접 프레임 계수간의 선형보간에 의해 하부프레임 단위의 스펙트럼 계수간의 선형보간에 의해 하부프레임 단위의 스펙트럼 정보를 재생해 낸다. 이 때 비선형적 스펙트럼 변화가 존재하는 경우에는 스펙트럼 왜곡이 발생하며 본 논문에서는 이를 intra frame spectral distortion 이라 정의한다. 제안된 다중 형태 프레임 분할 방법은 한 프레임내에서 스펙트럼 계수의 변화를 잘 나타낼 수 있도록 차수마다 다른 분할 형태를 적용하여 IFSD을 최소화시키는 방법이다. 스펙트럼 정보로써 line spectrum pair 계수를 이용하였으며, 분할 개수 및 분할 형태의 개수에 따른 IFSD을 분석하여 이를 기존의 방법과 비교하였다. 그 결과 기존의 방법보다 적은 정보량으로 왜곡이 적은 스펙트럼을 재생할 수 있었다.

  • PDF

The Effects of SK-MVTT on Voice Improvement in Vocal Nodules Patients; Comparison with Accent Method (다중음성치료기법(SK-MVTT)이 성대결절 환자의 음성개선에 미치는 효과: 액센트 기법과의 비교 연구)

  • Kim, Seong-Tae;Jeong, Ok-Ran
    • Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.101-120
    • /
    • 2004
  • Vocal nodule is one of the representative chronic diseases of vocal folds, and it can be cured by voice therapy. However, the existing therapeutic methods about vocal nodule are in great demand. The purpose of this study was to evaluate the effect of therapeutic methods between Accent method and SK-MVTT (Seong-Tae Kim's multiple voice therapy technique), which was designed by the author. We identified 40 females, who diagnosed having vocal nodules, aged from 21 to 52 years (mean age: 40 years). Twenty females were treated by the SK-MVTT and the other 20 females the Accent method. All subjects received 12 sessions of treatment, and were evaluated after finishing the 6th and the 12th session. The results showed that the SK-MVTT produced a better results compared to the Accent method. The SK-MVTT was better especially at the initial stage of voice therapy compared to the Accent method. In this study, we can suggest that SK-MVTT may be useful in improving the voice qualities of vocal nodule patients. However, more data should be collected and evaluated before it can widely be used in other clinics.

  • PDF

Stimuli-responsive Smart Surface with Reversibly Switchable Wettability (자극 응답성 초발수-초친수 표면 특성 제어 기술)

  • Lim, Ka Hyun;Rho, Yoo Jin;Lim, Ho Sun
    • Prospectives of Industrial Chemistry
    • /
    • v.24 no.6
    • /
    • pp.3-18
    • /
    • 2021
  • 가역적인 표면 젖음성의 제어가 가능한 스마트 표면은 첨단 센서, 기능성 멤브레인 등 여러 산업분야에 적용될 수 있는 계면제어 기술로써 많은 관심을 받을 것으로 기대된다. 표면의 젖음성은 표면의 화학적 구조와 기하학적 입체 구조에 의해 영향을 받는 데, 특히 외부자극에 의해 소재 물성을 가변시킬 수 있는 스마트 고분자 소재를 나노구조가 제어된 표면에 도입함으로써 표면의 젖음성을 초발수에서 초친수로 가역적으로 전환시킬 수 있는 스마트 표면을 효과적으로 구현할 수 있다. 자극 응답성 스마트 소재는 인가하는 외부자극에 따라 물리적 자극(빛, 온도, 전기, 자기)과 화학적 자극(pH, 용매, 이온)으로 구분할 수 있으며, 이를 복합적으로 적용한 이중/다중 유발 자극에 반응하는 소재가 있다. 본 기고문에서는 외부자극에 응답하는 자극응답성 고분자를 나노 구조 표면에 도입하여 초발수에서 초친수로의 가역적인 젖음성 변화가 가능한 고기능성 스마트 표면의 최근 연구 동향과 미래 전망에 대해 소개하고자 한다. 이런 다양한 외부자극을 이용한 표면 특성의 가역적 제어 기술을 통해 물-오일의 분리, 바이오센서, 약물 전달, 소프트로보틱스와 같은 스마트 소재의 잠재적 발전 가능성 또한 엿볼 수 있을 것으로 기대된다.

Isolated Korean Digits Recognition Using Modified Wavelet Transform (변형된 Wavelet 변환을 이용한 한국어 숫자음 인식에 관한 연구)

  • 지상문
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.113-116
    • /
    • 1993
  • 본 논문에서는 변형된 wavelet 변환을 통해 추출한 특징벡터를 이용하여 한국어 숫자음을 대상으로 한 음성인식기를 구현하였다. wavelet 변환은 시간 및 주파수 영역에 대해 다중해상도(multiresolution)를 가지는 신호분석법이다. 본 연구에서는 계산량의 감소와 넓은 주파수 대역을 분석하기 위해, mother wavelet의 형태를 분석 주파수 대역에 따라 변화시키는 방법을 제안하였다. 기존의 wavelet 변환으로 실험한 결과 86.5%의 인식율을 얻었고, 변형된 wavelet 변환의 경우 96%의 인식율을 얻었으며 계산량이 감소하였다. 이와 함께 음성인식에서 널리 사용되는 특징 파라미터인 멜켑스트럼과 FFT 멜스케일 필터 대역(mel scale filter bank)과 비교 실험한 결과 인식율의 향상을 보였다. 이는 제안한 방법이 고주파 대역의 세밀한 시간 해상도와 저주파 대역의 세밀한 주파수 해상도를 지니는데 기인하는 것으로 판단된다.

  • PDF

A Study on Transport Stream Demultiplexing of Digital Terrestrial Broadcasting Systems (유럽 디지털 지상파 방송 시스템(DVB-T)의 전송스트림 역다중화에 관한 연구)

  • Song, Hyeong-Don;No, Si-Chan;Sonh, Seung-Il;Kim, In-Gi;Gang, Min-Gu;Im, Hwa-Seop
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.10a
    • /
    • pp.540-543
    • /
    • 2008
  • 본 논문은 DVB-T 전송스트림의 비디오, 오디오 및 그 외의 데이터의 다중화를 고찰하고, 효율적인 역다중화에 대한 연구이다. DVB 시스템은 위성, 케이블, 지상파, 휴대용 등 모든 전송 매체에 디지털 TV 및 데이터 방송을 제공하며 전송(Transport) 시스템으로 MPEG-2 시스템을 채택하였다. MPEG-2 시스템은 여러 가지 영상과 음성, 데이터 스트림을 하나의 스트림으로 다중화하고 188byte 크기의 전송 스트림 패킷을 사용한다.

  • PDF

Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition (대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석)

  • 박영희;정민화
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.330-338
    • /
    • 2002
  • Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.

The usefulness of the depth images in image-based speech synthesis (영상 기반 음성합성에서 심도 영상의 유용성)

  • Ki-Seung Lee
    • The Journal of the Acoustical Society of Korea
    • /
    • v.42 no.1
    • /
    • pp.67-74
    • /
    • 2023
  • The images acquired from the speaker's mouth region revealed the unique patterns according to the corresponding voices. By using this principle, the several methods were proposed in which speech signals were recognized or synthesized from the images acquired at the speaker's lower face. In this study, an image-based speech synthesis method was proposed in which the depth images were cooperatively used. Since depth images yielded depth information that cannot be acquired from optical image, it can be used for the purpose of supplementing flat optical images. In this paper, the usefulness of depth images from the perspective of speech synthesis was evaluated. The validation experiment was carried out on 60 Korean isolated words, it was confirmed that the performance in terms of both subjective and objective evaluation was comparable to the optical image-based method. When the two images were used in combination, performance improvements were observed compared with when each image was used alone.

Prediction of speaking fundamental frequency using the voice and speech range profiles in normal adults (정상 성인에서 음성 및 말소리 범위 프로파일을 이용한 발화 기본주파수 예측)

  • Lee, Seung Jin;Kim, Jaeock
    • Phonetics and Speech Sciences
    • /
    • v.11 no.3
    • /
    • pp.49-55
    • /
    • 2019
  • This study sought to investigate whether mean speaking fundamental frequency (SFF) can be predicted by parameters of voice and speech range profile (VRP and SRP) in Korean normal adults. Moreover, it explored whether gender differences exist in the absolute differences between the SFF and estimated SFF (ESFF) predicted by the VRP and SRP. A total of 85 native Korean speakers with normal voice participated in the study. Each participant was asked to perform the VRP task using the vowel /a/ and the SRP task using the first sentence of a Korean standard passage "Ga-eul". In addition, the SFF was measured with electroglottography during a passage reading task. Predictive factors of the SFF were explored and the absolute difference between the SFF and the ESFF (DSFF) was compared between gender groups. Results indicated that predictive factors were age, gender, minimum pitch and pitch range for the VRP (adjusted $R^2=.931$), and pitch range (in semi-tones) and maximum pitch for the SRP (adjusted $R^2=.963$), respectively. The SFF and ESFF predicted by the VRP and SRP showed a strong positive correlation. The DSFF of the VRP and SRP, as well as their sum did not differ by gender. In conclusion, the SFF during a passage reading task could be successfully predicted by the parameters of the VRP and SRP tasks. In further studies, clinical implications need to be explored in patients who may exhibit deviations in SFF.

Trends on Distributed Frameworks for Deep Learning (딥러닝 분산처리 기술동향)

  • Ahn, S.Y.;Park, Y.M.;Lim, E.J.;Choi, W.
    • Electronics and Telecommunications Trends
    • /
    • v.31 no.3
    • /
    • pp.131-141
    • /
    • 2016
  • 최근 알파고를 통해 인공지능 기술이 전 세계인의 이목을 집중시켰던 반면, 인공지능 연구자들은 인공지능 부활에 결정적 역할을 한 딥러닝 기술에 주목하고 있다. 딥러닝은 다계층 인공신경망 기반의 기계학습 기술로서 최근 컴퓨터 비전, 음성인식, 자연어 처리 분야에서 인식 성능을 높이는 데 중요한 역할을 하고 있다. 딥러닝 기술을 이용하여 기계가 수천만장의 이미지를 학습하여 객체를 인식하게 하고, 수천 시간의 음성 데이터를 학습하여 사람의 말을 알아듣게 처리하는 데에는 다수의 고성능 컴퓨터가 필요하다. 따라서 딥러닝에는 다수의 컴퓨터를 효율적으로 이용하기 위한 분산처리 기술이 필수적이며 관련 연구들이 활발히 진행되고 있다. 이에 본고는 다중 컴퓨터 노드들에서 딥러닝 모델을 분산처리할 수 있는 기존의 프레임워크들을 비교 분석하고 딥러닝 분산처리 기술에 대한 발전 방향을 전망한다.

  • PDF

A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data (암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구)

  • Lee, Won-Tae;Kang, Jang-Mook
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.14 no.4
    • /
    • pp.157-163
    • /
    • 2014
  • User's sensitivity is recognized as a very important parameter for communication between company, government and personnel. Especially in many studies, researchers use voice tone, voice speed, facial expression, moving direction and speed of body, and gestures to recognize the sensitivity. Multiplex modality is more precise than single modality however it has limited recognition rate and overload of data processing according to multi-sensing also an excellent algorithm is needed to deduce the sensing value. That is as each modality has different concept and property, errors might be happened to convert the human sensibility to standard values. To deal with this matter, the sensibility expression modality is needed to be extracted using technologies like analyzing of relational network, understanding of context and digital filter from multiplex modality. In specific situation to recognize the sensibility if the priority modality and other surrounding modalities are processed to implicit values, a robust system can be composed in comparison to the consuming of computer resource. As a result of this paper, it is proposed how to assign the weight of multiplex modality using implicit data.