• Title/Summary/Keyword: 음성의 다양화

Search Result 301, Processing Time 0.032 seconds

A study on Customized Foreign Language Learning Contents Construction (사용자 맞춤형 외국어학습 콘텐츠 구성을 위한 연구)

  • Kim, Gui-Jung;Yi, Jae-Il
    • Journal of Digital Convergence
    • /
    • v.17 no.1
    • /
    • pp.189-194
    • /
    • 2019
  • This paper is a study on the methodology of making customized contents according to user 's tendency through the development of learning contents utilizing IT. A variety of learners around the world use mobile devices and mobile learning contents to conduct their learning activities in various fields, and foreign language learning is one of the typical mobile learning areas. Foreign language learning contents suggested in this study is constructed based on the learner's verbal and text information in accordance with the user's vocal tendency. It is necessary to find out a suitable method to translate the user's native language text into the target language and make it into user friendly content.

Causes and Hierarchy of Loanwords Word-initial Glottalization (외래어 어두경음화 발음의 원인과 사회계층)

  • Park, JiYoon
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.2
    • /
    • pp.421-430
    • /
    • 2021
  • It is necessary to pay attention to the appearance of word-initial glottalization among social classes. The higher the academic ability, the more formal it is, the more likely it is to avoid word-initial glottalization due to the psychological factors that are close to the English pronunciation. The purpose of this study is to prove and clarify this through experimental research and the Praat voice analysis program. In previous discussions on word-initial glottalization, there have been various discussions such as strengthening expressions, the conclusion of competition of modern society, Korean historical analysis, differences in Korean and English phonetics, and attempts to regularize the pronunciation of loanwords. In this paper, it was revealed that the higher the academic ability, the weaker the pronunciation of loanwords word-initial glottalization appears in formal and formal situations, by using experimental research and voice analysis program Praat. The presence or absence of pronunciation of the initial specification of loanwords acts as a psychological base for expressing one's status and hierarchy.

A Study on Interactive Talking Companion Doll Robot System Using Big Data for the Elderly Living Alone (빅데이터를 이용한 독거노인 돌봄 AI 대화형 말동무 아가야(AGAYA) 로봇 시스템에 관한 연구)

  • Song, Moon-Sun
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.5
    • /
    • pp.305-318
    • /
    • 2022
  • We focused on the care effectiveness of the interactive AI robots. developed an AI toy robot called 'Agaya' to contribute to personalization with more human-centered care. First, by applying P-TTS technology, you can maximize intimacy by autonomously selecting the voice of the person you want to hear. Second, it is possible to heal in your own way with good memory storage and bring back memory function. Third, by having five senses of the role of eyes, nose, mouth, ears, and hands, seeking better personalised services. Fourth, it attempted to develop technologies such as warm temperature maintenance, aroma, sterilization and fine dust removal, convenient charging method. These skills will expand the effective use of interactive robots by elderly people and contribute to building a positive image of the elderly who can plan the remaining old age productively and independently

Automatic severity classification of dysarthria using voice quality, prosody, and pronunciation features (음질, 운율, 발음 특징을 이용한 마비말장애 중증도 자동 분류)

  • Yeo, Eun Jung;Kim, Sunhee;Chung, Minhwa
    • Phonetics and Speech Sciences
    • /
    • v.13 no.2
    • /
    • pp.57-66
    • /
    • 2021
  • This study focuses on the issue of automatic severity classification of dysarthric speakers based on speech intelligibility. Speech intelligibility is a complex measure that is affected by the features of multiple speech dimensions. However, most previous studies are restricted to using features from a single speech dimension. To effectively capture the characteristics of the speech disorder, we extracted features of multiple speech dimensions: voice quality, prosody, and pronunciation. Voice quality consists of jitter, shimmer, Harmonic to Noise Ratio (HNR), number of voice breaks, and degree of voice breaks. Prosody includes speech rate (total duration, speech duration, speaking rate, articulation rate), pitch (F0 mean/std/min/max/med/25quartile/75 quartile), and rhythm (%V, deltas, Varcos, rPVIs, nPVIs). Pronunciation contains Percentage of Correct Phonemes (Percentage of Correct Consonants/Vowels/Total phonemes) and degree of vowel distortion (Vowel Space Area, Formant Centralized Ratio, Vowel Articulatory Index, F2-Ratio). Experiments were conducted using various feature combinations. The experimental results indicate that using features from all three speech dimensions gives the best result, with a 80.15 F1-score, compared to using features from just one or two speech dimensions. The result implies voice quality, prosody, and pronunciation features should all be considered in automatic severity classification of dysarthria.

Visualization of Korean Speech Based on the Distance of Acoustic Features (음성특징의 거리에 기반한 한국어 발음의 시각화)

  • Pok, Gou-Chol
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.13 no.3
    • /
    • pp.197-205
    • /
    • 2020
  • Korean language has the characteristics that the pronunciation of phoneme units such as vowels and consonants are fixed and the pronunciation associated with a notation does not change, so that foreign learners can approach rather easily Korean language. However, when one pronounces words, phrases, or sentences, the pronunciation changes in a manner of a wide variation and complexity at the boundaries of syllables, and the association of notation and pronunciation does not hold any more. Consequently, it is very difficult for foreign learners to study Korean standard pronunciations. Despite these difficulties, it is believed that systematic analysis of pronunciation errors for Korean words is possible according to the advantageous observations that the relationship between Korean notations and pronunciations can be described as a set of firm rules without exceptions unlike other languages including English. In this paper, we propose a visualization framework which shows the differences between standard pronunciations and erratic ones as quantitative measures on the computer screen. Previous researches only show color representation and 3D graphics of speech properties, or an animated view of changing shapes of lips and mouth cavity. Moreover, the features used in the analysis are only point data such as the average of a speech range. In this study, we propose a method which can directly use the time-series data instead of using summary or distorted data. This was realized by using the deep learning-based technique which combines Self-organizing map, variational autoencoder model, and Markov model, and we achieved a superior performance enhancement compared to the method using the point-based data.

A Multi Modal Interface for Mobile Environment (모바일 환경에서의 Multi Modal 인터페이스)

  • Seo, Yong-Won;Lee, Beom-Chan;Lee, Jun-Hun;Kim, Jong-Phil;Ryu, Je-Ha
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.666-671
    • /
    • 2006
  • 'Multi modal 인터페이스'란 인간과 기계의 통신을 위해 음성, 키보드, 펜을 이용, 인터페이스를 하는 방법을 말한다. 최근 들어 많은 휴대용 단말기가 보급 되고, 단말기가 소형화, 지능화 되어가고, 단말기의 어플리케이션도 다양해짐에 따라 사용자가 보다 편리하고 쉽게 사용할 수 있는 입력 방법에 기대치가 높아가고 있다. 현재 휴대용 단말기에 가능한 입력장치는 단지 단말기의 버튼이나 터치 패드(PDA 경우)이다. 하지만 장애인의 경우 버튼이나 터치 패드를 사용하기 어렵고, 휴대용 단말기로 게임을 하는데 있어서도, 어려움이 많으며 새로운 게임이나 어플리케이션 개발에도 많은 장애요인이 되고 있다. 이런 문제점들은 극복하기 위하여, 본 논문에서는 휴대용 단말기의 새로운 Multi Modal 인터페이스를 제시 하였다. PDA(Personal Digital Assistants)를 이용하여 더 낳은 재미와 실감을 줄 수 있는 Multi Modal 인터페이스를 개발하였다. 센서를 이용하여 휴대용 단말기를 손목으로 제어를 가능하게 함으로서, 사용자에게 편리하고 색다른 입력 장치를 제공 하였다. 향후 음성 인식 기능이 추가 된다면, 인간과 인간 사이의 통신은 음성과 제스처를 이용하듯이 기계에서는 전통적으로 키보드 나 버튼을 사용하지 않고 인간처럼 음성과 제스처를 통해 통신할 수 있을 것이다. 또한 여기에 진동자를 이용하여 촉감을 부여함으로써, 그 동안 멀티 모달 인터페이스에 소외된 시각 장애인, 노약자들에게도 정보를 제공할 수 있다. 실제로 사람은 시각이나 청각보다 촉각에 훨씬 빠르게 반응한다. 이 시스템을 게임을 하는 사용자한테 적용한다면, 능동적으로 게임참여 함으로서 좀더 실감나는 재미를 제공할 수 있다. 특수한 상황에서는 은밀한 정보를 제공할 수 있으며, 앞으로 개발될 모바일 응용 서비스에 사용될 수 있다.

  • PDF

Intelligibility Enhancement of Multimedia Contents Using Spectral Shaping (스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠의 명료도 향상)

  • Ji, Youna;Park, Young-cheol;Hwang, Young-su
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.53 no.11
    • /
    • pp.82-88
    • /
    • 2016
  • In this paper, we propose an intelligibility enhancement algorithm for multimedia contents using spectral shaping. The dialogue signals is essential to understand the plot of audio-visual media contents such as movie and TV. However, the non-dialogue components as like sound effects and background music often degrade the dialogue clarity. To overcome this problem, this paper tries to improves the dialogue clarity of audio soundtracks which contain important cues for the visual scenes. In the proposed method, the dialogue components are first detected by soft masker based on speech presence probability (SPP) which is widely used in speech enhancement field. Then, extracted dialogue signals are applied to the spectral shaping method. It reallocate the spectral-temporal energy of speech to enhanced the intelligibility. The total energy is maintained as unchanged via a loudness normalization process to prevent saturation. The algorithm was evaluated using the modeled and real movie soundtracks and it was shown that the proposed algorithm enhances the dialogue clarity while preserving the total audio power.

Transcoding Algorithm for SMV and G.729A Vocoders via Direct Parameter Transformation (G.729A와 SMV 음성부호화기를 위한 파라미터 직접 변환 방식의 상호부호화 알고리듬)

  • 장달원;서성호;이선일;유창동
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.40 no.6
    • /
    • pp.71-83
    • /
    • 2003
  • In this paper, a novel transcoding algorithm for the G.729A and the Selectable Mode Vocoder(SMV) vocoders via direct parameter transformation is proposed. In contrast to the conventional tandem transcoding algorithm, the proposed algorithm converts the parameters of one coder to the other without going through the decoding and encoding processes. In transcoder from SMV to G.729A, LSP conversion algorithm, pitch delay conversion algorithm and transcoding algorithm in lower rate are proposed, and in transcoder from G.729A to SMV, LSP conversion algorithm, pitch delay conversion algorithm and rate selection algorithm are proposed. Evaluation results show that while exhibiting better computational and delay characteristics, the proposed algorithm produces equivalent or Improved speech quality to that produced by the tandem transcoding algorithm.

Trends of Multimedia Transcoding Technol o gies (멀티미디어 트랜스코딩 기술 동향)

  • Jeong, Y.H.;Jung, H.W.
    • Electronics and Telecommunications Trends
    • /
    • v.19 no.6 s.90
    • /
    • pp.83-92
    • /
    • 2004
  • 정보통신 기술은 음성, 데이터, 영상, 멀티미디어 등 모든 형태의 정보를 디지털화가 가능하도록 발전하였고, 이를 기반으로 다양한 멀티미디어 서비스가 각종의 네트워크 및 단말기를 통하여 사용자에게 제공되고 있다. 그러나 현재에는 네트워크 및 단말기 특성에 맞추어 개별적인 콘텐츠를 각각 구축하여 제공하고 있기 때문에 시스템 구축 및 관리상에 부하가 많은 실정이다. 특히 컴퓨터, 통신, 방송 등 모든 정보통신 분야가 하나의 네트워크에 연결되는 광대역통합망 기반의 네트워크 사회로 빠르게 진화되는 상황에서 단일 콘텐츠로 네트워크 및 단말기 특성에 제역을 받지 않고 다양한 멀티미디어 서비스(multi-use)를 제공할 수 있는 멀티미디어 트랜스코딩 기술은 매우 중요하다. 본 고에서는 누구나 언제 어디서나 원하는 멀티미디어 서비스를 네트워크 및 단말기에 제약을 받지 않고 끊김없이 편리하게 이용할 수 있도록하기 위한 멀티미디어 트랜스코딩 기술 동향에 관하여 기술하고자 한다.

Open Network Services-Data Grade and Leased Lines (개방망 서비스의 종류-데이터급망과 전용선망에서의 개방망 서비스)

  • Park, K.H.;Kang, S.J.
    • Electronics and Telecommunications Trends
    • /
    • v.8 no.3
    • /
    • pp.108-126
    • /
    • 1993
  • 개방망은 망 접속을 표준화하여 망을 접근하도록 하는 technical interface의 공개측면과 망이 가지고 있는 망서비스를 공개하여 사용자로 하여금 선택적으로 이용할 수 있게 해주는 망서비스 공개 측면을 모두 고려하여 망구조를 실현해야 한다. 통신망은 망의 서비스 유형 및 일반적인 기능에 따라 음성급 전화망, 데이터망, 전용선망, 이동통신망 및 위성망으로 구분할 수 있으며, 이에 대한 망 접속은 각 망별로 또한 분유될 수 있다. 망서비스는 기술의 발전과 망진화에 따른 기술적인 요인, 고도통신 사업의 다양화에 따른 사업자 요구에 의한 요인, 그리고 시장수요 요인에 의해 계속 발전.진화되어지는 동적인 것이다. 개방망구조는 망서비스와 기술적인 접속을 주요 내용으로 하고 있기 때문에 이것도 역시 계속 진화되는 것으로 해석해야 한다. 본고에서는 개방망의 서비스 측면에서 해당교환 시스팀이나 전송시스팀이 제공가능한 서비스들로서 개방망구조의 서비스메뉴로 표현할 수 있는 것들을 각 망에 대해 자세히 파악하고자 한다. 이번 호에서는 그 두번째 내용으로서 데이터급 망과 전용선망에서 개방망 서비스로서 국내 교환시스팀과 미국의 ONA 일환으로 BOC가 제공 가능한 것들을 소개한다.