• Title/Summary/Keyword: 발성기술

Search Result 129, Processing Time 0.026 seconds

A Study on a comparison and analysis of Speaking rate estimation for adaptive bit rate on CELP vocoder (가변전송률 CELP 부호화기 설계를 위한 발성률 비교 분석에 관한 연구)

  • Jang KyungA;Min SoYeon;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.105-108
    • /
    • 2004
  • 음성 부호화 기술은 전송률과 복잡도를 줄이고 음질을 향상시키는 방향으로 진행되고 있다. 현재 상용화되고 있는 CELP형 보코더는 낮은 전송률에 비해 우수한 음질을 제공한다. 본 논문에서는 기존의 방식과 다르게 보코더 단에 입력 음성이 들어가기 앞서 전처리 기법을 수행하는 전처리단을 부가하여 전송률을 낮추는 방법을 소개하고, 소개된 방법들을 각기 비교하고 분석하고자 한다. 전처리기법들을 음성 인식이나 합성에서 사용되는 파라미터들을 적용시켰으며, 처리시간이나 계산시간에 있어 기존의 방식에서 많은 영향을 미치지 않은 간단한 알고리즘으로 구현하였다. 소개하는 전처리단에서는 기존의 코딩방식에서 사용하지 않은 파라미터들, 발성율, 지속시간, PSOLA 방식들을 이용하였다.

  • PDF

Design & Implementation of Voice-Interface for Web-Browsing (웹 브라우징을 위한 음성 인터페이스 설계 및 구현)

  • Lee, Seung-Ho;Youk, Sang-Cho;Kwon, Young-Mi;Lee, Geuk
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.04a
    • /
    • pp.106-109
    • /
    • 1998
  • WWW은 무한한 확장 가능성을 지닌 HTTP(Hyper-Text Transfer Protocol)와 편리한 웹 브라우져를 통해 질적, 양적 성장 계속해 왔으며 특히 GUI(Graphic User Interface) 환경에서 동작하는 웹 브라우져는 WWW이 수많은 이용자를 확보하는데 일익을 담당했다. 본 논문에서는 이 웹 브라우져에 음성인식 기술을 접목하여 WWW의 이용자가 자신의 음성으로 편리하게 웹 브라우징을 할 수 있도록 하는 음성 인터페이스를 설계, 구현 한다. 본 음성 인터페이스는 계속적으로 입력되는 음성 정보 중 화자의 발성음을 추출하여 음성 인식기에 전달하는 음성 입력기와 화자의 발성을 인식하는 음성 인식기 그리고 인식결과를 웹 브라우져에게 처리 하도록 하는 결과 처리기로 구성되어 있다.

  • PDF

Text-dependent Speaker Verification System in SVAPI 1.0 Environment (SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템)

  • 김유진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.401-405
    • /
    • 1998
  • SVAPI 1.0 환경에서의 어구 종속 화자 확인 시스템에 대해 기술한다. 구현된 시스템은 궁극적으로 공중 전화망 응용이 가능한 실용 시스템을 목표로 개발되었으며 이를 위해 SVAPI 위원회에 의해 제안된 SVAPI 1.0을 개발 환경으로 사용하였다. SVAPI는 객체 지향 구조, 클라이언트-서버 및 telephony 환경의 지원등이 특징이며 어플리케이션과 엔진을 독립적으로 개발할 수 있는 이점을 제공한다. 구현된 데모 시스템은 펜티엄 프로세서와 Windows95/NT 4.0 운영체제 그리고 Win16/Win32 API를 통해 제어 가능하며 음성 입력이 가능한 디바이스를 장착한 IBM 호환 PC이다. 화자의 성문 등록은 화자가 동일한 어구를 3회 발성하여 이뤄지며 등록과 확인의 응답속도는 모두 1초 이내이다. 소프트웨어의 구성은 크게 어플리케이션과 어구 종속 화자 확인 엔진으로 구분할 수 있으며 엔진은 끝점 검출 알고리즘, 음성 특징 추출 알고리즘 그리고 연속 HMM 기반의 화자 성문 모델 등록 및 유사도 계산 등을 포함한 확인 알고리즘으로 구성되어 있다. 화자의 성문은이름과 같은 약 3음절 이상의 단어로 등록되고 테스트되었다. 엔진의 객관적인 평가를 위해 전화선을 통해 남자 6명, 여자 3명의 화자로부터 자신의 이름을 각각 40회 발성하여 구축된 음성 데이터 베이스를 사용하였으며 실험 결과 남자는 2.85%, 여자는 2.44%의 EER을 각각 얻었다.

  • PDF

Primary Malignant Pericardial Mesothelioma(PMPM) -A case Report (심낭의 원발성 악성 중피종 -1례 보고-)

  • 손상태;전순호
    • Journal of Chest Surgery
    • /
    • v.30 no.4
    • /
    • pp.432-436
    • /
    • 1997
  • Primary malignant pericardial mesothelioma(PMPM) is more rare than heart tumor, and the term of mcsothelioma was first used by Adami in 1910, although the lesion was Hrst descripted by Wagner in 1870. Most of 1:le reported 40 cascs have becn diagnosed on autopsy. Antemortem diagnosis are rarely reported with only 40 cases in the world. According to Cohen, its incidence in 500,000 autopsies were 2.2. An analysis of the recent review shows that an antemortem diagnosis was made in only 19∼25% of total cases. This report co sist of a case of our experience of PMPM.

  • PDF

음성 합성 및 발성 변환 기술

  • 김종국;이기영;배명진
    • The Magazine of the IEIE
    • /
    • v.31 no.6
    • /
    • pp.52-62
    • /
    • 2004
  • 음성은 인간과 인간의 의사소통 수단으로 가장 편리하게 사용되는 매체이다. 음성 중에는 여러 가지 정보가 포함되어 있지만 가장 기본적이고 중요한 것이 의미정보 즉 언어적 정보이다. 또한 음성에는 누가 말하고 있는가를 나타내는 개인성 정보, 말하는 사람의 감정을 전해주는 정서 정보 등이 있다.(중략)

  • PDF

노무안전판례

  • Korea Industrial Health Association
    • The Safety technology
    • /
    • no.75
    • /
    • pp.30-31
    • /
    • 2004
  • B형 간염에 감염된 근로자가 과중한 업무에 종사하다가 원발성 간종양 진단을 받고 사망한 경우, B형 간염에 감염된 것은 업무와 관련이 없다 하더라도 계속되는 근무로 인하여 육체적 과로와 정신적 스트레스가 지속되어 자연적인 속도 이상으로 악화되어 사망하였다면 업무상 재해에 해당한다

  • PDF

Automatic Speech Recognition Research at Fujitsu (후지쯔에 있어서의 음성 자동인식의 현상과 장래)

  • Nara, Yasuhiro;Kimura, Shinta;Loken-Kim, K.H.
    • The Journal of the Acoustical Society of Korea
    • /
    • v.10 no.1
    • /
    • pp.82-91
    • /
    • 1991
  • The history of automatic speech recognition research, and current and future speech products at Fujitsu are introduced here. The speech recognition research at Fujitsu started in 1970. Our research efforts have results in the production of a speaker dependent 12,000 word discrete / connected word recognizer(F2360), and a speaker independent 17 word discrete word recognizer(F2355L/S). Currently, we are working on a larger vocabulary speech recognizer, in which an input utterance will be matched with networks representing possible phonemic variations. Its application to text input is also discussed.

  • PDF

A Study of Vocalization for Korean Pop Music So-mo-ri Technique (가요 창법 연구 - 소몰이 창법 -)

  • Cho, Tae-Seon
    • Proceedings of the KAIS Fall Conference
    • /
    • 2009.12a
    • /
    • pp.410-413
    • /
    • 2009
  • 2000년대 들어서 가요계에 전에 볼 수 없었던 특이한 현상이 발생하였다. 많은 남자 가수들이 거의 똑같은 목소리, 창법으로 노래를 부르는 현상이 그것이다. 혹자들은 그것을 "소몰이 창법"이라 이름 붙였는데 당시에는 특이한 목소리로 인해 대중들에게 상당한 인기를 끌었다. 80년도 초 조용필의 "창밖의 여자"가 히트를 하면서 많은 가수들이 조용필의 창법을 익히고자 노력했던 적은 있었지만 이렇게 똑같은 목소리로 앨범까지 발표한 적은 유래가 없었다. 본 연구에서는 "소몰이 창법"이 무엇인지 어떻게 시작이 되었는지 또한 발성의 특징은 무엇인지 등에 관해 분석해 보도록 한다.

  • PDF

A Study of breath and utterance for contemporary singers (CONTEMPORARY SINGERS의 호흡과 발성에 관한 연구)

  • Kim, Hye-Yeon;Cho, Tae-Seon
    • Proceedings of the KAIS Fall Conference
    • /
    • 2012.05a
    • /
    • pp.45-48
    • /
    • 2012
  • 음악의 시대적인 변화에 따라 현대에는 노래하는 창법이 매우 다양해졌다. 또한 노래하기 원하는 많은 사람들이 바람직하지 못한 방법으로 연습한 뒤에 성대 결절 등의 치명적인 상처를 얻게 되기도 한다. 허스키(Husky)한 목소리로 노래해야만 개성이 있는 목소리라는 잘못된 인식의 결과를 피하기 위해서는 많은 시간을 노력 해야만 하는 또 다른 준비과정이 필요하다. 그러므로 본 논문에서는 노래하는 사람이 노래하고자 하는 곡을 평상시에 말할 때처럼 자연스럽고 편안하며 자유롭게 노래로 표현하기 위해 과학적으로 연습하는 과정에 대해 설명하고자 한다.

  • PDF

An acoustic Doppler-based silent speech interface technology using generative adversarial networks (생성적 적대 신경망을 이용한 음향 도플러 기반 무 음성 대화기술)

  • Lee, Ki-Seung
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.2
    • /
    • pp.161-168
    • /
    • 2021
  • In this paper, a Silent Speech Interface (SSI) technology was proposed in which Doppler frequency shifts of the reflected signal were used to synthesize the speech signals when 40kHz ultrasonic signal was incident to speaker's mouth region. In SSI, the mapping rules from the features derived from non-speech signals to those from audible speech signals was constructed, the speech signals are synthesized from non-speech signals using the constructed mapping rules. The mapping rules were built by minimizing the overall errors between the estimated and true speech parameters in the conventional SSI methods. In the present study, the mapping rules were constructed so that the distribution of the estimated parameters is similar to that of the true parameters by using Generative Adversarial Networks (GAN). The experimental result using 60 Korean words showed that, both objectively and subjectively, the performance of the proposed method was superior to that of the conventional neural networks-based methods.