음성정보처리 기술 개발 현황 및 전방

  • 김회린
    • Korea Information Processing Society Review
    • v.11 no.2
    • pp.25-32
    • 2004
  • 미국 MIT의 기술혁신 잡지인 테크놀로지 리뷰(Technology Review)는 2004년 2월호에서 미래를 변화시킬 10대 기술(10 emerging technologies that will change your world) 중 그 첫 번째로 만국어 번역 (Universal Translation)을 선정하였다. 만국어 번역은 통역자가 중간에서 어떤 음성언어를 상대방 언어로 즉시 통역해 주는 일을 컴퓨터가 자동으로 처리해 주는 것이다. 이 기술이 상용화되면 그 사회적 파급효과가 실로 지대한 꿈같은 기술로서이 기술의 핵심에는 음성정보처리 기술 및 언어정보처리 기술이 자리 잡고 있다.(중략)

Research on a Voice-Assisted Model for Language Disorders (언어 장애인을 위한 음성 보조 모델 연구)

  • Yoona Chung;Yeong-Soo Kim;Tae-Hee Kim;Ye-Young Sin;Ye-Rin Jung
    • Annual Conference of KIPS
    • 2024.10a
    • pp.942-943
    • 2024
  • 언어 장애는 여러 장애인에게 흔히 동반되는 문제로, 이로 인해 의사소통에 어려움을 겪는다. 본 연구에서는 이러한 문제를 해결하기 위해 언어 장애인의 음성 데이터를 기반으로 한 음성 번역 모델을 구현하였다. 이 모델은 부정확한 음성을 정확한 텍스트와 음성으로 변환하여, 보다 원활한 의사소통을 가능하게 한다. 이를 통해 언어 장애를 가진 장애인들이 현대 사회에서 보다 독립적이고 효과적으로 소통할 수 있을 것으로 기대된다.

차세대 무선 인터넷 기술 전망

  • 권동승;황승구;한기철
    • The Proceeding of the Korean Institute of Electromagnetic Engineering and Science
    • v.15 no.3
    • pp.12-26
    • 2004
  • 21세기는 급속히 진전하는 IT가 사회, 생활 속에 넓게 침투하여 디지털 정보의 유통이 사람들의 모든 사회활동과 연관되어 글로벌화, 지식산업화, 그리고 디지털화되는 정보통신 시대이다. 향후 사회는 최적으로 연결된 상태로 언제, 어디서나, 유용한 정보 및 오락 서비스로의 연결을 절실하게 필요로 한다. 따라서, 이것을 충족시켜 주기 위한 음성, 문자, 영상 및 인터넷 등 통신미디어의 중요성이 최근 크게 부각되고 있다. 특히 이동통신에서의 대용량 고속 멀티미디어 통신기술 및 유무선 통신 통합이 강조되고 있다. 또한 누구와도 통화가 가능하도록 하기 위하여 가입자가 무선을 매체로 전체 통신망의 기능을 사용할 수 있도록 하는 데 그 목적이 있다. (중략)

정보소외계층을 위한 한국어 음성지원 대민 서비스

  • 류문경;신기혁;전계택;김길연
    • Korea Information Processing Society Review
    • v.11 no.2
    • pp.110-116
    • 2004
  • 우리나라는 국민의 정부 출범 이후 정보화 선진국 실현을 위해 $\boxDr$Cyber Korea 21$\boxUl$ 을 수립하여, 창조적 지식기반 국가건설을 국가의 정보화 비전으로 설정하여 추진해 왔으며, 다양한 정보인프라와 컨텐츠 및 서비스 개발을 통하여 지속적인 발전을 추구해 왔다. 그러나, 정보화의 성과 이면에 연령, 직업 등 사회적 여건과 지역적, 신체적 여건으로 인해 컴퓨터와 인터넷 사용에 어려움을 겪는 정보소외계층의 문제가 사회적으로 대두되고 있는 현실이다. 이러한 정보화 격차를 해소하기 위해 정보통신부에서는 2003년 5월 장애인, 노인 등을 위한 정보통신 접근성 보장지침을 발표하였고, 컨텐츠 제공업자로 하여금 그래픽 문자를 음성정보로 제공하는 것을 주요 내용으로 포함하고 있다.(중략)

자동차용 음성 HMI 시스템 기술 개발

  • 정민화
    • Korea Information Processing Society Review
    • v.11 no.2
    • pp.42-47
    • 2004
  • 현대 사회는 자동차가 필수이며, 현대인은 점점 더 자동차에서 보내는 시간이 늘어나고 있다. 자동차 보유 대수가 증가하면서 교통사고, 교통정체, 환경오염 등의 교통문제가 심각해지자 선진 각국에서는 대책 마련에 적극 나서고 있으며, 토로교통시설과 정보통신기술을 활용하여 교통안전을 도모하고 도로의 이용효율을 높일 수 있는 지능형 교통시스템의 구축과 지능형 자동차 사업을 국가 차원의 프로젝트로 전개하고 있다.(중략)

Parkinson's disease diagnosis using speech signal and deep residual gated recurrent neural network (음성 신호와 심층 잔류 순환 신경망을 이용한 파킨슨병 진단)

  • Shin, Seung-Su;Kim, Gee Yeun;Koo, Bon Mi;Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • v.38 no.3
    • pp.308-313
    • 2019
  • Parkinson's disease, one of the three major diseases in old age, has more than 70 % of patients with speech disorders, and recently, diagnostic methods of Parkinson's disease through speech signals have been devised. In this paper, we propose a method of diagnosis of Parkinson's disease based on deep residual gated recurrent neural network using speech features. In the proposed method, the speech features for diagnosing Parkinson's disease are selected and applied to the deep residual gated recurrent neural network to classify Parkinson's disease patients. The proposed deep residual gated recurrent neural network, an algorithm combining residual learning with deep gated recurrent neural network, has a higher recognition rate than the traditional method in Parkinson's disease diagnosis.

Validation of the Korean Voice Perceived Present Control Scale: A Pilot Study (한국판 목소리 자기조절 척도의 신뢰도 및 타당도 예비연구)

  • Lee, Jeong Min;Jung, Soo Yeon;Kim, Bin-Na;Kim, Han Su
    • Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics
    • v.33 no.2
    • pp.103-109
    • 2022
  • Background and Objectives The Voice Perceived Present Control scale (VPPC) has been developed to provide better insight into patients' perceived control over their thoughts or behaviors related to voice disorders. The objective of the present study was to validate the Korean VPPC (K-VPPC) by evaluating its internal consistency and reliability. Materials and Method All items of the English VPPC were translated into Korean. Content validity was analyzed through three Delphi survey rounds by an expert panel (n=44) with active clinical and research experience in treating dysphonic patients. Twenty-three patients with a heterogeneous diagnosis of dysphonia and twenty-three gender-matched vocally normal controls (total n=46) were asked to complete the K-VPPC and the Korean Voice Handicap Index-10 (KVHI-10). Psychometric properties including internal consistency and reliability were evaluated to examine the appropriateness of cross-cultural use of K-VPPC. Results Cronbach's alpha coefficient of K-VPPC was 0.89 for dysphonic patients, indicating good internal consistency in clinical samples. Furthermore, patients with dysphonia scored significantly lower on the total score of K-VPPC and higher on voice handicap than the vocally normal controls. Spearman's correlation coefficients indicated an inverse and moderate association between the K-VPPC and all domains of KVHI-10 (Spearman's r=-0.44- -0.68). Conclusion The findings of the current study indicated that the K-VPPC is a valid and reliable tool for the assessment of perceived control in Korean patients with dysphonia. Therefore, the K-VPPC could be a useful and complementary tool for the comprehensive evaluation of dysphonia, thereby improving care in Korean patients with voice disorders.

Establishment of Automatic Response System for Disaster Prevention using GIS (GIS를 이용한 재해상황 자동음성 통보시스템 구축)

  • Jung, Dae-Young;Bang, Hee-Bong;Shin, Young-Chul
    • Journal of the Korean Association of Geographic Information Studies
    • v.5 no.1
    • pp.69-79
    • 2002
  • The more people and urban infrastructures are crowded in a society, the more possibilities of disasters are existed. Most of cities have a difficulty in coping with unpredictable disasters consisting of natural and human characteristics. As a proved before, theses disasters have serious effects on socio-economical, financial and physical damages, and human lives. Although we have prepared various types of disaster-protection programs, there are rooms to be desired in establishing advanced warning system towards safeguards of disasters. In this research, we propose semantic ideas of an advanced information system associated with automatic voicing mail linking to telephone. This conceptual model and its architecture is for not only predicting and analyzing disasters, but also recommending counter-measurements and solutions for risks and dangers in disastrous circumstances. However, there are little works with regard to definitions and conceptual models of automatic voicing mail system in the context of geographical information sciences. Therefore, this research focuses on scrutinizing the effect of possible natural vulnerability and human hazards in our present societies.

A realization of pauses in utterance across speech style, gender, and generation (과제, 성별, 세대에 따른 휴지의 실현 양상 연구)

  • Yoo, Doyoung;Shin, Jiyoung
    • Phonetics and Speech Sciences
    • v.11 no.2
    • pp.33-44
    • 2019
  • This paper dealt with how realization of pauses in utterance is affected by speech style, gender, and generation. For this purpose, we analyzed the frequency and duration of pauses. Pauses were categorized into four types: pause with breath, pause with no breath, utterance medial pause, and utterance final pause. Forty-eight subjects living in Seoul were chosen from the Korean Standard Speech Database. All subjects engaged in reading and spontaneous speech, through which we could also compare the realization between the two speech styles. The results showed that utterance final pauses had longer durations than utterance medial pauses. It means that utterance final pause has a function that signals the end of an utterance to the audience. For difference between tasks, spontaneous speech had longer and more frequent pauses because of cognitive reasons. With regard to gender variables, women produced shorter and less frequent pauses. For male speakers, the duration of pauses with breath was significantly longer. Finally, for generation variable, older speakers produced more frequent pauses. In addition, the results showed several interaction effects. Male speakers produced longer pauses, but this gender effect was more prominent at the utterance final position.