• 제목/요약/키워드: Text-to-Speech System

검색결과 246건 처리시간 0.028초

경량화 운율구 경계 예측 시스템 개발 (Minimization of Prediction System of Prosodic Phrase Boundaries)

  • 김민호;정영임;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

펫로스 증후군을 위한 VR 반려동물 교감 시스템 (VR Companion Animal Communion System for Pet Loss Syndrome)

  • 최형문;문미경;이군호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.563-564
    • /
    • 2021
  • 반려동물 보유 가구 수가 증가하면서 반려동물의 상실로 인한 펫로스 증후군을 호소하는 반려인 또한 증가하고 있다. 펫로스 증후군을 치유하기 위해 반려동물을 가상으로라도 만나서 평소에 하던 말과 행동을 할 수 있도록 하여 차츰 이별을 할 수 있도록 할 필요가 있다. 본 논문에서는 VR을 통하여 반려인이 3D로 모델링 된 반려동물과 직접 교감할 수 있는 시스템에 대한 연구 내용을 기술한다. 이 시스템을 통해 떠나보낸 반려동물과 평소와 같은 말과 행동을 할 수 있도록 도와주어 감정의 정화를 서서히 할 수 있도록 해준다.

  • PDF

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화 (Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired)

  • 최미애;김승현;조민애;박동영;김용호;윤종후
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.465-468
    • /
    • 2020
  • 인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

  • PDF

시각장애인을 위한 화폐 인식 시스템 (Currency Recognition System for Blind People)

  • 유동준;김성준;이준영;강현수;손준호;오세진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.257-258
    • /
    • 2024
  • 현재 시각장애인들이 현금을 사용하게 될 시 지폐가 얼마인지 확인할 방법이 없어 불편을 겪거나 금전적 사기를 당할 위험이 잦다. 한국은행에서는 이러한 사고를 막기 위해 점자 지폐를 만들어 발부하고 있지만 시각장애인 91%가 식별하지 못해 많은 불편을 겪고 있다. 본 논문에서는 딥러닝을 활용하여 화폐를 인식하고 TTS 기술을 사용하여 지폐의 값이 얼마인지 소리로 알려주는 시스템을 개발하였다. 지폐 인식을 위해 데이터를 직접 수집하여 YOLOv5 알고리즘을 활용하여 학습시킨 Weights 파일을 사용하였다. 이를 활용하여 시각장애인들은 더 안전하게 현금을 사용하고, 금전적인 문제를 예방할 수 있다.

  • PDF

화자확인 시스템을 위한 분절 알고리즘 (A Blind Segmentation Algorithm for Speaker Verification System)

  • 김지운;김유진;민홍기;정재호
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.45-50
    • /
    • 2000
  • 본 논문에서는 하위단어에 기반한 전화선 채널에서의 어구 종속 화자 확인 시스템을 위한 음성 분할 알고리즘인, 파라미트릭 필터링에 기반한 델타 에너지를 제안한다. 제안한 알고리즘은 특정 밴드의 주파수를 기준으로 대역폭을 변화시키며 필터링한 후 델타 에너지를 이용하는 방법으로 다른 알고리즘에 비해 주변환경에 강인한 것으로 나타났다. 이를 이용해 음성을 하위단어로 분할하고, 각 하위단어를 이용해 화자의 성문을 모델링하였다. 제안한 알고리즘의 성능 평가를 위해 EER(Equal Error Rate)를 사용한다. 그 결과 단일 모델의 EER이 약 6.1%, 하위 단어 모델의 EER이 약 4.0%로 본 논문에서 제안한 알고리즘을 사용했을 때 약 2%의 성능이 향상되었다.

  • PDF

An Architecture for Mobile Instruction: Application to Mathematics Education through the Web

  • Kim, Steven H.;Kwon, Oh-Nam;Kim, Eun-Jung
    • 한국수학교육학회지시리즈D:수학교육연구
    • /
    • 제4권1호
    • /
    • pp.45-55
    • /
    • 2000
  • The rapid proliferation of wireless networks provides a ubiquitous channel for delivering instructional materials at the convenience of the user. By delivering content through portable devices linked to the Internet, the full spectrum of multimedia capabilities is available for engaging the user's interest. This capability encompasses not only text but images, video, speech generation and voice recognition. Moreover, the incorporation of machine learning capabilities at the source provides the ability to tailor the material to the general level of expertise of the user as well as the immediate needs of the moment: for instance, a request for information regarding a particular city might be covered by a leisurely presentation if solicited from the home, but more tersely if the user happens to be driving a car. This paper presents system architecture to support mobile instruction in conjunction with knowledge-based tutoring capabilities. For concreteress, the general concepts are examined in the context of a system for mathematics education on the Web.

  • PDF

음성지시에 의한 선박 조종 및 윈치 제어 시스템 (Ship s Maneuvering and Winch Control System with Voice Instruction Based Learning)

  • 서기열;박계각
    • 한국지능시스템학회논문지
    • /
    • 제12권6호
    • /
    • pp.517-523
    • /
    • 2002
  • 본 논문에서는 자연언어를 이용하는 인간의 학습방법에 기초한 LIBL방법의 실용화를 위하여 음성지시기반학습(VIBL : Voice Instruction Based Learing)을 선박의 조타 시스템, 주기원격제어시스템(MERCS), 윈치기기에 적용하여 항해사의 조타명령과 같은 언어적 지시가 조타수를 경유하여 수행되는 과정을 대체하는 VIBL법을 이용한 조타기, 주기 원격 조종장치, 윈치 기기를 제어하는 시스템을 제안하고자 한다. 구체적인 연구방법으로는 조타수의 적절한 조타조작모델을 퍼지추론 규칙을 이용하여 구현하고, 적절한 의미소 및 평가규칙을 제시한 언어지시 기반 학습방법을 선박의 조타시스템에 적용하여 지시자의 음성언어지시에 보다 효율적으로 응답하는 지능형 조타기 제어 시스템을 구현하고, 지시자의 음성지시를 인식하여 주기 원격 조종 장치와 윈치 기기를 제어하는 시스템을 구현한다. 음성언어지시를 인식하여 텍스트로 변환하기 위한 기법과 퍼지추론을 이용하여 조타수의 경험을 바탕으로 한 조타 조작 모델을 구축하였고, 지능형 조타 시스템을 위한 타각, 방위도달시간, 정상상태의 의미소를 제안하여, 조타수 조작 모델 규칙을 수정하기 위한 평가규칙을 제시하였다. 또한, 구현된 음성인식 선박조종 시뮬레이터에 적용하여 그 유효성을 확인하였다.

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

안드로이드 OS 기반 한국어 TTS 서비스의 설계 및 구현 (Implementation of Korean TTS Service on Android OS)

  • 김태권;김봉완;최대림;이용주
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.9-16
    • /
    • 2012
  • 국내에서 출시된 안드로이드 기반의 스마트폰은 한국어 TTS 엔진이 내장되어 있지 않고, 구글에서도 공식적인 한국어 TTS 기술 개발을 발표하지 않고 있는 상황이다. 따라서 안드로이드 스마트폰을 사용하는 어플리케이션 개발자 및 사용자들의 불편이 갈수록 심해져 가고 있다. 본 논문은 안드로이드 기반의 스마트폰에서 서비스할 수 있는 TTS시스템의 설계 및 구현에 대해 기술하였다. 신속 명료한 TTS를 위해 안드로이드 NDK를 이용하여 텍스트 전처리와 합성음 생성 라이브러리를 구현하였다. 또한, 자바의 스레드 기법과 스트림을 적용한 AudioTrack 클래스 객체를 사용하여 TTS 응답시간을 최소화 하였다. 구현된 한국어 TTS 서비스를 테스트하기 위해 수신된 문자메시지를 읽어주는 어플리케이션을 설계 및 개발하였다. 평가 결과, 임의의 문장에 대해 자연스러운 합성음을 생성하였으며, 실시간 청취가 가능하였다. 또한, 어플리케이션 개발자들은 구현된 한국어 TTS 서비스를 이용하여 음성을 통한 정보 전달을 손쉽게 적용할 수 있다. 본 논문에서 구현한 한국어 TTS 서비스는 기존 제한적 음성합성 방식의 어플리케이션의 단점을 개선하였으며, 음성을 통한 정보전달 어플리케이션 개발자 및 사용자들에게 사용성과 편의성을 제공할 수 있다.

증강현실을 이용한 선택적 가이드 시스템 -관람자의 관심에 따라 박물관 관람을 안내 하는 가이드 시스템 (Augmented Reality based Museum Guidance System Selective Viewing)

  • 박준석;이동현;박준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.45-48
    • /
    • 2008
  • 박물관이나 전시관에서 많은 관람객들은 전시물에 대한 멀티미디어 정보를 얻기를 원할 뿐만 아니라 특정한 스타일, 작가, 주제별로 관람하고 싶어 한다. 박물관이나 전시관에는 증강 현실을 이용한 선택적 가이드 시스템을 이용하여 글이나 그림, 다국어 음성, 비디오와 같은 전시물에 대한 정보를 관람객에게 제공하며 관람자들의 흥미에 따른 관람 경로를 관람자에게 제공 해준다. 다음 전시물까지 가는 경로의 정보는 증강현실을 이용하거나, 멀티미디어 정보를 이용해서 관람자들에게 제공한다. 이 시스템은 외관적으로는, UMPC(Ultra Mobile PC)와 카메라, 그리고 관성 센서로 구성되어 있다. 처음 이 시스템을 시작하면, 관람자는 자신의 흥미에 맞는 전시물을 메뉴를 선택한다. 그 후, 시스템은 선택된 전시물과 연관된 관람 경로를 설정하고 다음 전시물에 대한 방향과 거리 그리고 어디로 가는지, 어느 방향에 있는지, 얼마나 멀리 있는지 그리고 전시물에 대한 시각적 실마리의 정보가 주어진다. 해당 정보를 이용하여 다음 전시물을 찾고 화면에 표시된 시각적 실마리와 카메라에서 얻어지는 전시물의 영상을 일치시키면 전시물에 대한 정보를 멀티미디어 형태로 보여준다. 사용자들의 간단한 실험을 통해서 이 시스템은 큰 전시실에도 관람자로 하여금 유익하게 관람할 수 있다.

  • PDF