• 제목/요약/키워드: text-to-speech (TTS)

검색결과 139건 처리시간 0.034초

음소별 성조 정보를 이용한 신경망 기반의 한국어 음소 지속시간 모델링 (A Neural Network Based Korean Segmental Duration Modeling Using Tonal Information of Phonemes)

  • 김은경;이상호;오영환
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.84-88
    • /
    • 1999
  • 음소별 지속시간의 정확한 예측은 TTS 시스템의 자연성을 향상시키는데 중요한 역할을 한다. 기존의 한국어 음소 지속 시간의 모델링을 위해 사용된 특징 변수에는 음소 문맥 정보, 품사 정보, 운율구 내에서의 위치 정보 등이 있다. 본 논문에서는 음소별 성조 정보 값을 새로운 특징 변수로 정의하여 예측 성능을 향상시키고자 한다. 성조 정보의 표현을 위해 두 개의 비경계 성조와 여섯 개의 경계 성조를 정의한 후, 400문장의 음성 코퍼스에 음절별 표기를 수행하였다. 성조 정보를 이용한 지속 시간 예측을 위해, 출력노드에서 음소의 지속 시간을 실수 형태로 출력하는 신경망을 구성하고 이를 오류 역전파 알고리즘으로 학습시켰다. 실험 결과, 성조 정보를 사용하는 경우 실험 데이터에 대해 예측값과 실제값 사이의 상관계수로 0.863을 얻을 수 있었으며 이는 성조를 사용하지 않는 경우에 비해 향상된 성능을 나타내었다.

  • PDF

TTS 시스템을 위한 휴지기간 모델링 (The Modeling of Pause Duration For Text-To-Speech Synthesis System)

  • 정지혜;이양희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX IVR 트리 구조 인터페이스 (Tree-Structured IVR Interface in IP-PBX for ZigBee Device Monitoring and Control)

  • 김지용;김지호;김형국;송오영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1150-1153
    • /
    • 2012
  • 전화를 이용하여 원격의 장치를 모니터링하고 제어하는 시스템 중 본 논문에서는 IP-PBX(private branch exchange)기반 서비스 플랫폼을 응용서비스를 실제 구현하여 전화응용서비스 개발의 필수적인 몇 가지 요소로써 IP-PBX, 서비스 서버, TTS(Text to Speech) 서버 등을 선정하며 IVR(Interactive Voice Response)시스템을 설정하기에 많은 시간과 비용이 들기에 ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX 트리 구조 인터페이스를 제안한다.

손동작을 이용한 운전 안전성을 높이기 위한 전화 다이얼 인터페이스 설계 (Dialing Interface Design for Safe Driving using Hand Gesture)

  • 장원앙;이도훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.449-452
    • /
    • 2012
  • 운전 중에 주의를 분산시키는 요소는 대부분 인터페이스 조작에 있으며 교통사고의 직접적인 원인이 된다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장 되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 인터페이스를 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

경량화 운율구 경계 예측 시스템 개발 (Minimization of Prediction System of Prosodic Phrase Boundaries)

  • 김민호;정영임;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

모션인식 기반 스트레칭 모닝콜 앱 (Stretching Morning Call App Based on Motion Recognition)

  • 정진우;김강우;한재익;김민서;박준호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.429-430
    • /
    • 2023
  • 본 논문에서는 사용자들의 면역력 향상과 체력 증진을 목적으로, 아침에 스트레칭을 실행하는 기능을 모닝콜 앱에 도입하였다. 이 앱은 사용자가 원하는 스트레칭과 횟수를 설정할 수 있으며, 모닝콜이 활성화되면 사용자가 알람을 강제로 종료할 수 없는 알고리즘을 적용했다. 해당 앱에 TTS를 적용하여 알람 활성화 시 안내 음성이 나오도록 설계하였다. 주 기능으로 설정된 목표 횟수만큼 적절한 자세로 스트레칭을 수행해야만 모닝콜이 종료되도록 구현하여, 사용자의 건강증진에 기여할 것이다.

  • PDF

안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가 (Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired)

  • 장원홍;오삼균
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.221-236
    • /
    • 2015
  • 본 연구의 목적은 LG상남도서관 '책 읽어주는 도서관' 서비스의 안드로이드 플랫폼 기반 서비스 구축과정과 모델에 대한 기술과 그 서비스의 유용성을 평가하는 것이다. 연구방법은 서베이를 통한 이용자 요구조사, 이용현황통계분석 및 이용자 인터뷰를 실시하였고, 도출된 중요한 연구결과는 다음과 같다: 1) 시각장애인이 스마트기기 사용에 높은 관심을 보였고, 스마트기기를 사용해 본 적이 없는 시각장애인도 비용과 접근성만 해결된다면 사용할 의사가 있음을 표명하였으며, 2) 스트리밍보다는 다운로드 방식을 선호하는 것으로 나타났다. 3) 육성과 TTS 음성 차이를 중요하게 생각치 않는 것으로 밝혀졌으며, 4) 희망도서의 종류는 연령별로 각기 다른 선호도를 보였다. 5) 2014년 거의 14만 건의 다운로드가 이루어졌고 - 피처폰에 비해 36.3% 증가, 6) 가장 중요한 기능은 책갈피와 페이지/목차 이동 기능인 것으로 판명되었다.

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템 (Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person)

  • 김민수;문미경;한창희
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1329-1338
    • /
    • 2021
  • 점자를 제외한 시각 장애우들이 유통기한을 확인할 수 있는 효과적인 방법이 거의 개발되어 있지 않으며, 이로 인하여 시각 장애우들의 식품 안전성이 위협받고 있다. 본 연구에서는 시각 장애우의 식품 안전성 확보를 위해 실시간 객체 인식 알고리즘(you only look once, YOLO) 및 광학 문자 인식 (optical character recognition, OCR)에 기반한 유통기한 알림 시스템을 개발했다. 제안하는 시스템은 총 4가지 단계로 시각 장애우에게 유통기한 정보를 전달한다: (1) 표적 제품의 바코드 스캔을 통한 제품 확인 (2) 실시간으로 입력되는 제품 영상에서 YOLO 알고리즘을 활용하여 유통기한이 표기된 이미지 영역 검출; (3) 검출된 이미지 영역에서 OCR 알고리즘을 활용하여 유통기한 문자 인식; (4) Text to Speech (TTS) 기술을 활용하여 유통기한 정보를 사용자에게 전달. 성능 평가를 위한 온라인 실험 결과, 앞이 보이지 않는 피험자가 개발한 시스템을 사용해서 제품의 유통기한을 평균 86%의 높은 정확도로 확인할 수 있음이 검증되었다. 이러한 결과는 제안하는 시스템이 저시력자를 포함한 시각 장애우들의 식품 안전성 확보에 이바지할 수 있음을 보여준다.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.