• 제목/요약/키워드: Voice Training

검색결과 180건 처리시간 0.022초

생체신호를 활용한 학습기반 영유아 스트레스 상태 식별 모델 연구 (A Machine Learning Approach for Stress Status Identification of Early Childhood by Using Bio-Signals)

  • 전유미;한태성;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.1-18
    • /
    • 2017
  • 오늘날 감정 표현이 서툰 영유아가 처한 극도의 스트레스 상태를 자동적으로 파악하는 것은 영유아의 안전을 위협하며 지속적으로 발생하는 위험 상황의 실시간적인 인지를 위해 반드시 필요한 기술이다. 따라서 본 논문에서는 생체신호를 활용하여 영유아의 스트레스 상태를 분류하기 위한 기계학습 기반의 모델과 생체신호 수집용 스마트 밴드 및 모니터링용 모바일 어플리케이션을 제안한다. 구체적으로 본 연구에서는 영유아의 감정을 나타내는 주요한 요인이 되는 음성 및 심박 데이터의 조합을 활용하여 기존에 널리 알려진 데이터 마이닝 기법을 통해 영유아의 스트레스 상태 패턴을 학습하고 예측한다. 본 연구를 통해 생체신호를 활용하여 영유아의 스트레스 상태 식별을 자동화할 수 있는 가능성을 확인하였으며 나아가서 궁극적으로 영유아의 위험 상황 예방에 활용될 수 있을 것으로 기대된다.

베이지안 분류를 이용한 립 리딩 시스템 (Lip-reading System based on Bayesian Classifier)

  • 김성우;차경애;박세현
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 음성 정보를 배제하고 영상 정보만을 이용한 발음 인식 시스템은 다양한 맞춤형 서비스에 적용될 수 있다. 본 논문에서는 베이지안 분류기를 기반으로 입술 모양을 인식하여 한글 모음을 구분하는 시스템을 개발한다. 얼굴 이미지의 입술 모양에서 특징 벡터를 추출하고 설계된 기계 학습모델을 적용하여 실험한 결과 'ㅏ' 발음의 경우 94%의 인식률을 보였으며, 평균 인식률은 약 84%를 나타내었다. 또한 비교군으로 실험한 CNN 환경에서의 인식률보다 높은 결과를 보였다. 이를 통해서 입술 영역의 랜드 마크로 설계된 특징 값을 사용하는 베이지안 분류 기법이 적은 수의 훈련 데이터에서 보다 효율적일 수 있음을 알 수 있다. 따라서 모바일 디바이스와 같은 제한적 하드웨어에서 응용 가능한 어플리케이션 개발에 활용할 수 있다.

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

WebRTC를 이용한 현장 적응형 다자간 원격협업 시스템 개발 (Development of Multi-person remote collaboration system using WebRTC for fields adaptation)

  • 이관희;김지인;권구락
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.9-14
    • /
    • 2021
  • 기존의 원격협업 경우, 원격지원 서비스 중심의 시스템으로 현장 중심의 다자간 원격 협업 시스템의 활용에는 적합하지 않다. 본 논문은 다양한 산업현장을 위한 원격 협업 시스템 개발로 산업현장의 다양한 요구에 부합하는 관리자의 원격지원 및 작업관리, 작업자 간의 실시간 영상 원격지원, 작업자들 다자간의 실시간 음성 작업공유 기능 개발을 수행한다. 또한 영상 내 암호화를 통해 보안 기능을 강화하여 활용도를 높이고 보다 효율적인 시스템 개발을 목표로 한다. 최종적으로 개발 내용은 원격 관리 및 지원 소프트웨어 개발, 작업자 안드로이드 앱 개발, WebRTC 기반 원격 협업 시스템 구축 및 개발, 시제품 개발이다. 이러한 제품은 산업현장에 설치, 운영하여 수요처 증대 및 매출 증가가 예상되며 인력양성, 트랜드 기술 이해 및 능력 향상을 도모할 수 있다.

동계스포츠 맞춤형 기상지원 서비스를 위한 연구 (A Study on the Weather Support Service for Winter Sports)

  • 백진호;시다르타;이주성;강효민
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권1호
    • /
    • pp.139-156
    • /
    • 2019
  • 동계스포츠는 레저인구의 확대와 함께 국내 및 국제수준의 대회가 자주 개최됨에 따라 수요자 중심의 스포츠 정보가 더욱 필요해지고 있다. 특히 기상 및 환경정보는 동계스포츠대회를 조직체는 물론이고 직접 진행을 하는 경기운영요원 및 지도자와 선수 모두에게 필수적인 요소가 되고 있다. 이 연구는 동계 스포츠 설상 종목을 4개의 종목군으로 그룹화하여 각 그룹별 기상 및 환경정보에 의해 경기운영 및 경기력을 위한 제고하는 중요성 요인이 무엇인가를 구명(究明)하는데 목적이 있었다. 이 연구는 질적연구방법에 의해 이루어졌으며, 11명의 동계스포츠 관련자들이 유목적적 표집법(purposeful sampling)에 의해 정보제공자로서 선정하였다. 심층면담(in-depth interview)을 통해 얻은 자료는 내용분석(content analysis)과 함께 유형화(categorizing)과정으로 분석되었다. 이러한 과정을 통해 얻은 결론은 동계 스포츠경기를 위해 종목별 특화된 기상 및 환경정보 요소들에 의해 경기운영과 경기력에 중요하게 고려해야 하는 요인들이 구명하였다. 이는 동계스포츠 특성에 맞는 세분화된 정보를 제공하여 정보수요자의 활용과 정보재생산의 의미를 갖는다.

영상처리 및 머신러닝 기술을 이용하는 운동 및 식단 보조 애플리케이션 (Application for Workout and Diet Assistant using Image Processing and Machine Learning Skills)

  • 이치호;김동현;최승호;황인웅;한경숙
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.83-88
    • /
    • 2023
  • 본 논문에서는 홈 트레이닝 인구가 늘어나면서 증가한 운동과 식단 보조 서비스에 대한 수요를 충족시키기 위해 운동 및 식단 보조 애플리케이션을 개발하였다. 애플리케이션은 카메라를 통해 실시간으로 촬영되는 사용자의 운동 자세를 분석하여, 안내선과 음성을 이용해 올바른 자세를 유도하는 기능을 가진다. 또한, 사용자가 사진을 촬영하면 사진에 포함된 음식들을 분류하고 각 음식의 양을 추정하여, 칼로리 등의 영양 정보를 계산하여 제공하는 기능을 가진다. 영양 정보 계산은 외부의 서버에서 수행되도록 구성했다. 서버는 계산된 결과를 애플리케이션으로 전송하고, 애플리케이션은 결과를 받아 시각적으로 출력한다. 추가로, 운동 결과와 영양 정보는 날짜별로 저장하고 확인할 수 있도록 하였다.

Gesture Control Gaming for Motoric Post-Stroke Rehabilitation

  • Andi Bese Firdausiah Mansur
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.37-43
    • /
    • 2023
  • The hospital situation, timing, and patient restrictions have become obstacles to an optimum therapy session. The crowdedness of the hospital might lead to a tight schedule and a shorter period of therapy. This condition might strike a post-stroke patient in a dilemma where they need regular treatment to recover their nervous system. In this work, we propose an in-house and uncomplex serious game system that can be used for physical therapy. The Kinect camera is used to capture the depth image stream of a human skeleton. Afterwards, the user might use their hand gesture to control the game. Voice recognition is deployed to ease them with play. Users must complete the given challenge to obtain a more significant outcome from this therapy system. Subjects will use their upper limb and hands to capture the 3D objects with different speeds and positions. The more substantial challenge, speed, and location will be increased and random. Each delegated entity will raise the scores. Afterwards, the scores will be further evaluated to correlate with therapy progress. Users are delighted with the system and eager to use it as their daily exercise. The experimental studies show a comparison between score and difficulty that represent characteristics of user and game. Users tend to quickly adapt to easy and medium levels, while high level requires better focus and proper synchronization between hand and eye to capture the 3D objects. The statistical analysis with a confidence rate(α:0.05) of the usability test shows that the proposed gaming is accessible, even without specialized training. It is not only for therapy but also for fitness because it can be used for body exercise. The result of the experiment is very satisfying. Most users enjoy and familiarize themselves quickly. The evaluation study demonstrates user satisfaction and perception during testing. Future work of the proposed serious game might involve haptic devices to stimulate their physical sensation.

군사적 환경에서 음성인식 모델의 취약성에 관한 연구 (Study on the Vulnerabilities of Automatic Speech Recognition Models in Military Environments)

  • 원엘림;나성중;고영진
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.201-207
    • /
    • 2024
  • 목소리는 인간의 의사소통에서 중요한 요소로, 음성인식 모델의 발전은 인공지능의 중요한 성과 중 하나이며 최근 인간의 생활에 다방면으로 사용되고 있다. 음성인식 모델의 활용은 군사분야에서도 피해갈 수 없는 과제이다. 하지만 인공지능 모델의 군사적 활용 이전에 모델의 취약성에 대한 연구가 필요하다. 본 연구에서는 다국적 음성인식 모델인 Whisper의 군사적 활용 가능성을 알아보기 위해, 전장소음, 잡음, 적대적 공격에 대한 취약성을 평가하였다. 전장소음을 포함하는 실험에서는 Whisper의 성능 저하가 크게 나타났으며, 평균 72.4%의 문자 오류율(CER)을 기록하여 군사적 활용에 어려움이 있는 것으로 나타났다. 또한, 잡음을 포함하는 실험에서는 낮은 강도의 잡음에 대해 Whisper가 강건하였으나, 높은 강도의 잡음에서는 성능이 저하되었고, 적대적 공격 실험에서는 특정 입실론 값에서 취약성이 드러났다. 따라서 Whisper 모델을 군사적 환경에서 사용하기 위해서는 파인튜닝, 적대적 훈련 등을 통해 개선이 필요하다는 것을 시사한다.

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.