• 제목/요약/키워드: Voice signal

검색결과 433건 처리시간 0.028초

장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발 (Development of medical/electrical convergence software for classification between normal and pathological voices)

  • 문지혜;이지연
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.187-192
    • /
    • 2015
  • 장애음성을 판별할 수 있는 소프트웨어가 개발 될 경우, 원격의료와 언어치료 등 여러 융복합 분야에서의 활용도가 매우 높다. 본 논문은 성대 진동에 대한 변화율을 나타내는 의료정보인 음향학적 파라미터와 신호처리 기반 고차 통계량에 기반을 둔 파라미터를 융합하여, CART(Classification And Regression Trees) 분석을 통해서 정상/장애음성 판별 프로그램을 구현하였다. 사용된 음향학적 파라미터는 Jitter(%)와 shimmer(%)이다. 그리고 본 연구에서 제안된 고차통계량 기반 파라미터는 왜도(Skewness)와 첨도(Kurtosis)의 평균과 분산이다. Kay Elemetrics의 데이터베이스에서 무작위로 발췌된 정상음성 53명, 장애 음성 173명의 /아/ 발화를 이용하여 결정트리(Decision tree) 기반장애음성 판별을 위해 평균적으로 83.15%의 성능을 보이는 알고리즘을 구현하였다. 그 결과를 바탕으로 추후 상용화를 고려하여 사용자 친화적인 프레임 워크에 의해 컨텐츠를 생성하는 융복합형 기능이 포함된 장애음성 판별 프로그램을 개발하였다.

神經網을 利用한 韓國語 數字音 認識에 관한 硏究 (A Study on the Spoken KOrean-Digit Recognition Using the Neural Netwok)

  • 박현화;강해동;배건ㅅ성
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.5-13
    • /
    • 1992
  • 한국어 숫자음이 단음절인 특성을 이용하여 각 숫자음에 대해 시간정합을 필요로 하지 않으면서 일정한 수를 갖는 특징벡터를 추출하여 다층구조 신경망으로 인식실험을 하였다. 음성신호의 시작점/끝점과 더불어 모음의 최대 피크점을 기준으로 해석구간을 초성, 중성, 종성의 세 부분으로 나누었으며, 음성신호의 특징벡터로는 반사계수, 켑스트럼, ${\Delta}$켑스트럼, ${\Delta}$에너지 등을 이용하여, 각 특징벡터 및 입력층과 은닉층의 노드 수에 따른 인식율 및 학습속도 등을 비교하였다. 신경망의 입력층의 특징벡터로서 반사계수를 사용한 경우보다 켑스트럼을 사용했을 때가 더 좋은 인식율을 보였다. ${\Delta}$켑스트럼의 특성이 전체 인식율에 미치는 영향이 그다지 크지 않았는데, 이는 한국어 숫자음이 단음절로 구성되어 있는 특징을 이용해 분석 구간을 stationary한 특성을 갖는 세 부분으로 구분하였기 때문이라 생각된다. 각 숫자음에 대해 150개의 켑스트럼을 사용한 경우에 97.8%의 인식율을 얻었다.

  • PDF

지능형 빌딩을 위한 디지털 통합 전관 방송 시스템 개발 (Development of Integrated Public Address System for Intelligent Building)

  • 김정숙;송치원
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.212-217
    • /
    • 2011
  • 본 논문에서는 미래 지능형 빌딩 시스템에서 요구되는 다양한 상황을 인지할 수 있는 지능형 디지털 통합 전관 방송 시스템을 개발하였다. 화재와 재난과 같은 응급 상황이 발생할 때 울리는 경보음을 인식할 수 있으며, 실내 온도와 습도 및 환경 오염도와 같은 다양한 센서 출력을 전달 받아 지능적으로 상황에 맞는 대처 방안을 필요한 곳에 개별적으로 방송할 수 있는 지능형 디지털 통합 전관 방송 시스템을 개발하였다. 외부 입력, 마이크, CD와 MP3 및 라디오 기능 등을 일체형으로 통합하고 소형화한 디지털 전관 방송 시스템을 개발하고 있으며, 시스템이 중앙 집중 제어가 가능하도록 운용 MICOM을 개발하였다. 중앙 집중 제어를 수행하기 위해 운용 MICOM은 제어 계층, 처리 계층 및 사용자 인터페이스 계층인 3계층으로 구성된다.

다변량 퍼지 의사결정트리와 사용자 적응을 이용한 손동작 인식 (Hand Gesture Recognition using Multivariate Fuzzy Decision Tree and User Adaptation)

  • 전문진;도준형;이상완;박광현;변증남
    • 로봇학회논문지
    • /
    • 제3권2호
    • /
    • pp.81-90
    • /
    • 2008
  • While increasing demand of the service for the disabled and the elderly people, assistive technologies have been developed rapidly. The natural signal of human such as voice or gesture has been applied to the system for assisting the disabled and the elderly people. As an example of such kind of human robot interface, the Soft Remote Control System has been developed by HWRS-ERC in $KAIST^[1]$. This system is a vision-based hand gesture recognition system for controlling home appliances such as television, lamp and curtain. One of the most important technologies of the system is the hand gesture recognition algorithm. The frequently occurred problems which lower the recognition rate of hand gesture are inter-person variation and intra-person variation. Intra-person variation can be handled by inducing fuzzy concept. In this paper, we propose multivariate fuzzy decision tree(MFDT) learning and classification algorithm for hand motion recognition. To recognize hand gesture of a new user, the most proper recognition model among several well trained models is selected using model selection algorithm and incrementally adapted to the user's hand gesture. For the general performance of MFDT as a classifier, we show classification rate using the benchmark data of the UCI repository. For the performance of hand gesture recognition, we tested using hand gesture data which is collected from 10 people for 15 days. The experimental results show that the classification and user adaptation performance of proposed algorithm is better than general fuzzy decision tree.

  • PDF

선박 잡음 환경에서의 강건한 음성 인식 기반 육해상 통합 관광 정보 안내 시스템 (A Land and Maritime Unified Tourism Information Guide System Based on Robust Speech Recognition in Ship Noise Environments)

  • 전광명;이장원;박지훈;이성로;이연우;맹세영;김홍국
    • 한국통신학회논문지
    • /
    • 제38C권2호
    • /
    • pp.189-195
    • /
    • 2013
  • 본 논문에서는 선박에서의 잡음 환경에 강건한 음성인식 기술을 포함하는 육해상 통합관광정보 안내 시스템을 제안한다. 대부분의 음성인식 전처리부는 차량, 배블(babble) 잡음 등의 정상특성 잡음 제거하기 위해 위너(Wiener) 필터를 이용해 왔다. 하지만 이러한 기존의 전처리부는 항해중인 선박 내에서 발생하는 비정상 잡음을 제거하는데 한계가 있다. 이러한 한계를 극복하기 위해 제안하는 시스템은 높은 관광 경로 인식 정확성을 얻기 위해 비선형 다중밴드 스펙트럴 차감법(multi-band spectral subtraction)을 적용한다. 실험 결과 제안된 시스템은 기존 대비 10 dB 신호대잡음비의 잡음 환경에서 평균 5.54%의 경로명 인식률 개선을 보였다.

레퍼런스 클럭을 이용한 객차 PI 시스템 동기화 및 자막 편집기 개발 (Synchronization of the Train PIS using the reference clock and development of a subtitle authoring tool)

  • 김정훈;장동욱;한광록
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.1-10
    • /
    • 2007
  • 본 논문은 열차 내에서 승객의 편의를 제공하고 긴급 상황에 대한 대피 안내 방송 및 자막 서비스와 광고 등의 효과를 극대화하기 위한 네트워크 기반의 승객 안내 시스템 개발에 대하여 기술한다. 기존 시스템은 영상 및 자막 그리고 음성 안내 등의 정보를 방송하기 위해 VGA 신호 분배기를 이용하고 있다. UDP와 TCP/IP 프로토콜을 적용하여 기존 시스템을 개선하고, 이 경우 발생하는 데이터 손실 및 차량 간의 동기화 문제를 해결하기 위하여 레퍼런스 클럭을 이용한다. 열차의 운행 스케줄에 따른 자동 안내 방송과 광고 효과의 향상을 위하여 다양한 3D 효과로 자막을 재생 하도록 XML 기반의 자막 편집기를 개발하였고, 시뮬레이션을 통해 성능을 평가 한다.

  • PDF

소아 망진을 위한 얼굴 특징 추출 및 영아 산통 진단을 위한 울음소리 분석 (Face Feature Extraction for Child Ocular Inspection and Diagnosis of Colics by Crying Analysis)

  • 조동욱;김봉현
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.97-104
    • /
    • 2006
  • 의사 표현 능력이 떨어지는 소아들은 질병 발생시 이를 효과적으로 자신의 불편함을 표현할 방법이 없다. 따라서 임상의들은 소아 환자의 부모들로부터 문진(inquiring)을 통해 질병 진단을 하고 있는 것이 현 실정이며 이는 잘못된 진단 결과를 초래 할 수 있는 문제점을 가지고 있다. 이를 위해 본 연구에서는 인체 오장 육부의 생체 신호가 안면과 음성에 반영되어 나타난다는 한방 원리를 이용하여 소아 망진, 소아 청진 기기를 개발한다. 그 결과 진단시 임상의들의 직관을 시각화, 객관화, 정량화하여 소아 질병 진단의 정확성을 기하고자 한다. 본 논문은 전체 개발 시스템 중 그 첫 번째 작업 수행 결과로서 소아 망진의 경우 색상 보정, YCbCr 적용과 살색 영역 선정 그리고 오관 및 명당 추출 방법 등을 개발한다. 또한 소아 청진의 경우 피치, 강도, 포먼트 분석을 통해 영아 산통 질병의 울음소리 특성을 수치화하였으며 이를 통해 임상의들의 직관을 객관화한다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증한다.

SIP에서 멀티파티 컨퍼런스를 위한 호 처리 메커니즘 설계 및 사례 연구 (Design Call Control of Mechanism for Multiparty Conference in SIP and Case Study)

  • 정동열;민준식;전서현
    • 인터넷정보학회논문지
    • /
    • 제4권5호
    • /
    • pp.77-86
    • /
    • 2003
  • 본 논문은 멀티파티 컨퍼런스를 위한 SIP 프로토콜을 확장하고 이를 근간으로 멀티파티 컨퍼런스의 한 종류인 IP기반의 다자간 회의 시스템을 구현한 결과를 설명한다. SIP 프로토콜은 다양한 세션(음성, 화상, 문자, 어플리케이션)을 개설, 수정, 종료를 담당하는 IP기반의 신호 프로토콜이다. 일반적으로 멀티파티 컨퍼런스 시스템은 실시간 데이터 전송을 위해 RTP를 사용하고 회의 개설을 위해 때에서 제안한 H.323 신호 프로토콜을 사용한다. H.323은 PSTN망에 적합하도록 제안되었기 때문에, IP망에서 적용할 때는 몇몇 가지의 문제점(초기 호 설정 시간이 오래 걸림, 프로토콜 자체의 구조가 너무 복잡하여 구현하기 난해)을 나타낸다. 이에 IETF에서는 H.323이 가지고 있는 문제점을 해결하고자 SIP 프로토콜을 제안하였다. 그러나 SIP 프로토콜은 기존 H.323과 달리 멀티파티 컨퍼런스에 관한 신호 프로토콜이 명시되어 있지 않다. 이에 본 논문에서는 SIP 명세서에서 명시된 SIP 확장성을 이용하여 멀티파티 컨퍼런스를 위한 호처리 메커니즘을 설계(SIP 확장)하고 이용하여 다자간 회의 시스템을 대해 기술한다.

  • PDF

An Integrated Emergency Call System based on Public Switched Telephone Network for Elevators

  • Lee, Guisun;Ryu, Hyunmi;Park, Sunggon;Cho, Sungguk;Jeon, Byungkook
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.69-77
    • /
    • 2019
  • Today, most of elevators have an emergency call facility for emergency situations. However, if the network installed in the elevator is also out of power, it cannot be used for the elevator remote monitoring and management. So, we develop an integrated and unified emergency call system, which can transmit not only telephone call but also data signals using PSTN(Public Switched Telephone Network) in order to remote monitoring and management of elevators, even though a power outage occurs. The proposed integrated emergency call system to process multiple data such as voice and operational information is a multi-channel board system which is composed of an emergency phone signal processing module and an operational information processing module in the control box of elevator. In addition, the RMS(remote management server) systems based on the Web consist of a dial-up server and a remote monitoring server where manages the elevator's operating information, status records, and operational faults received via the proposed integrated and unified emergency call system in real time. So even if there's a catastrophic emergency, the proposed RMS systems shall ensure and maintain the safety of passengers inside the elevator. Also, remote control of the elevator by this system should be more efficient and secure. In near future, all elevator emergency call system need to support multifunctional capabilities to transmit operational data as well as phone calls for the safety of passengers. In addition, for safer elevators, it is necessary to improve them more efficiently by combining them with high-tech technologies such as the Internet of Things and artificial intelligence.

가변 지연 MDCT/IMDCT를 이용한 오디오/음성 코덱 (Audio /Speech Codec Using Variable Delay MDCT/IMDCT)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권2호
    • /
    • pp.69-76
    • /
    • 2023
  • MDCT/IMDCT 과정을 사용하는 고품질 오디오/음성 코덱은 이전 프레임 과의 중첩-합(Overlap-add) 과정을 통해 현재 프레임을 완벽 복원 가능하다. 중첩-합 과정에서 프레임 길이 만큼의 알고리즘 지연이 발생하게 된다. 본 논문에서는 알고리즘 지연을 줄이기 위해 MDCT/IMDCT에 가변적인 위상변이를 사용하여 알고리즘 지연을 줄인 MDCT/IMDCT 과정을 제안한다. 가변 지연 MDCT/IMDCT알고리즘을 ITU-T 표준 코덱 G.729.1 코덱에 적용하여 저지연 오디오/음성 코덱을 제안하였다. MDCT/IMDCT 과정에서의 알고리즘 지연은 기존 20 ms에서 1.25ms 까지 감소시킬 수 있다. 저지연 MDCT/IMDCT를 적용한 오디오/음성 코덱의 복호화된 출력신호는 객관적 음질 시험 방법인 PESQ 시험을 통해 성능 평가하였다. 전송 지연이 감소 됨에도 불구하고 기존 방법과 음질 차이가 없음을 확인할 수 있었다.