• 제목/요약/키워드: 음성다중연구

검색결과 149건 처리시간 0.028초

실시간 음성 다이얼링 시스템 구현을 위한 연결어 인식에 관한 연구 (A Study on Connected Word Recognition for the Implementation of a Real-Time Voice Dialing System)

  • 김천영;양진우;유형근;이형준;홍진우;이강성;안태옥
    • 한국음향학회지
    • /
    • 제12권3호
    • /
    • pp.13-25
    • /
    • 1993
  • 본 논문은 음성 다이얼링 시스템을 구현하기 위한 연결어 인식에 관한 연구이다. 적용된 인식 알고리즘은 기준패턴을 생성할 때 DMS 모델을 이용한 One-stage DMS/DP 알고리즘이고, 인식 대상어는 광운대학교 부서명 150 단어이다. 연결어 인식을 실시간으로 처리하기 위한 방법으로써 본 논문에서는 음절과 단어 단위의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20 구간의 DMS 템플리트를 구성하여 실험하였고 이 실험결과로부터 실시간과 인식률을 고려한 최적의 인식은 단어단위 템플리트에서 20구간의 DMS 모델을 적용하였을 때 수행되었고, 이때 다중화자종속과 화자독립의 인식률은 각각 97.2%, 86.8%이다. 실험된 결과를 이용하여 음성 다이얼링 모델 시스템을 DSP 전용칩인 TMS320C30 프로세서를 내장한 DSP 보오드, 486 PC와 DIAL 모뎀을 이용해서 구현하였고, 전체 다이얼링 시간은 약 7~14초가 소요되었다.

  • PDF

HTML5를 활용한 포토앨범/다이어리 스마트폰 어플리케이션 개발 (Development of HTML5 based Photo Album/Diary Smartphone Application)

  • 김유미;서지은;오세창;황지환;최민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.421-423
    • /
    • 2012
  • 본 연구에서 개발한 포토앨범/다이어리 어플리케이션은 아기의 성장과정을 사진/음성으로 기록할 수 있는 다이어리 기능을 제공한다. 또한, 아기와 관련된 각종 기념일(생일, 예방접종일 등)에 대한 일정을 관리할 수 있다. 음성녹음도 지원하기 때문에 아기와 부모의 대화, 그리고 부모의 음성일기 등을 빠짐없이 기록할 수 있다. HTML5기반 하이브리드 애플리케이션(Hybrid Application)은 다중 플랫폼을 지원하기 때문에 한번 개발하면 여러 플랫폼에서 사용할 수 있으므로 개발비용을 절약할 수 있을 뿐더러, HTML5 Device API를 사용함으로써 네이티브 앱과 동일하게 디바이스를 제어할 수 있다. 본 연구에서는 포토앨범/다이어리 스마트폰 애플리케이션을 HTML5 개발하여 아이폰 iOS와 안드로이드를 지원하며, 다양한 스마트폰 센서/장치에 접근할 수 있도록 개발되었다.

피치동기 다중 스펙트럼을 이용한 청각보철장치의 음성신호처리 및 DSP 시스템 설계 (Speech Signal Processing using Pitch Synchronous Multi-Spectra and DSP System Design in Cochlear Implant)

  • 신중인;박석준;신대규;이재혁;박상희
    • 대한의용생체공학회:의공학회지
    • /
    • 제20권4호
    • /
    • pp.495-502
    • /
    • 1999
  • 본 연구에서는 내이의 손상에 의한 감각성 난청환자들의 청력회복을 위한 청각보철장치내의 가장 중요한 부분인 어음발췌기의 음성신호처리 알고리즘 및 하드웨어를 개발하였다. 증폭, 저역통과 필터, AGC의 역할을 수행하는 외이 및 중이는 아날로그 시스템으로 모델링하였고, 시간 지연된 다중 필터 및 변환기의 역할을 수행하는 내이는 실시간 처리가 가능한 고속 DSP 회로로 구현되었다. 특히 내이의 기저막특성은 비선형 자중 필터뱅크로 모델링한후, 피치와 동기화된 다중 스펙트럼을 출력할 수 있는 (pitch-synchronous multi-spectra : PSMS) 전략을 이용함으로서 청각계의 tonotopy와 periodicity를 만족시킬 수 있었다. 또한 주요, 음성신호처리의 대부분이 S/W로 수행되므로 다양한 실험을 위한 시스템 수정이 용이하며, C 언어로 프로그램이 개발되었기 때문에 다른 프로세스를 사용하는 H/W에도 쉽게 이식될 수 있다는 장점을 가진다.

  • PDF

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

임베디드 직렬 다중 생체 인식 시스템 개발에 관한 연구 (A Study on the Development of Embedded Serial Multi-modal Biometrics Recognition System)

  • 김정훈;권순량
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.49-54
    • /
    • 2006
  • 현재의 지문 인식 시스템은 지문 패턴의 복제와 지문 특징점의 해킹이라는 불안한 요소가 잠재되어 있어, 시스템 오동작의 주요 원인이 되기도 한다. 이에 본 논문에서는 신체의 일부인 지문을 주 핵심 인식기로 사용하고, 여기에 최근 널리 이용 되고 있는 화자 인증을 이용하여 직렬 형태의 다중 생체인식 시스템을 구현하였다. 구현된 시스템은 다중생체인식시스템으로 먼저 음성에 대한 인증과정이 성공하면 지문에 대한 인식과정을 수행하는 구조로 되어있다. 또한 효율적인 실시간 인증 처리를 위해 기존의 음성 인식 알고리즘 중에서 화자 종속형인 DTW(Dynamic Time Waning) 알고리즘을 사용하였으며, 지문 인식 알고리즘으로는 계산량을 고려하여 인공지능 기법인 KSOM(Kohonen Self-Organizing feature Map) 알고리즘을 적용하였다. 본 논문에서 구현한 다중생체 인식시스템을 실험한 결과 지문과 음성을 각각 이용한 단일인식시스템보다 본인거부율은 $2\~7\%$정도 떨어졌지만, 인식시스템에서 가장 중요한 요소인 타인수락율은 전혀 발생하지 않음을 확인하였다. 아울러 인식테스트 시간 또한 기존의 단일 생체 인식 시스템과 차이가 거의 없었으며, 인식에 걸린 시간은 평균 1.5초 정도였다. 이에 구현된 다중 생체 인의 시스템은 여러 가지 실험 결과 단일 인식 시스템보다 더 효율적인 보안 시스템임을 증명하였다.

부호분할 다중화 기법을 이용한 음성 회선 확대 방안연구 (The Study on The Voice Channel Expansion Using Code Division Multiplexing)

  • 권기형;진용옥
    • 한국통신학회논문지
    • /
    • 제25권8A호
    • /
    • pp.1206-1212
    • /
    • 2000
  • 국내 유선 전화망은 가입자 구간은 한회선씩을 사용하며 전송망 구간은 TDM을 사용하며 음성 한 채널에 64Kbps를 할당하고 있으며 특히 E1의 경우 회선 당 음성 30채널에 2.048Mbps로 구성되어있다 반면에 이동 전화망은 가입자 구간은 수용용량을 늘리고 효율화시키기 위해 CDMA방식을 이용하고 있지만 전송망 구간은 유선망과 마찬가지로 TDM방식을 이용하고 있다 본논문에서는 유선의 가입자 구간에 대해서도 CDM 기법을 이용하여 채널을 증가시켜 회선의 효율성을 증가시키고 비용을 저렴하게 할 수 있음을 보이고 있다.

  • PDF

연속음성 인식 및 합성을 위한 운율 경계강도 예측 모델 (Prosody Boundary Index Prediction Model for Continuous Speech Recognition and Speech Synthesis)

  • 강평수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.99-102
    • /
    • 1998
  • 본 연구에서는 연속음 인식과 합성을 위한 경계강도 예측 모델을 제안한다. 운율 경계 강도는 음성 합성에서는 운율구 사이의 휴지기의 길이 조절로 합성음의 자연도에 기여를 하고 연속음 인식에서는 인식과정에서 나타나는 후보문장의 선별 과정에 특징변수가 되어 인식률 향상에 큰 역할을 한다. 음성학적으로 발화된 문장은 큰 경계 단위로 볼 때 운율구 형태로 이루어졌다고 볼 수 있으며 구의 경계는 문장의 문법적인 특징과 관련을 지을 수 있게 된다. 본 논문에서는 운율 경계 강도 수준을 4로 하고 문법적인 특징으로는 트리구조 방법으로 결정된 오른쪽 가지의 수식의 깊이(rd)와 link grammar방법으로 결정된 음절수(syl), 연결거리(torig)를 bigram 모형과 결합하여 운율적 경계 강도를 예측한다. 예측 모형으로는 다중 회귀 모형과 Marcov 모형을 제안한다. 이들 모형으로 낭독체 200 문장에 대해 실험한 결과 76%로 경계 강도를 예측할 수 있었다.

  • PDF

셀룰러 패켓 라디오망용 음성/데이타 집적 다중 엑세스 프로토콜의 성능 분석에 관한 연구 (A Study on the Performances of the Voice/Data Integrated Multiple Access Protocols for Cellular Packet Radio Networks)

  • 강군화;조동호
    • 한국통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.1304-1314
    • /
    • 1993
  • 최근 몇 년 동안 이동통신의 편이성으로 인해 이동통신의 수요가 급증하고 있어 수년내에 새로운 셀룰러망으로의 진화가 절실히 요구되어지고 있다. 따라서 본 논문에서는 셀룰러망의 전화 전망에 대해서 살펴보고, 차세대 셀룰러 패켓 라디오망에서의 새로운 음성/데이타 집적 다중 엑세스 프로토콜로 가변경계 TDMA/BTMA 프로토콜을 제안하며 컴퓨터 시뮬레이션을 통해 PRMA 프로토콜과 가변경계 TDMA/BTMA프로토콜의 성능을 비교분석한다. 시뮬레이션 결과, 지연에 민감한 음성 트래픽에는 TDMA프로토콜을 사용하고, 패켓 손실에 민감한 데이타 트래픽에는 BTMA프로토콜을 사용하며, 동기신호와 제어정보 및 호 접속 계수기를 사용하여 음성과 데이타영역의 경계를 가변화시킨 가변경계 TDMA/BTMA프로토콜이 PRMA 프로토콜 보다 우수한 성능을 나타냄을 알 수 있었다.

  • PDF

기계학습에 의한 후두 장애음성 식별기의 성능 비교 (Performance comparison on vocal cords disordered voice discrimination via machine learning methods)

  • 조철우;왕수건;권익환
    • 말소리와 음성과학
    • /
    • 제14권4호
    • /
    • pp.35-43
    • /
    • 2022
  • 본 논문은 후두 장애음성 데이터의 식별률을 CNN과 기계학습 앙상블 학습 방법에 의해 개선하는 방법에 대한 연구이다. 일반적으로 후두 장애음성 데이터는 그 수가 적으므로 통계적 방법에 의해 식별기가 구성되더라도, 훈련 방식에 따라 과적합으로 인해 일어나는 현상으로 인해 외부 데이터에 노출될 시 식별률의 저하가 발생할 수 있다. 본 연구에서는 다양한 정확도를 갖도록 훈련된 CNN 모델과 기계학습 모델로부터 도출된 결과를 다중 투표 방식으로 결합하여 원래의 훈련된 모델에 비해 향상된 분류 효율을 갖도록 하는 방법과 함께, 기존의 기계학습 중 앙상블 방법을 적용해 보고 그 결과를 확인하였다. 알고리즘을 훈련하고 검증하기 위해 PNUH(Pusan National University Hospital) 데이터셋을 이용하였다. 데이터셋에는 정상음성과 양성종양 및 악성 종양의 음성 데이터가 포함되어 있다. 실험에서는 정상 및 양성 종양과 악성종양을 구분하는 시도를 하였다. 실험결과 random forest 방법이 가장 우수한 앙상블 방법으로 나타났으며 85%의 식별률을 보였다.

DMS 모델과 퍼지 개념을 이용한 HMM에 기초를 둔 음성 인식 (HMM-based Speech Recognition using DMS Model and Fuzzy Concept)

  • 안태옥
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.964-969
    • /
    • 2008
  • 본 논문은 화자 독립의 음성인식을 위한 연구로서, DMS(Dynamic Multi-Section) 모델에 의한 DMSVQ(Dynamic Multi-Section Vector Quantization) 코드북과 퍼지 개념을 이용한 HMM(Hidden Markov Model) 음성인식 방법을 제안한다. 제안된 인식 방법에서는 학습 데이터를 동적으로 몇 개의 구간(section)으로 분할한 후, 각 구간마다 DMSVQ 코드북(codebook)으로 부터 거리값이 작은 순으로 퍼지 법칙을 적용함으로써 적당한 확률값을 준 다중 관측열(multi-observation sequences)을 구한다. 그런 다음, 이 다중 관측열을 이용하여 HMM을 작성하고, 인식시에는 관측 확률값이 가장 높은 것을 인식된 것으로 선택한다. 제안된 방법에 의한 인식 실험은 기존의 다양한 인식 실험들과 비교를 위해 동일한 조건하에서 같은 데이터로 수행 하였다. 실험 결과로서, 본 연구에서 제안한 방법이 기존의 방법들보다 우수한 방법임을 입증하였다.