• 제목/요약/키워드: 화자증명

검색결과 22건 처리시간 0.02초

음성처리에서 온라인 오류역전파 알고리즘의 학습속도 향상방법 (A Method on the Learning Speed Improvement of the Online Error Backpropagation Algorithm in Speech Processing)

  • 이태승;이백영;황병원
    • 한국음향학회지
    • /
    • 제21권5호
    • /
    • pp.430-437
    • /
    • 2002
  • 다층신경망 (MLP: multilayer perceptron)은 다른 패턴인식 방법에 비해 여러 가지 훌륭한 특성을 가지고 있어 음성인식 및 화자인식 영역에서 폭넓게 사용되고 있다. 그러나 다층신경망의 학습에 일반적으로 사용되는 오류역전파 (EBP: error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 화자인식이나 화자적응과 같이 실시간 처리를 요구하는 응용에서 상당한 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 다층신경망의 내부변수를 갱신하는 온라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 오류역전파 알고리즘에서는 가중치 갱신 시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률이 고정된 상태에서는 학습이 진행됨에 따라 학습에 기여하는 패턴영역이 달라지는 현상에 효과적으로 대응하지 못하는 문제가 있다. 이 문제에 대해 본 논문에서는 패턴의 기여도에 따라 가변 하는 학습률과 학습에 기여하는 패턴만을 학습에 반영하는 패턴별 가변 학습률 및 학습생략 (COIL: Changing rate and Omitting patterns in Instant Learning)방법을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

CPSP의 저주파 위상 복원을 이용한 화자 위치 추적 알고리듬의 성능 개선 (An Enhancement of Microphone Array System Using Hybrid Window Algorithm)

  • 이학주;김기만;이원철;이충용
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.213-216
    • /
    • 2000
  • 본 연구에서는 마이크로폰 어레이를 이용하여 화자의 음성신호로부터 화자의 위치를 추정하는 기존의 대표적인 알고리듬인 CPSP(Cross Power Spectrum Phase)로부터 보다 반향에 강인한 알고리듬인 저주파 위상 복원 알고리듬을 제안한다. CPSP 함수는 상호 상관관계(Cross Correlation)가 정규화 되어있는 형태를 갖는데, CPSP 함수의 최대 값 인덱스로부터 화자의 공간정보인 TDOA(Time Difference Of Arrival)를 추출한다. 그러나 CPSP 함수를 이용한 공간정보 추정 알고리듬은 실내환경에서 심각하게 일어나는 반향신호에 대해서 취약한 단점을 갖고 있다. 본 논문에서 제안하는 저주파 위상복원 알고리듬은 주파수 측면에서 반향신호가 CPSP 함수에 미치는 영향을 분석하여 반향으로 인하여 왜곡된 위상 성분을 복원함으로써 보다 신뢰도 있는 TDOA 추정을 가능하게 한다. 반향신호로 인한 CPSP의 위상은 저주파보다 고주파에서 심하게 왜곡되는데, 각각의 반향신호의 도달 시간을 기하학적 분포를 갖는 확률변수로 모델링하여 이를 수학적으로 증명하였다. 또한 실제 환경에서 채집한 음성신호를 이용한 모의 실험을 통해 개선된 알고리듬의 성능 개선을 확인하였다.

  • PDF

저주파 위상 복원 알고리듬을 이용한 화자 위치 추적 시스템의 성능 개선과 구현 (An Enhancement of Speaker Location System Using the Low-frequency Phase Restoration Algorithm and Its Implementation)

  • 이학주;차일환;윤대희;이충용
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.22-28
    • /
    • 2001
  • 본 논문에서는 마이크로폰 어레이를 통해 수신한 화자의 음성신호를 이용하여 추출된 공간정보를 통해 화자의 위치를 실시간으로 추적하는 알고리듬을 개선하고 이를 실시간으로 구현하였다. 기존의 대표적인 화자 위치 추정 알고리듬인 CPSP (Cross Power, Spectrum Phase) 함수는 상호 상관관계 (Cross Correlation)가 정규화 되어있는 형태를 갖는데, CPSP 함수의 최대값 인덱스로부터 화자의 공간정보인 TDOA(Time Difference Of Arrival)를 추출하게 된다. 그러나 CPSP함수를 이용한 공간정보 추정 알고리듬은 실내환경에서 심각하게 일어나는 반향신호에 대해서 취약한 단점을 갖고 있다. 본 논문에서 제안하는 저주파 위상 복원 알고리듬은 주파수 측면에서 반향신호가CPSP함수에 미치는 영향을 분석하여 반향으로 인하여 왜곡된 위상 성분을 복원함으로써 보다 신뢰도 있는 TDOA 추정을 가능하게 한다. 반향신호로 인한 CPSP의 위상은 저주파보다 고주파에서 심하게 왜곡되는데, 각각의 반향신호의 도달 시간을 기하학적 분포를 갖는 확률변수로 모델링하여 이를 수학적으로 증명하였다. 제안한 시스템의 성능분석을 위해 DSP를 이용한 실시간 시스템을 구현하여 기존 CPSP 알고리듬과 제안된 알고리듬을 적용한 시스템을 실제 환경에서 비교 실험을 수행한 결과 제안된 알고리듬을 적용한 시스템에서 약 15샘플 이상 TDOA 추정 오차가 줄어들고 있음을 확인하였다.

  • PDF

모의 음성 모델을 이용한 효과적인 구개인두부전증 환자 음성 인식 (Effective Recognition of Velopharyngeal Insufficiency (VPI) Patient's Speech Using Simulated Speech Model)

  • 성미영;권택균;성명훈;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.1243-1250
    • /
    • 2015
  • 본 논문에서는 VPI 환자 음성을 정상인 음성으로 복원하기 위한 기술의 단계로서 효과적인 VPI 음성 인식 기술을 소개한다. 소량의 VPI 환자 음성을 모델 적응에 효과적으로 사용하기 위해 정상인의 모의 음성을 이용하여 화자 적응을 위한 사전 모델로 이용하는 기법을 제안한다. MLLR 기법을 이용한 화자 적응을 통해 평균 83.60%의 인식률을 보이고, 모의 음성 모델을 화자 적응의 사전 모델로 이용함으로써 평균 6.38%의 인식률 향상을 가져온다. 음소 인식 평가 결과는 제안한 화자 적응 방식이 대폭적인 음성 인식 성능 향상을 가져오는 것을 증명한다. 이러한 결과는 본 논문에서 제안하는 모의 음성 모델을 이용한 화자 적응 기법이 대량의 VPI 환자 음성을 취득하기 어려운 조건에서 보다 향상된 성능의 VPI 환자 음성 인식기를 구축하는데 효과적임을 입증한다.

화자분할을 위한 지역적 특성 기반 밀도 클러스터링 (Local Distribution Based Density Clustering for Speaker Diarization)

  • 노진상;손수원;김성수;이재원;고한석
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.303-309
    • /
    • 2015
  • 화자 분할은 사전에 분류되지 않은 데이터를 각각의 화자로 분류하는 연구이며 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 간결함과 계산의 효율성으로 인해 화자분할 분야에 널리 사용되어 왔다. 그러나 클러스터의 데이터들이 공간적이지 않으며 서로 다른 클러스터가 근접하여 경계를 공유할 때 오버클러스터링 문제가 발생하여 DBSCAN의 성능이 하락한다. 본 논문에서는 DBSCAN과 문제점을 설명하고, 개체의 지역적 특성에 기반한 밀도 기반 클러스터링 알고리즘을 제안한다. 제안하는 알고리즘은 개체의 지역적 밀도와 분산의 정도에 따라 가변적인 판단 기준을 탐색에 이용한다. DBSCAN과 제안 기법의 실험을 통해 성능을 비교하고 제안 기법의 효용을 보인다. 실험 결과 제안한 방법은 오버클러스터링이 발생하지 않으며 DBSCAN에 비해 보다 높은 정확도를 보여 지역적 특성을 이용한 접근 방법이 효과적임을 증명한다.

한국어 화자를 위한 외국어 학습 코스웨어의 모델링 (Modelling Foreign Language Learning Courseware for Korean Speakers)

  • 윤애선;김경희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.418-425
    • /
    • 1999
  • 한국어 화자를 위한 외국어 학습 코스웨어를 학습 목표언어 독립적으로 모델링하는 방안을 모색하기 위한 외국어 학습 이론과 웹상의 자료 제시 유형에 관해 논하고 기개발된 플랫폼 LangEdu를 살펴봄으로써 그 실현 가능성을 증명하고 있다. 체계적인 학습 자료 제시와 사용자간의 긴밀한 상호 작용 및 손쉬운 관리가 가능하도록 설계되어진 이 플랫폼을 이용하면 전산 전문 지식이 없는 교과 전문가가 큰 어려움이 없이 개별 외국어 학습 코스웨어를 제작할 수 있다. 따라서, 이 방법론은 비용효과적일 뿐만 아니라 교과전문가의 적극적인 참여를 유도하여 양질의 코스웨어 제작에 기여한다.

  • PDF

MLP에 기반한 고성능 화자증명 시스템 (High Performance MLP-based Speaker Verification System)

  • Lee, Tae-Seung;Park, Ho-Jin
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.571-573
    • /
    • 2004
  • Speaker verification systems based on multilayer perceptrons (MLPs) have good prospects in reliability and flexibility required as a successful authentication system. However, the poor learning speed of the error backpropagation (EBP) which is representative learning method of MLPs is the major defect to be complemented to achieve real-time user enrollments. In this paper, we implement an MLP-based speaker verification system and apply the existing two methods of the omitting patterns in instant learning (OIL) and the discriminative cohort speakers (DCS) to approach real-time enrollment. An evaluation of the system on a Korean speech database demonstrates the feasibility of the system as a speaker verification system of high performance.

  • PDF

패턴인식의 MLP 고속학습 알고리즘 (A Fast-Loaming Algorithm for MLP in Pattern Recognition)

  • 이태승;최호진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권3호
    • /
    • pp.344-355
    • /
    • 2002
  • MLP(multilayer perceptron)는 다른 패턴인식 방법에 비해 여러 가지 훌륭한 특성을 가지고 있어 패턴인식에서 폭넓게 사용되고 있다. 그러나 MLP의 학습에 일반적으로 사용되는 EBP(error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있다. 패턴인식에 사용되는 학습 데이타는 풍부한 중복특성을 내포하고 있으므로 패턴마다 MLP의 내부변수를 갱신하는 온라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 EBP 알고리즘에서는 내부변수 갱신시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 웅용에서 상당한 속도개선을 얻을 수 있지만, 학습률이 고정되고 학습이 진행됨에 따라 학습패턴 영역이 달라지는 학습과정의 각 단계에 효과적으로 대웅하지 못하는 문제가 있다. 이 문제에 대해 본 논문에서는 학습과정을 세 단계로 정의하고, 각 단계별로 필요한 패턴만을 학습에 반영하는 패턴별 가변학습속도 및 학습생략(ILVRS) 방법을 제안한다. ILVRS의 기본개념은 다음과 같다. 학습단계마다 학습에 필요한 패턴의 부분이 달라지므로 이를 구별 하여 학습에 적용할 수 있도록 (1)패턴마다 발생하는 오류치를 적절한 범위 이내로 제한하여 가변 학습률로 사용하고, (2)학습이 진행됨에 따라 불필요한 부분의 패턴을 학습에서 생략한다. 제안한 ILVRS의 성능을 입증하기 위해 본 논문에서는 패턴인식 응용의 한 갈래인 화자증명을 실험하고 그 결과를 제시한다.

패턴인식에서 온라인 오류역전파 알고리즘의 학습속도 향상방법 (An Improvement of the Outline Mede Error Backpropagation Algorithm Learning Speed for Pattern Recognition)

  • 이태승;황병원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.616-618
    • /
    • 2002
  • MLP(multilayer perceptron)는 다른 패턴인식 방법에 비해 몇 가지 이점이 있어 다양한 문제영역에서 사용되고 있다 그러나 MLP의 학습에 일반적으로 사용되는 EBP(error backpropagation) 알고리즘은 학습시간이 비교적 오래 걸린다는 단점이 있으며, 이는 실시간 처리를 요구하는 문제나 대규모 데이터 및 MLP 구조로 인해 학습시간이 상당히 긴 문제에서 제약으로 작용한다. 패턴인식에 사용되는 학습데이터는 풍부한 중복특성을 내포하고 있으므로 패턴마다 MLP의 내부변수를 갱신하는 은라인 계열의 학습방식이 속도의 향상에 상당한 효과가 있다. 일반적인 온라인 EBP 알고리즘에서는 내부 가중치 갱신시 고정된 학습률을 적용한다. 고정 학습률을 적절히 선택함으로써 패턴인식 응용에서 상당한 속도개선을 얻을 수 있지만, 학습률을 고정함으로써 온라인 방식에서 패턴별 갱신의 특성을 완전히 활용하지 못하는 비효율성이 발생한다. 또한, 학습도중 패턴군이 학습된 패턴과 그렇지 못한 패턴으로 나뉘고 이 가운데 학습된 패턴은 학습을 위한 계산에 포함될 필요가 없음에도 불구하고, 기존의 온라인 EBP에서는 에폭에 할당된 모든 패턴을 일률적으로 계산에 포함시킨다. 이 문제에 대해 본 논문에서는 학습이 진행됨에 따라 패턴마다 적절한 학습률을 적용하고 필요한 패턴만을 학습에 반영하는 패턴별 가변학습률 및 학습생략(COIL) 방댑을 제안한다. 제안한 COIL의 성능을 입증하기 위해 화자증명과 음성인식을 실험하고 그 결과를 제시한다.

  • PDF

임베디드 직렬 다중 생체 인식 시스템 개발에 관한 연구 (A Study on the Development of Embedded Serial Multi-modal Biometrics Recognition System)

  • 김정훈;권순량
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.49-54
    • /
    • 2006
  • 현재의 지문 인식 시스템은 지문 패턴의 복제와 지문 특징점의 해킹이라는 불안한 요소가 잠재되어 있어, 시스템 오동작의 주요 원인이 되기도 한다. 이에 본 논문에서는 신체의 일부인 지문을 주 핵심 인식기로 사용하고, 여기에 최근 널리 이용 되고 있는 화자 인증을 이용하여 직렬 형태의 다중 생체인식 시스템을 구현하였다. 구현된 시스템은 다중생체인식시스템으로 먼저 음성에 대한 인증과정이 성공하면 지문에 대한 인식과정을 수행하는 구조로 되어있다. 또한 효율적인 실시간 인증 처리를 위해 기존의 음성 인식 알고리즘 중에서 화자 종속형인 DTW(Dynamic Time Waning) 알고리즘을 사용하였으며, 지문 인식 알고리즘으로는 계산량을 고려하여 인공지능 기법인 KSOM(Kohonen Self-Organizing feature Map) 알고리즘을 적용하였다. 본 논문에서 구현한 다중생체 인식시스템을 실험한 결과 지문과 음성을 각각 이용한 단일인식시스템보다 본인거부율은 $2\~7\%$정도 떨어졌지만, 인식시스템에서 가장 중요한 요소인 타인수락율은 전혀 발생하지 않음을 확인하였다. 아울러 인식테스트 시간 또한 기존의 단일 생체 인식 시스템과 차이가 거의 없었으며, 인식에 걸린 시간은 평균 1.5초 정도였다. 이에 구현된 다중 생체 인의 시스템은 여러 가지 실험 결과 단일 인식 시스템보다 더 효율적인 보안 시스템임을 증명하였다.