• 제목/요약/키워드: Speech speed

검색결과 238건 처리시간 0.025초

오류 역전도 알고리즘의 학습속도 향상기법 (An Enhancement of Learning Speed of the Error - Backpropagation Algorithm)

  • 심범식;정의용;윤충화;강경식
    • 한국정보처리학회논문지
    • /
    • 제4권7호
    • /
    • pp.1759-1769
    • /
    • 1997
  • 다층신경회로망의 학습방법인 오류역전도 알고리즘은 연관기억장치, 음성인식, 패턴인식, 로보틱스등과 같은 다양한 응용분야에 널리 사용되고 있다. 그럼에도 불구하고 계속 많은 논문들이 역전도 알고리즘에 대해 발표되고 있는 실정이다. 이러한 연구 동향의 주된 이유는, 뉴런 갯수와 학습 패턴의 갯수가 큰 경우에 역전도 알고리즘의 학습속도가 상당히 느리다는 사실때문이다. 본 연구에서는 가변학습율, 가변모멘텀율, 그리고 시그모이드 함수의 가변기울기를 이용한 새로운 학습속도 가속기법을 개발하였다. 학습이 수행되는 도중에, 이러한 파라메터들은 전체 오류의 변화량에 따라 연속적으로 조정되며, 제안된 기법은 기존의 역전도 알고리즘에 비해 획기적으로 학습시간을 단축시키는 결과를 보였다. 제안된 기법의 효율성을 입증하기 위하여, 처음에는 난수발생기로 생성한 이진 데이터를 이용하여 에포크(epoch) 횟수를 비교할 때 훌륭한 속도 향상을 보였으며, 또한, 기계학습(machine learning)의 벤치마크 학습자료로 많이 사용되는 이진 Monk's data, 4, 5, 6, 7비트 패리티 검사 문제와 실수 Iris data에도 적용하였다.

  • PDF

GPGPU 기반 Convolutional Neural Network의 효율적인 스레드 할당 기법 (Efficient Thread Allocation Method of Convolutional Neural Network based on GPGPU)

  • 김민철;이광엽
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권10호
    • /
    • pp.935-943
    • /
    • 2017
  • 많은 양의 데이터 기반으로 학습하는 neural network 중 이미지 분류나 음성 인식 등에 사용되어 지고 있는 CNN(Convolution neural network)는 현재까지도 우수한 성능을 가진 구조로 계속적으로 발전되고 있다. 제한된 자원을 가진 임베디드 시스템에서 활용하기에는 많은 어려움이 있다. 그래서 미리 학습된 가중치를 사용하지만 여전히 한계점이 있기 때문에 이를 해결하기 위해 GPU의 범용 연산을 위해서 사용하는 GP-GPU(General-Purpose computing on Graphics Processing Units)를 활용하는 추세다. CNN은 단순하고 반복적인 연산을 수행하기 때문에 SIMT(Single Instruction Multiple Thread)기반의 GPGPU에서 스레드 할당과 활용 방법에 따라 연산 속도가 많이 달라진다. 스레드로 Convolution 연산과 Pooling 연산을 수행할 때 쉬어야 하는 스레드가 발생하는 데 이러한 문제를 해결하기 위해 남은 스레드가 다음 피쳐맵과 커널 계산에 활용되는 방법을 사용함으로써 연산 속도를 증가시켰다.

웨이블렛 기반 적응 알고리즘의 계산량 감소에 적합한 Fast running FIR filter에 관한 연구 (fast running FIR filter structure based on Wavelet adaptive algorithm for computational complexity)

  • 이재균;이채욱
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.250-255
    • /
    • 2005
  • 본 논문에서는 적응 신호처리의 수렴속도를 향상 시키고 복잡한 계산량을 줄이는 새로운 필터 구조를 제안한다. 그리고 제안한 알고리즘을 웨이블렛 기반 적응 알고리즘에 적용한다. 실제로 합성 음성을 사용하여 적응 잡음 제거기에 적용하여 컴퓨터 시뮬레이션을 통해 제안한 알고리즘과 기존 알고리즘과의 성능을 비교한다. 그 결과 변환 영역 알고리즘은 기존의 시간영역의 알고리즘보다 수렴속도의 향상을 보였고, 웨이블렛 알고리즘, short-length fast running FIR 알고리즘, fast-short-length fast FIR 알고리즘 그리고 제안한 알고리즘에 대한 비교 연구를 수행하였다.

  • PDF

다층신경망 기반 화자증명 시스템에서 학습 데이터 감축을 통한 화자등록속도 향상방법 (A Method on the Improvement of Speaker Enrolling Speed for a Multilayer Perceptron Based Speaker Verification System through Reducing Learning Data)

  • 이백영;황병원;이태승
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.585-591
    • /
    • 2002
  • 다층 신경망 (MLP: multilayer perceptron)은 기존의 패턴인식 방법에 비해 몇 가지 이점을 제공하지만 학습에 비교적 많은 시간을 요구한다. 이 점은 화자증명 시스템의 인식방법으로서 다층 신경망을 사용할 경우 등록시간이 길어지는 문제를 발생시킨다. 본 논문에서는 기존의 시스템에서 채택한 화자군집 방법을 응용하여 다층 신경망 학습에 필요한 배경화자 수를 줄임으로써 화자등록 시간을 단축하는 방법을 제안하고, 지속음을 인식단위로 하는 다층 신경망 화자증명 시스템에 이 방법을 적용한 실험결과를 통해 그 효과를 확인한다.

유비쿼터스 환경을 위한 하프미러형 인터페이스 시스템 개발과 응용 (Development of Half-Mirror Interface System and Its Application for Ubiquitous Environment)

  • 권영준;김대진;이상완;변증남
    • 제어로봇시스템학회논문지
    • /
    • 제11권12호
    • /
    • pp.1020-1026
    • /
    • 2005
  • In the era of ubiquitous computing, human-friendly man-machine interface is getting more attention due to its possibility to offer convenient services. For this, in this paper, we introduce a 'Half-Mirror Interface System (HMIS)' as a novel type of human-friendly man-machine interfaces. Basically, HMIS consists of half-mirror, USB-Webcam, microphone, 2ch-speaker, and high-speed processing unit. In our HMIS, two principal operation modes are selected by the existence of the user in front of it. The first one, 'mirror-mode', is activated when the user's face is detected via USB-Webcam. In this mode, HMIS provides three basic functions such as 1) make-up assistance by magnifying an interested facial component and TTS (Text-To-Speech) guide for appropriate make-up, 2) Daily weather information provider via WWW service, 3) Health monitoring/diagnosis service using Chinese medicine knowledge. The second one, 'display-mode' is designed to show decorative pictures, family photos, art paintings and so on. This mode is activated when the user's face is not detected for a time being. In display-mode, we also added a 'healing-window' function and 'healing-music player' function for user's psychological comfort and/or relaxation. All these functions are accessible by commercially available voice synthesis/recognition package.

음향 반향 제어를 위한 가변수렴인자를 갖는 잡음에 강건한 적응 NLMS 알고리즘 (A Noise-Robust Adaptive NLMS Algorithm with Variable Convergence Factor for Acoustic Echo Cancellation)

  • 박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제2권1호
    • /
    • pp.99-108
    • /
    • 1999
  • 본 논문에서는 계산량이 크게 증가하지 않으면서 음향 반향 제거기의 성능을 향상시키는 잡음에 강건한 알고리즘을 제안한다. 제안하는 알고리즘은 NLMS 알고리즘을 기반으로 적응 상수를 기준 입력신호와 마이크 입력신호의 전력합으로 정규화한다. 마이크 입력으로 근단화자의음성신호와 잡음이 입력되면 그 전력만큼 적응 상수가 작아지기 때문에 이들 주변 잡음신호에 의한 계수 오조정을 줄일 수있다. 따라서 제안하는 알고리즘은 동시통화와 주변 잡음이 있는 상황에서 반향 제거 기능을 잘 수행한다. 제안하는 알고리즘의 수렴 속도는 반향 신호가 10~20 dBSPL 정도 감쇠되기 때문에 NLMS 알고리즘에 비해서 크게 느려지지 않는다. 본 논문에서는 제안하는 알고리즘의 성능을 분석하고 기존의 알고리즘과 비교한다.

  • PDF

Gram-Schmidt 직교화를 이용한 affine projection 알고리즘의 근사적 구현 (An approximated implementation of affine projection algorithm using Gram-Scheme orthogonalization)

  • 김은숙;정양원;박선준;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제24권9B호
    • /
    • pp.1785-1794
    • /
    • 1999
  • Affine projection 알고리즘은 RLS보다 적은 계산량으로 LMS보다 우수한 수렴성능을 나타낸다. 그러나 affine projection 알고리즘은 역행렬 연산을 필요로 하기 때문에 여전히 LMS에 비해 과중한 계산을 필요로 한다. 본 논문에서는 affine projection 알고리즘을 분석하여 이 알고리즘이 Gram-Scheme 구조로 해석될 수 있음을 보이고 이를 이용하여 NLMS와 비슷한 계산량으로 affine projection 알고리즘을 근사적으로 구현할 수 있는 새로운 알고리즘을 제안하였다. 제안한 방법은 NLMS와 비슷한 계산량을 가지면서 기존의 affine projection 알고리즘과 비슷한 수렴성능을 나타내었다.

  • PDF

음성인식용 DTW PE의 IC화를 위한 ADD 및 ABS 회로의 설계

  • 정광재;문홍진;최규훈;김종교
    • 한국통신학회논문지
    • /
    • 제15권8호
    • /
    • pp.648-658
    • /
    • 1990
  • 음성 인식에 있어서 계산 속도를 보다 빠르게 하기 위한 여러 방법중에 systolic array를 이용하여 multiple processign하는 방법이 있다. 이러한 systolic array의 각 연산은 pipeline 방식으로 수행되며, 이 연산은 Processing Element(PE)로 multiprocessing되어 계산 효율을 증대시키게 된다. 이 DTW용 PE cell은 크게 세가지의 블록으로 대별된다. 즉 MIN block, ADD block 그리고 ABS block인데, 본 연구에서는 이들 세가지 블록중 "ADD"와 "ABS" 대한 회로설계및 검증을 행하였으며, 3$\mu$m CMOS N-well 설계 규칙에 따라 두 블록에 대한 각각의 레이아웃과 전체 레이아웃을 설계한 후 설계 규칙 검사(DRC)를 마쳤다. 설계 규칙 검사(DRC)를 마쳤다.

  • PDF

Speaker Tracking Using Eigendecomposition and an Index Tree of Reference Models

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권5호
    • /
    • pp.741-751
    • /
    • 2011
  • This paper focuses on online speaker tracking for telephone conversations and broadcast news. Since the online applicability imposes some limitations on the tracking strategy, such as data insufficiency, a reliable approach should be applied to compensate for this shortage. In this framework, a set of reference speaker models are used as side information to facilitate online tracking. To improve the indexing accuracy, adaptation approaches in eigenvoice decomposition space are proposed in this paper. We believe that the eigenvoice adaptation techniques would help to embed the speaker space in the models and hence enrich the generality of the selected speaker models. Also, an index structure of the reference models is proposed to speed up the search in the model space. The proposed framework is evaluated on 2002 Rich Transcription Broadcast News and Conversational Telephone Speech corpus as well as a synthetic dataset. The indexing errors of the proposed framework on telephone conversations, broadcast news, and synthetic dataset are 8.77%, 9.36%, and 12.4%, respectively. Using the index tree structure approach, the run time of the proposed framework is improved by 22%.

統計的인 方法에 依한 連結音의 音素分割 알고리듬 (A Segmentation Algorithm of the Connected Word Speech by Statistical Method)

  • 조정호;홍재근;김수중
    • 대한전자공학회논문지
    • /
    • 제26권4호
    • /
    • pp.151-163
    • /
    • 1989
  • 本 論文에서는 音聲信號의 音素分割을 위한 統計的인 方法을 硏究하였다. 이 方法은 3個의 AR 모델을 使用하여, 이 中 2個의 모델은 音聲의 스펙트럼 變化前 및 變化後의 安定된 部分에서 求해지고 이들 間의 距離가 커지면 音素가 바뀐 것으로 간주된다. 다른 한 모델은 두 固定 모델 사이에 位置하며 音素間의 境界를 推定하는데 使用된다. 이 音素分割 알고리듬을 連結音에 對해 試驗해 본 結果, 從來의 方法에 비해 音素의 境界點을 좀더 正確히 찾을 수 있고, 또한 過度分割 誤謬도 줄일 수 있었다.

  • PDF