• Title/Summary/Keyword: 인식실험

Search Result 6,444, Processing Time 0.036 seconds

A Study on the Features for Building Korean Digit Recognition System Based on Multilayer Perceptron (다층 퍼셉트론에 기반한 한국어 숫자음 인식시스템 구현을 위한 특징 연구)

  • 김인철;김대영
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.6 no.4
    • /
    • pp.81-88
    • /
    • 2001
  • In this paper, a Korean digit recognition system based on a multilayer Perceptron is implemented. We also investigate the performance of widely used speech features, such as the Mel-scale filterbank, MFCC, LPCC, and PLP coefficients, by applying them as input of the proposed recognition system. In order to build a robust speech system, the experiments for demonstrating its recognition performance for the clean data as well as corrupt data are carried out. In experiments of recognizing 20 Korean digit, we found that the Mel-scale filterbank coefficients performs best in terms of recognition accuracy for the speech dependent and speech independent database even though noise is considerably added.

  • PDF

Recognition of global character type in initial phase of hangul character identification (한글 인식 초기과정의 글자유형 분류처리)

  • Kim, Mi-Hyun;Lee, Mann-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.525-532
    • /
    • 1992
  • 본 연구는 한글 글자를 지각하는데 있어서 인식의 초기 단계에 사람들이 글자의 유형을 처리하는지 알아보기 위하여 시행되었다. 글자인식의 초기 단계에서 유형 분류를 한다는 것은 이미 인공시각 연구자들에 의해 시뮬레이션을 통해 검증된 바 있으나, 그것이 심리학적으로 실재성을 가지는지에 대한 검토는 없었으므로 본 연구를 실시하게 된 것이다. 먼저 예비실험을 통해 본 실험에서 쓸 자극제시시간을 구했으며, 실험은 한글 글자 중 낱자 수가 두 개인 유형 1, 2 의 글자를 자극으로 쓰는 경우와, 낱자 수가 세개인 유형 3, 4, 5 의 글자를 자극으로 쓰는 경우를 나누어서 실시하였다. 실험 1 과 실험 2 의 결과는 모두 가설을 강력히 지지하는 것으로 나왔다. 즉 자극제시시간을 역치하로 했을 경우 글자의 정답율과 유형의 정답율을 비교해 보았을 때 유형의 정답율이 유의하게 높았으며, 이는 아직 글자의 의미처리가 일어나기 전인 인식의 초기 단계에서 이미 글자의 유형에 대한 처리가 일어났음을 시사해 주는 것이다.

  • PDF

Sentence Boundary Detection Using Machine Learning Techniques (기계학습 기법을 이용한 문장경계인식)

  • Park, Su-Hyuk;Rim, Hae-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

Lip Reading Method Using CNN for Utterance Period Detection (발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법)

  • Kim, Yong-Ki;Lim, Jong Gwan;Kim, Mi-Hye
    • Journal of Digital Convergence
    • /
    • v.14 no.8
    • /
    • pp.233-243
    • /
    • 2016
  • Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recognition rate of utterance word using only lip shape detection for efficient AVSR system. After preprocessing for lip region detection, Convolution Neural Network (CNN) techniques are applied for utterance period detection and lip shape feature vector extraction, and Hidden Markov Models (HMMs) are then used for the recognition. As a result, the utterance period detection results show 91% of success rates, which are higher performance than general threshold methods. In the lip reading recognition, while user-dependent experiment records 88.5%, user-independent experiment shows 80.2% of recognition rates, which are improved results compared to the previous studies.

An Improved Digit Recognition using Normalized mel-cepstrum (정규화된 Mel-cepstrum을 이용한 숫자음 인식성능 향상에 관한 연구)

  • 이기철
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.403-406
    • /
    • 1994
  • 음성은 화자의 상태 및 주변 환경에 따라 그 특징이 다양하게 변화한다. 본 논문에서는 음성신호의 특징 파라미터로 널리 쓰이고 있는 mel-cepstrum에 대해, 단어내에서의 변화를 정규화함으로써 인식성능을 향상시키고자 하였다. mel-cepstrum이란 단어 전체에 대한 mel-cepstrum의 평균 값으로 normalize 시킨 것이다. 한국어 숫자음에 대한 인식 실험결과, 본 논문에서 제안한 정규화된 mel-cepstrum이 정규화되지 않은 mel-cepstrum에 비해 우수한 인식 성능을 나타내었다. 또한 잡음 환경하에서 비교 실험한 결과에서도 상대적으로 우수한 인식률을 보였다.

  • PDF

Reduction of Background Noise using FFT cepstrum (FFT 켑스트럼을 사용한 배경잡음의 제거)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.10a
    • /
    • pp.264-267
    • /
    • 2010
  • 본 논문에서는 오차역전파 학습 알고리즘을 사용하여 신경회로망을 학습시켜, 각 프레임에서의 음성 및 잡음 구간의 검출에 의한 음성인식 알고리즘을 제안한다. 그리고 신경회로망에 의하여 음성 및 잡음 구간의 검출에 따라서 각 프레임에서 잡음을 제거하는 스펙트럼 차감법을 제안한다. 본 실험에서는 원음성에 백색잡음 및 자동차잡음을 부가하여 음성인식의 인식율을 평가한다. 또한 인식시스템에 의하여 검출된 음성 및 잡음 구간을 이용하여 각 프레임에서의 스펙트럼 차감법에 의한 잡음제거의 실험결과를 나타낸다.

  • PDF

A Neural Network Approach to Recognition of Human Behaviors (인간행동 인식의 신경망적 접근)

  • 류중원;조성배
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.455-458
    • /
    • 2000
  • 인공 신경망은 체계적인 알고리즘으로 풀기 어려운 문제들을 해결하는데 사용되어오고 있다. 이는 인간의 뇌세포가 외부자극에 대해 반응하는 과정을 컴퓨터 시스템 상에서 구현한 것으로 새 인간과 컴퓨터의 상호작용을 연구하는데 흥미로운 접근방식이다. 본 논문에서는 신경망의 접근방법을 이용하여 인간행위 인식시스템을 구현하였다. 신경망을 이용해 구현된 컴퓨터 인식 시스템이 인간의 두 가지 정서 하에서 일어난 세가지 서로 다른 행동을 보고 행위자의 성별이나 강정상태를 얼마나 인식해낼 수 있는지 실험해 보았다. 특히, 성별 인식 실험에서는 신호탐지 이론에서 사용하는 인장도(discriminability)를 이용해 사람에 대한 이 시스템의 효율도를 계산하였다

  • PDF

Isolated Korean Digits Recognition Using Stochasitc Transition Models With Phoneme-based VQ Codebooks (음소단위 코드북간의 확률적 전이 모델을 이용한 한국어 숫자음 인식에 관한 연구)

  • Choi, Hwan-Jin;Oh, Yung-Hwan
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.149-157
    • /
    • 1993
  • 음성인식을 위해 다양한 방법들이 제안되어 있다. 본 연구에서는 음소단위 각각의 벡터 양자화된 코드북의 색인을 학습하는 HMM을 이용하여 한국어 숫자음을 대상으로 인식 실험을 수행하였다. 실험결과, 기존의 단어단위 HMM과 음소단위로 이루어진 유한상태기계(FSM)구조의 인식기에 비해 높은 인식율을 보였다.

  • PDF

Gesture Recognition Using a 3D Skeleton Model (3D Skeleton Model을 이용한 제스처 인식)

  • Ahn, Yang-Keun;Jung, Kwnag-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1677-1678
    • /
    • 2015
  • 본 논문에서는 3D Skeleton Model로부터 획득된 관절 정보를 이용하여 제스처를 인식할 수 있는 방법을 제안한다. 사람의 신체 크기나 비율은 다르더라도 구조는 같다는 사실을 바탕으로, 관절과 관절이 이루는 각도를 이용해 제스처를 인식한다. 몇 가지 제스처를 선정한 뒤, 실험을 통해 제안한 방법의 인식률을 측정해 보았다. 또한 동적 제스처 인식을 위한 기초를 다지기 위해 이동 방향과 이동 거리, 이동 위치를 측정하는 실험을 해 보았다.

Automatic Speaker Identification by Sustained Vowel Phonation (지속적으로 발성한 모음에 의한 화자인식)

  • Bae, Geon-Seong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.11 no.1
    • /
    • pp.35-41
    • /
    • 1992
  • A speaker identification scheme using the speaker-based VQ codecook of a sustained vowel is proposed and tested. With the pitch synchronous LPC vector of the sustained vowel /i/ as a feature vector, a VQ codebook size of 4 was found to be suitable to characterize each speaker's feature space. For 40 normal speakers (20 males, 20 females), we achieved the correct identification rate of 99.4% with a training data set, and 89.4% with a test data set with speech samples of only 50 pitch periods.

  • PDF