• Title/Summary/Keyword: model quantization

Search Result 227, Processing Time 0.021 seconds

Primitive Body Model Encoding and Selective / Asynchronous Input-Parallel State Machine for Body Gesture Recognition (바디 제스처 인식을 위한 기초적 신체 모델 인코딩과 선택적 / 비동시적 입력을 갖는 병렬 상태 기계)

  • Kim, Juchang;Park, Jeong-Woo;Kim, Woo-Hyun;Lee, Won-Hyong;Chung, Myung-Jin
    • The Journal of Korea Robotics Society
    • /
    • v.8 no.1
    • /
    • pp.1-7
    • /
    • 2013
  • Body gesture Recognition has been one of the interested research field for Human-Robot Interaction(HRI). Most of the conventional body gesture recognition algorithms used Hidden Markov Model(HMM) for modeling gestures which have spatio-temporal variabilities. However, HMM-based algorithms have difficulties excluding meaningless gestures. Besides, it is necessary for conventional body gesture recognition algorithms to perform gesture segmentation first, then sends the extracted gesture to the HMM for gesture recognition. This separated system causes time delay between two continuing gestures to be recognized, and it makes the system inappropriate for continuous gesture recognition. To overcome these two limitations, this paper suggests primitive body model encoding, which performs spatio/temporal quantization of motions from human body model and encodes them into predefined primitive codes for each link of a body model, and Selective/Asynchronous Input-Parallel State machine(SAI-PSM) for multiple-simultaneous gesture recognition. The experimental results showed that the proposed gesture recognition system using primitive body model encoding and SAI-PSM can exclude meaningless gestures well from the continuous body model data, while performing multiple-simultaneous gesture recognition without losing recognition rates compared to the previous HMM-based work.

A Neural Network Based on Stochastic Computation using the Ratio of the Number of Ones and Zeros in the Pulse Stream (펄스열에서 1인 펄스수와 0인 펄스수의 비를 이용하여 확률연산을 하는 신경회로망)

  • 민승재;채수익
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.7
    • /
    • pp.211-218
    • /
    • 1994
  • Stochastic computation employs random pulse streams to represent numbers. In this paper, we study a new method to implement the number system which uses the ratio of the numbers of ones and zeros in the pulse streams. In this number system. if P is the probability that a pulse is one in a pulse stream then the number X represented by the pulse stream is defined as P/(1-P). We propose circuits to implement the basic operations such as addition multiplication and sigmoid function with this number system and examine the error characteristics of such operations in stochastic computation. We also propose a neuron model and derive a learning algorithm based on backpropagation for the 3-layered feedforward neural networks. We apply this learning algorithm to a digit recognition problem. To analyze the results, we discuss the errors due to the variance of the random pulse streams and the quantization noise of finite length register.

  • PDF

The bootstrap VQ model for automatic speaker recognition system (VQ 방식의 화자인식 시스템 성능 향상을 위한 부쓰트랩 방식 적용)

  • Kyung YounJeong;Lee Jin-Ick;Lee Hwang-Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.39-42
    • /
    • 2000
  • A bootstrap and aggregating (bagging) vector quantization (VQ) classifier is proposed for speaker recognition. This method obtains multiple training data sets by resampling the original training data set, and then integrates the corresponding multiple classifiers into a single classifier. Experiments involving a closed set, text-independent and speaker identification system are carried out using the TIMIT database. The proposed bagging VQ classifier shows considerably improved performance over the conventional VQ classifier.

  • PDF

Fuzzy Neural Network Model Using Asymmetric Fuzzy Learning Rates (비대칭 퍼지 학습률을 이용한 퍼지 신경회로망 모델)

  • Kim Yong-Soo
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.101-105
    • /
    • 2005
  • 본 논문에서는 LVQ(Learning Vector Quantization)을 퍼지화한 새로운 퍼지 학습 법칙을 제안하였다. 퍼지 LVQ 학습 법칙 3은 기존의 학습률 대신에 퍼지 학습률을 사용하였는데, 기존의 LVQ와는 달리 비대칭인 학습률을 사용하였다. 기본의 LVQ에서는 분류가 맞거나 틀렸을 때 같은 학습률을 사용하고 부호만 달랐으나, 새로운 퍼지 학습 법칙에서는 분류가 맞거나 틀렸을 때 부호가 다를 뿐만 아니라 학습률도 다르다. 이 새로운 퍼지 학습 법칙을 무감독 신경회로망인 improved IAFC(Integrated Adaptive Fuzzy Clustering) 신경회로망에 적용하여 감독 신경회로망으로 변형하였다. Improved IAFC 신경회로망은 유연성이 있으면서도 안정성이 있다. 제안한 supervised IAFC 신경회로망 3의 성능과 오류 역전파 신경회로망의 성능을 비교하기 위하여 iris 데이터를 사용하였는데 Supervised IAFC 신경회로망 3가 오류 역전파 신경회로망보다 성능이 우수하였다.

  • PDF

Just noticeable quantization blur model based on the DCT complexity feature of the image (영상의 복잡도 특징을 기준으로 양자화 왜곡에 대한 최소 인지 왜곡 모델)

  • Ki, Sehwan;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.70-72
    • /
    • 2016
  • 본 논문에서는 기존의 인지적 영상 압축 기법에 사용되었던 Just Noticeable Distortion(JND) 모델이 압축과정에서 생기는 왜곡인 양자화 왜곡에 적합하지 않는 다는 것을 보이고, 그 한계점을 해결하기 위하여 Just Noticeable Blur(JNB)의 개념을 적용하여 영상 압축에 적합한 모델을 제시하였다. 주파수 공간에서 영상의 복잡도 특징을 나타내는 Spectral Contras Index(SCI) 값을 사용해서 영상의 DCT 블록별 JNB 를 추정하고 이를 기반으로 영상의 DCT 계수 값을 감소시켜 최신의 DCT 기반 JND 를 적용한 인지적 압축 영상에 비해 더 낮은 PSNR 을 가지면서 왜곡도 인지되지 않는 영상을 얻을 수 있었다. 새롭게 제시한 모델을 적용하면 인지적 영상압축에서 기존의 방법보다 더 낮은 비트율로 유사한 인지적 화질 성능을 발휘할 것으로 예상된다.

  • PDF

A Study on Single Vowels Recognition using VQ and Multi-layer Perceptron (VQ와 Multi-layer perceptron을 이용한 단모음 인식에 관한 연구)

  • 안태옥;이상훈;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.1
    • /
    • pp.55-60
    • /
    • 1993
  • 본 논문은 불특정 화자의 단모음 인식에 관한 연구로써, VQ(Vectro Quantization)와 MLP(multi-layer perceptron)에 의한 음성 인식 방법을 제안한다. 이 방법은 VQ codebook을 구하고 이를 이용해서 관측열(observation sequence)을 구해각 codeword가 데이터로부터 가질 수 있는 확률값을 계산하여 이 값을 신경 회로망의 입력으로 사용하는 방법이다. 인식 대상으로는 한국어 단모음을 선정하였으며 10명의 남성 화자가 8개의 단모음을 10번씩 발음한 것으로 시스템의 효율성을 알아보기 위해 VQ/HMM(hidden markov model)에 의한 인식과 비교 실험한다. 실험 결과에 의하면, 시스템의 단순성에도 불구하고 학습능력애 뛰어난 관계로 VQ/HMM보다 VQ와 MLP에 의한 음성 인식률이 향상됨을 보여준다.

  • PDF

IAFC(Integrated Adaptive Fuzzy Clustering)Model Using Supervised Learning Rule for Pattern Recognition (패턴 인식을 위한 감독학습을 사용한 IAFC( Integrated Adaptive Fuzzy Clustering)모델)

  • 김용수;김남진;이재연;지수영;조영조;이세열
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.153-157
    • /
    • 2004
  • 본 논문은 패턴인식을 위해 사용할 수 있는 감독학습을 이용한 supervised IAFC neural network 1과 supervised IAFC neural network 2를 제안하였다 Supervised IAFC neural network 1과 supervised IAFC neural network 2는 LVQ(Learning Vector Quantization)를 퍼지화한 새로운 퍼지 학습법칙을 사용하고 있다. 이 새로운 퍼지 학습 법칙은 기존의 학습률 대신에 퍼지화된 학습률을 사용하고 있는데, 이 퍼지화된 학습률은 조건 확률을 퍼지화 한 것에 근간을 두고 있다. Supervised IAFC neural network 1과 supervised IAFC neural network 2의 성능과 오류역전파 신경회로망의 성능을 비교하기 위하여 iris 데이터를 사용하였는데, 실험결과 supervised IAFC neural network 2 의 성능이 오류역전파 신경회로망의 성능보다 우수함이 입증되었다.

  • PDF

Fuzzy Neural Network Model Using A Learning Rule Considering the Distances Between Classes (클래스간의 거리를 고려한 학습법칙을 사용한 퍼지 신경회로망 모델)

  • Kim Yong-Soo;Baek Yong-Sun;Lee Se-Yul
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.4
    • /
    • pp.460-465
    • /
    • 2006
  • This paper presents a new fuzzy learning rule which considers the Euclidean distances between the input vector and the prototypes of classes. The new fuzzy learning rule is integrated into the supervised IAFC neural network 4. This neural network is stable and plastic. We used iris data to compare the performance of the supervised IAFC neural network 4 with the performances of back propagation neural network and LVQ algorithm.

Fast Speaker Adaptation in Noisy Environment using Environment Clustering (잡음 환경하에서 환경 군집화를 이용한 고속화자 적응)

  • Kim, Young-Kuk;Song, Hwa-Jeon;Kim, Hyung-Soon
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.33-36
    • /
    • 2007
  • In this paper, we investigate a fast speaker adaptation method based on eigenvoice in several noisy environments. In order to overcome its weakness against noise, we propose a noisy environment clustering method which divides the noisy adaptation utterances into utterance groups with similar environments by the vector quantization based clustering using a cepstral mean as a feature vector. Then each utterance group is used for adaptation to make an environment dependent model. According to our experiment, we obtained 19-37 % relative improvement in error rate compared with the simultaneous speaker adaptation and environmental compensation method

  • PDF

A Time-Domain Parameter Extraction Method for Speech Recognition using the Local Peak-to-Peak Interval Information (국소 극대-극소점 간의 간격정보를 이용한 시간영역에서의 음성인식을 위한 파라미터 추출 방법)

  • 임재열;김형일;안수길
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.2
    • /
    • pp.28-34
    • /
    • 1994
  • In this paper, a new time-domain parameter extraction method for speech recognition is proposed. The suggested emthod is based on the fact that the local peak-to-peak interval, i.e., the interval between maxima and minima of speech waveform is closely related to the frequency component of the speech signal. The parameterization is achieved by a sort of filter bank technique in the time domain. To test the proposed parameter extraction emthod, an isolated word recognizer based on Vector Quantization and Hidden Markov Model was constructed. As a test material, 22 words spoken by ten males were used and the recognition rate of 92.9% was obtained. This result leads to the conclusion that the new parameter extraction method can be used for speech recognition system. Since the proposed method is processed in the time domain, the real-time parameter extraction can be implemented in the class of personal computer equipped onlu with an A/D converter without any DSP board.

  • PDF