• Title/Summary/Keyword: 특징 정규화

Search Result 357, Processing Time 0.025 seconds

A Study on the Synthesis of Facial Poses based on Warping (워핑 기법에 의한 얼굴의 포즈 합성에 관한 연구)

  • 오승택;서준원;전병환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.499-501
    • /
    • 2001
  • 본 논문에서는 사실적인 아바타(avata) 구현의 핵심이라 할 수 있는 입체적인 얼굴 표현을 위해, (※원문참조) 기하학적인 정보를 사용하지 않고 중첩 메쉬를 허용하는 개선된 메쉬 워프 알고리즘(mesh warp algor※원문참조)을 이용하여 IBR(Image Based Rendering)을 구현하는 방법을 제안한다. 3차원 모델을 대신하기 위해 (※원문참조) 인물의 정면, 좌우 반측면, 좌우 측면의 얼굴 영상들에 대해 작성된 메쉬를 사용한다. 합성하고자 하는 (※원문참조) 정면 얼굴 영상에 대해서는 정면 메쉬만을 작성하고, 반측면이나 측면 메쉬는 표준 메쉬를 근거로 자(※원문참조)된다. 얼굴 포즈 합성의 성능을 펴가하기 위해, 얼굴을 수평으로 회전하는 실제 포즈 영상과 합성된 포(※원문참조)에 대해 주요 특징점 들을 정규화 한 위치 오차를 측정한 결과, 평균적으로 양 눈의 중심에서 입의 (※원문참조)리에 대해 약 5%의 위치 오차만이 발생한 것으로 나타났다.

  • PDF

Ni-eun Addition Preprocessing of Grapheme to Phoneme Conversion for Koran TTS (한글 TTS 시스템에서 문자열-발음열 변환기의 ㄴ-소리 첨가 전 처리기)

  • 정경석;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.370-372
    • /
    • 2001
  • 본 논문은 ㄴ-첨가 규칙을 전 처리를 통한 문자열-발음열 변환 기법을 소개한다. 한국어 TTS 시스템에서의 고질적인 문제는 문자열-발음열 변환이라고 할 수 있는데, 그 이유는 한국어의 특징상 음운적 조건과 형태론적 조건등에 의해 다양한 방법과 예외처리를 요구하기 때문이다. 그 중 ㄴ-첨가 규칙은 위와 같은 대표적인 현상으로 많은 문제점과 그에 따른 연구를 필요로 하고 있다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자를 정규화하고 ㄴ-첨가 규칙을 전 처리한 후, 음운변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 문장을 효과적으로 해결할 수 있어 TTS시스템에 좋은 결과를 가져오게 될 것이다.

  • PDF

Retrieval of Key-frames using Wavelet Transform (Wavelet Transform을 이용한 Key-frame 검색)

  • 정세윤;김규헌;전병태;이재연;배영래
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.509-511
    • /
    • 1998
  • 본 논문에서는 동영상 데이터베이스에서 Key-frame을 검색하는 방법을 제안한다. 본 논문에서는 Key-frame을 검색하기위해 컬러 피쳐를 공간영역에서 추출하지 않고 wavelet transform 영역에서 컬러 피쳐를 추출하는 방법을 제안한다. wavelet transform 의 저주파 밴드는 영상전체의 특징을 잘 나타내고 고주파 밴드는 texture 와 국부적인 컬러 특성을 잘 나타낸다. 색인과정 알고리즘은 영상의 크기를 정규화하고 RGB 컬러공간에서 HSV 컬러 공간으로 변환을 하여, H, S, V 각 채널에 대해 Daubechies' wavelet transform을 수행한 후 변환 영역에서 피쳐를 추출하게 된다. 색인을 위한 피쳐로 wavelet 계수와 lowest 밴드의 평균과 표준편차를 추출하였다. 효율적인 검색을 위해 검색은 2단계로 수행된다. 먼저 평균과 표준편차만을 이용한 1차 검색을 통해 2차 검색의 후보 영상들을 추출하고 2차 검색에서는 1차 검색 통과 영상들에 대해서만 wavelet 계수들을 비교하여 최종 검색 결과를 얻게 된다. 검색결과 기존의 컬러 피쳐를 이용한 방법보다 우수한 검색결과를 얻을 수 있었다.

  • PDF

Development of a field-applicable Neural Network classifier for the classification of surface defects of cold rolled steel strips (냉연강판의 표면결함 분류를 위한 현장 적용용 신경망 분류기 개발)

  • Moon C.I.;Choi S.H.;Joo W.J.;Kim G.B.
    • Proceedings of the Korean Society of Precision Engineering Conference
    • /
    • 2006.05a
    • /
    • pp.61-62
    • /
    • 2006
  • A new neural network classifier is proposed for the automatic real-time surface inspection of high-speed cold steel strips having 11 different types of defects. 46 geometrical and gray-level features are extracted for the defect classification. 3241 samples of Posco's Kwangyang steel factory are used for training and testing the neural network classifier. The developed classifier produces plausible 15% error rate which is much better than 20-30% error rate of human vision inspection adopted in most of domestic steel factories.

  • PDF

Development of a Neural Network Classifier for the Classification of Surface Defects of Cold Rolled Strips (냉연강판의 표면결함 분류를 위한 신경망 분류기 개발)

  • Moon, Chang-In;Choi, Se-Ho;Kim, Gi-Bum;Kim, Cheol-Ho;Joo, Won-Jong
    • Journal of the Korean Society for Precision Engineering
    • /
    • v.24 no.4 s.193
    • /
    • pp.76-83
    • /
    • 2007
  • A new neural network classifier is proposed for the automatic real-time surface inspection of high-speed cold steel strips having 11 different types of defects. 46 geometrical and gray-level features are extracted for the defect classification. 3241 samples of Posco's Kwangyang steel factory are used for training and testing the neural network classifier. The developed classifier produces plausible 15% error rate which is much better than 20-30% error rate of human vision inspection adopted in most of domestic steel factories.

Sign Language Shape Recognition Using SOFM Neural Network (SOFM 신경망을 이용한 수화 형상 인식)

  • Park, Kyung-Woo
    • Journal of Integrative Natural Science
    • /
    • v.3 no.1
    • /
    • pp.38-42
    • /
    • 2010
  • 인간은 정보전달을 위하여 언어 이외에 동작, 표정과 같은 비언어적인 수단을 이용한다. 이러한 비언어적인 수단을 정확히 분석 할 수 있다면 인간과 컴퓨터간의 자연스럽고 지적인 인터페이스를 구축할 수 있게 된다. 본 논문은 별도의 센서를 부착하지 않은 단일 카메라 환경에서 손 형상을 입력정보로 사용하여 손 영역만을 분할한 후 자기 조직화 특징 지도(SOFM: Self Organized Feature Map) 신경망 알고리즘을 이용하여 손 형상을 인식함으로서 수화인식을 위한 보다 안정적이며 강인한 인식 시스템을 구현하고자 한다. 제안 방법으로는 피부색 정보를 이용하여 배경으로부터 손 영역만을 추출한 후 추출된 손 영역의 형상을 인식한다(전처리과정으로 모델이미지의 사이즈와 압축 및 컬러에 대한 정보를 정규화 시켰다). 또한 인식 효율을 높이기 위해 SOFM 신경망 알고리즘을 적용함으로서 보다 안정적으로 손 형상을 인식할 수 있게 되었으며, 손 형상 인식률에 대한 안전성과 정확성을 향상시킬 수 있었다. 그리고 인식된 손 형상의 의미를 텍스트로 보여줌으로서 사용자의 의사를 정확하게 전달할 수 있다.

Selective pole filtering based feature normalization for performance improvement of short utterance recognition in noisy environments (잡음 환경에서 짧은 발화 인식 성능 향상을 위한 선택적 극점 필터링 기반의 특징 정규화)

  • Choi, Bo Kyeong;Ban, Sung Min;Kim, Hyung Soon
    • Phonetics and Speech Sciences
    • /
    • v.9 no.2
    • /
    • pp.103-110
    • /
    • 2017
  • The pole filtering concept has been successfully applied to cepstral feature normalization techniques for noise-robust speech recognition. In this paper, it is proposed to apply the pole filtering selectively only to the speech intervals, in order to further improve the recognition performance for short utterances in noisy environments. Experimental results on AURORA 2 task with clean-condition training show that the proposed selectively pole-filtered cepstral mean normalization (SPFCMN) and selectively pole-filtered cepstral mean and variance normalization (SPFCMVN) yield error rate reduction of 38.6% and 45.8%, respectively, compared to the baseline system.

Noise Reduction for Korean Connected Digit Recognition through Telephone Channel (전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리)

  • Kim Kyuhong;Kim Hoirin
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

A Study of Classification of Heart Murmurs using Shannon Entropy and Neural Network (샤논 엔트로피와 신경회로망을 이용한 심잡음 분류에 관한 연구)

  • Eum, Sang-Hee
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.16 no.4
    • /
    • pp.134-138
    • /
    • 2015
  • Heart sound is used for a basic clinical examination to check for abnormalities in the lungs and heart that can be heard with a stethoscope or phonocardiography. In this paper, we try to find an easier and non-invasive method to diagnose heart diseases using neural network classifier. The classifier has been developed for one normal heart sound and five murmurs by using Shannon entropy and conjugate scaled back propagation algorithm. The experimental results showed that the classification is possible with 1.63185e-6 of classification error.

Performance of the Phoneme Segmenter in Speech Recognition System (음성인식 시스템에서의 음소분할기의 성능)

  • Lee, Gwang-seok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.10a
    • /
    • pp.705-708
    • /
    • 2009
  • This research describes a neural network-based phoneme segmenter for recognizing spontaneous speech. The input of the phoneme segmenter for spontaneous speech is 16th order mel-scaled FFT, normalized frame energy, ratio of energy among 0~3[KHz] band and more than 3[KHz] band. All the features are differences of two consecutive 10 [msec] frame. The main body of the segmenter is single-hidden layer MLP(Multi-Layer Perceptron) with 72 inputs, 20 hidden nodes, and one output node. The segmentation accuracy is 78% with 7.8% insertion.

  • PDF