통합 검색 | Korea Science

Trainable TTS System을 위한 음운 지속시간 모델링 (An Analysis on the Phoneme Duration Modeling For the Trainable TTS System)

서지인;이양희
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
- /
- pp.109-112
- /
- 2001
본 논문에서는 한국어 Trainable TTS System의 자연스러운 음성 합성을 위해 400문장(어절수 : 6,220, 음운수: 총43,701: 자음 23,899,모음: 19,802)에 대하여 단일 남성화자가 발성한 문 음성 데이터를 음운레벨세그먼트, 음운 라벨링 ,어절간의 띄어쓰기 ,어절에 대한 음운별 품사가 태깅된 문 음성 코퍼스를 사용하여 음운 환경과 품사에 의하여 음운의 지속시간이 어떻게 변화하는가에 대하여 통계적으로 분석하였다. 그리고 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운에 대한 고유 지속시간의 영향이 배제된 정규화 음운지속시간에 대한 회귀트리를 이용하여 정규화 지속시간에 영향을 미치는 특징요소들 간의 관계를 통계적인 방법으로 분석하였다. 그 결과 문법적인 특징요소를 나타내는 요소들간에 서로 상관이 높게 나타나는 것을 알 수 있었다 그리고 이러한 경우 유사한 특징 요소들간에 상관이 1에 가까울 정도로 상관이 높은 요소들의 경우 예측지수가 낮은 요소들을 제거하여도 지속시간변화에 영향을 미치지 못하는 것으로 나타났다. 그 결과 문법적 성질이 유사한 특징 요소들을 회귀트리를 통해 모델링할 경우에 요소들간의 상관정도를 분석하여 최소한의 특징요소들을 선택 할 수 있는 방법을 제시하였다 그리고 이를 토대로 한 정규화 회귀트리의 모델링이 지속시간 회귀트리 모델링보다 우수함을 입증하였다.
PDF

심층신경망을 이용한 짧은 발화 음성인식에서 극점 필터링 기반의 특징 정규화 적용 (Applying feature normalization based on pole filtering to short-utterance speech recognition using deep neural network)

한재민;김민식;김형순
- 한국음향학회지
- /
- 제39권1호
- /
- pp.64-68
- /
- 2020
가우스 혼합 모델-은닉 마코프 모델(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)을 이용하는 전통적인 음성인식 시스템에서는, 극점 필터링 기반의 켑스트럼 특징 정규화 방식이 잡음 환경에서 짧은 발화의 인식 성능을 향상시키는데 효과적이었다. 본 논문에서는 심층신경망(Deep Neural Network, DNN)을 이용하는 최신의 음성인식 시스템에서도 이 방식의 유용성이 있는지 검토한다. AURORA 2 DB에 대한 실험 결과, 특히 훈련 및 테스트 환경 사이의 불일치가 클 때에, 극점 필터링 기반의 켑스트럼 평균 분산 정규화 방식이 극점 필터링을 사용하지 않는 방식에 비해 매우 짧은 발화의 인식 성능을 개선시킴을 보여 준다.
https://doi.org/10.7776/ASK.2020.39.1.064 인용 PDF KSCI

선형워핑함수의 화자정규화에 의한 음성 인식시스템의 성능향상 (Performance Improvement of Speech Recognition System Based on Speaker Normalization Through Linear Warping Function)

최석용;정경용;이정현
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2000년도 추계학술발표논문집 (하)
- /
- pp.879-882
- /
- 2000
화자종속 음성인식 시스템은 훈련 데이터가 화자들 사이의 음향적 변이를 충분히 모델링 할 수 있을 때, 화자독립 시스템보다 더 성능이 졸은 것으로 알려져 있다. 화자 정규화 기술은 입력음성의 스펙트럼을 수정하여 화자들 사이의 변이를 줄인다. 최근 성공적인 화자 정규화 알고리즘은 신호처리단계에 화자 특유 주파수 워핑을 통합했다. 이런 알고리즘은 입력음성에 담겨있는 음향적 특징을 다 사용하지 않는다. 본 논문에서는 화자의 음향적 특징으로 세 개의 포만트 주파수를 이용하였고, 수집된 포만트 주파수들로부터 워핑함수를 정의하는데 선형회귀를 사용한 화자 정규화 방법을 제안한다. 이 방법을 사용하여 인식 성능을 향상할 수 있었다.
PDF

고유특징 정규화 및 추출 기법을 이용한 걸음걸이 바이오 정보 기반 사용자 인식 시스템 (Gait-based Human Identification System using Eigenfeature Regularization and Extraction)

이병윤;홍성준;이희성;김은태
- 한국지능시스템학회논문지
- /
- 제21권1호
- /
- pp.6-11
- /
- 2011
본 논문에서는 고유특징 정규화 및 추출 기법(ERE: Eigenfeature Regularization and Extraction)을 이용한 걸음걸이 바이오 정보 기반 사용자 인식 시스템을 제안한다. 먼저 카메라 센서에서 취득한 걸음걸이 시퀀스로부터 사용자 인식을 위한 특징 정보로 걸음걸이 에너지 영상(GEI: Gait Energy Image)을 생성한다. 학습 단계에서는 갤러리 걸음걸이 에너지 영상에 ERE를 적용하여 정규화된 변환행렬을 획득하여 고유공간(eigenspace)에 사상된 특징정보를 구하고, 검증 단계에서는 걸음걸이 에너지 영상을 학습단계에서 생성한 고유공간에 사상하여 최근접 이웃 분류기를 이용하여 사용자를 인식한다. 제안한 시스템의 유효성 검증을 위해 CASIA 걸음걸이 데이터셋 A를 이용하여 실험하였고, 기존 연구에 비해 인식 정확도 면에서 우수한 성능을 보여주었다.
https://doi.org/10.5391/JKIIS.2011.21.1.6 인용 PDF KSCI

음성의 특징벡터를 사용한 정규화 인식수법 (Normalized Recognition Method using Characteristic Vector of Speech Signal)

최재승
- 한국정보통신학회:학술대회논문집
- /
- 한국해양정보통신학회 2011년도 추계학술대회
- /
- pp.616-618
- /
- 2011
본 논문에서는 음성의 특징벡터를 추출하여 음성인식을 위한 인식 알고리즘을 제안한다. 본 논문에서 제안하는 방법은 사람의 음성을 정규화하여 시간지연신경회로망을 사용하여 음성인식을 하는 인식 알고리즘이다. 본 논문에서는 시간지연신경회로망을 이용하여 입력되는 음성정보를 일정시간 동안 학습시킨 후에 새로이 입력되는 정보를 인식하는 수법이다. 본 실험에서는 음성인식률에 의하여 본 알고리즘의 유효성을 확인한다.
PDF

정규화를 이용한 새로운 샷 경계 검출 방법 (New Shot Boundary Detection Method Using Normalization)

신성윤;백성은;표성배;이양원
- 한국컴퓨터정보학회지
- /
- 제15권1호
- /
- pp.197-201
- /
- 2007
비디오 분할은 샷 경계 검출이라고도 하는데, 비디오를 계층적이고 구조적인 형태로 표현하기 위하여 영상, 문자, 오디오와 같은 매체 속에 포함되어 있는 내용들을 특징별로 분석하여 계층별로 분류하는 작업을 말한다. 본 논문에서는 카메라와 객체의 모션에 보다 강건하고 보다 정확한 결과를 산출하여 충분한 공간 정보를 가지는 지역적 $X^2$-히스토그램 비교 방법을 이용하여 샷 경계를 검출한다. 또한 영상처리에서 영상의 명암 값 향상을 위하여 사용되는 로그함수와 상수를 변형하여 차이 값에 적용하는 정규화 방법을 제시한다. 그리고 샷 경계 검출 알고리즘을 제시하여 일반적인 샷과 갑작스런 샷의 특징을 기반으로 검출한다.
PDF

스케일 공간 고차 미분의 정규화를 통한 특징점 검출 기법 (Keypoint Detection Using Normalized Higher-Order Scale Space Derivatives)

박종승;박운상
- 정보과학회 논문지
- /
- 제42권1호
- /
- pp.93-96
- /
- 2015
이미지 검색 및 매칭에 사용되는 SIFT 기법은 다양한 이미지 변화 요인들에 대하여 강인한 특성을 가지고 있는 것으로 알려져 있다. SIFT 기법은 기존의 픽셀 단위의 변화량에 의존한 특징점 추출 방식을 확장하여 스케일 공간에서의 변화량 분석을 통한 특징점 추출 방식을 제시하였으며, 이렇게 추출된 특징점들의 강인함은 그 동안 여러 실험을 통하여 입증되었다. 또한, 최근에는 스케일 공간 변화량 분석에 있어서 기존의 SIFT 기법을 확장하여 고차 미분 계수를 이용한 특징점 추출 방법도 소개되었다. 본 논문에서는 이러한 스케일 공간의 고차 미분에서의 정규화를 통한 보다 강인한 특징점 추출 기법을 소개하고 이러한 특징점들의 강인함을 이미지 검색 실험을 통하여 입증한다.
https://doi.org/10.5626/JOK.2015.42.1.93 인용 KSCI

명도 한글 글씨 영상에서의 비선형 형태 정규화 알고리즘 (Nonlinear Shape Normalization Algorithms for Gray-Scale Handwritten Hangul Images)

김상엽;김대인;이성환
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
- /
- pp.98-104
- /
- 1996
일반적으로 비선형 형태 정규화 과정은 필기체 문자에서 발생하는 형태 변형을 보상하기 위하여 사용되며, 현재까지 이진 영상에 대한 비선형 형태 정규화 방법들이 제안되었다. 그러나 현존하는 대부분의 문자 인식 시스템은 스캐너를 통하여 입력된 명도 문자영상을 이진화하여 사용하고 있기 때문에 이진화로 인해 야기되는 물자 영상에 대한 정보 유실 및 잡영 첨가 현상이 비선형 형태 정규화 과정에 누적되어 결과적으로 좋은 특징 추출 결과를 기대하기 어려운 실정이다. 본 연구에서는 이진화에 의한 정보의 손실을 최소화시키고, 필기체 문자에서 발생하는 다양한 형태 변형을 효과적으로 보상할 수 있는 명도 영상에서의 비선형 형태 정규화 방법을 제안한다. 제안된 명도 영상에서의 비선형 형태 정규화 방법들의 성능을 객관적으로 검증하기 위하여 처리 시간 및 복잡도 등을 기준으로 평가하였으며, 다양한 명도 한글 글씨 데이터에 대한 실험을 통하여 이진 영상에서의 비선형 형태 정규화 방법에 비해 제안된 방법이 변형이 심한 한글 글씨 데이타의 품질을 개선하는데 있어서 매우 효율적임을 확인할 수 있었다.
PDF

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 (An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition)

김동현;홍광석
- 인터넷정보학회논문지
- /
- 제4권3호
- /
- pp.9-14
- /
- 2003
기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위한 매우 좋은 방법이다. 본 논문에서는 피치 변경 발성에 기반을 둔 새로운 화자 내 warping 인수 추정 방법을 제안한다. 화자 내 피치 변경 발성은 성문과 성도에 의해 발생되는 음성의 음향학적 차이 때문에 음성의 특징 공간 분포는 다르게 나타날 것이다. 발성의 변동은 frequency 성분과 amplitude 성분의 두가지 유형이 있다. 성도 정규화는 화자 간 정규화 방법들 중에서 주파수 정규화 방법이다. 여기에서는 화자 내 정규화를 위하여 진폭 변동을 정규화하는 방법을 제안한다. 참조 피치와 입력 피치의 역비례 계산에 의해서 진폭 warping 인수를 결정하는 것이 가능하다. 성능 평가를 위한 인식 실험 결과 숫자와 단어 인식에서 0.4%∼2.3% 정도의 인식 오류가 감소되었다.
PDF

코 형상 마스크를 이용한 3차원 얼굴 영상의 특징 추출 (Facial Feature Extraction using Nasal Masks from 3D Face Image)

김익동;심재창
- 대한전자공학회논문지SP
- /
- 제41권4호
- /
- pp.1-7
- /
- 2004
본 논문은 3차원 얼굴 영상을 이용한 얼굴 인식에 있어서, 정규화 과정에 사용될 얼굴의 특징 영역을 추출하는 방법을 제안한다. 3차원 얼굴 영상은 조명의 변화에 상관없이 얼굴의 특징 분석이 가능하고, 이를 이용한 얼굴 인식이 가능하다. 그러나 입력된 형상의 자세에 따라 회전, 기울어진 정도, 그리고 좌우로 움직인 정도가 다르다. 이런 특성을 고려하지 않고 추출된 특징들은 잘못된 인식 결과를 초래할 수 있다. 이런 이유로 입력에서의 오류들을 바로잡는 정규화 과정이 필요하다. 정규화 과정에서는 얼굴의 기하학적인 특징인 눈, 코, 입 등을 이용하는 것이 일반적이다. 이들 중, 코는 3차원 얼굴 영상에서 두드러진 특징이 될 수 있다. 본 연구에서는 코의 실제 형상과 유사한 긴 추출 마스크를 사용하여 입력된 영상으로부터 코를 추출하는 방법을 제안한다.
PDF KSCI

검색결과 357건 처리시간 0.022초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)