• 제목/요약/키워드: 음성적 거리

검색결과 135건 처리시간 0.022초

발산거리 기반의 신경망에 의한 가우시안 확률 밀도 함수의 군집화 (Guassian pdfs Clustering Using a Divergence Measure-based Neural Network)

  • 박동철;권오현
    • 한국통신학회논문지
    • /
    • 제29권5C호
    • /
    • pp.627-631
    • /
    • 2004
  • 음성인식 모델상의 GPDFs(Gaussian Probability Density Functions)을 효율적으로 군집화 할 수 있는 알고리즘이 제안되었다. 제안된 알고리즘은 데이터 사이의 거리 척도로 발산 거리를 사용하는 새로운 형태의 CNN(Centroid Neural Network)으로, 제한된 자원을 가지는 H/W환경의 음성인식에서 메모리 사용량을 축소하는 응용에 대한 실험 결과, 음성인식 모델인 CDHMM(Continuous Density Hidden Markov Model)에서 기존의 Dk-means(Divergence-based k-means)알고리즘을 이용한 방법과 비교하여 인식 성능의 유지와 함께 약 31.3%의 GPDFs를 더 축소할 수 있었고, 군집화 알고리즘을 적용하지 자은 전체 GPDFs를 사용한 경우와 비교해서 인식 성능의 유지와 함께 약 61.8%의 GPDFs를 압축할 수 있었으며, SNR 10㏈ 잡음 데이터에 대한 성능평가에서도 인식 성능이 유지될 수 있었다.

가중 거리 개념이 도입된 HCNN을 이용한 화자 독립 숫자음 인식에 관한 연구 (Speaker-Independent Korean Digit Recognition Using HCNN with Weighted Distance Measure)

  • 김도석;이수영
    • 한국통신학회논문지
    • /
    • 제18권10호
    • /
    • pp.1422-1432
    • /
    • 1993
  • HCNN(Hidden Control Neural Network)은 신경회로망에 의한 비선형 예측과 HMM의 segmentation 기능을 접합시킨 신경회로망 모델로서, 시간에 따라 입출력 사상 함수를 변화시킴으로써 음성 신호를 잘 모델링할 수 있도록 되어 있다. 본 논물에서는 첫째, HCNN의 성능이 HMM보다 우수함을 보이고, 둘째로, HCNN에서의 예측 오차 측정에 적절한 거리 측도를 이용하기 위해 가중거리가 도입된 HCNN을 제안하여, 화자 독립 음성 인식에 있어 그 성능이 우수함을 보였다. 여기서 가중거리는 음성 특징 벡터 각 구성 성분의 분산도 차이를 고려한 거리이다. 화자 독립 숫자음 인식 실험 결과, 유클리드 저리를 이용한 HCNN에 대해 95%의 인식율을 얻었는데, 이는 HMM에 비해 1.28% 높은 결과로서, 확률적인 제한이 가해진 HMM에 비해 시스템의 동작인 모델링을 이용한 HCNN이 더 우수함을 알 수 있다. 또한 가중거리를 이용한 CNN에 대해서는 97.35%의 인식율을 얻었는데, 이는 유클리드 거리를 이용한HCNN에 비해 2.3%가 향상된 결과이다. 가중 거리를 도입한 HCHN의 경우에 더 높은 인식율을 얻은 이유는, 오인식이 많이 되는 화자의 인식율을 높임으로써 화자간의 인식율차가 감소하게 되기 때문임을 알 수 있었고, 따라서 화자 독립 음성인식에 가중거리를 도입한 HCNN이 보다 적합합을 알 수 있다.

  • PDF

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

화상회의 Simulator를 이용한 통신 품질의 감성공학적 평가

  • 나종관;박민용;박희석
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1997년도 춘계학술대회논문집
    • /
    • pp.176-182
    • /
    • 1997
  • 본 연구는 고객 지향적 통시서비스 품질기준 정립을 위한 기초연구 과제로서 크게 통신 고객의 감 성파악 및 감성실험 부분으로 이루어졌다. 우선, 전형적 감성공학적 접근법에 의해 화상회의 시스템 을 사용할 때 느낄 수 있는 206개의 감성어휘가 추출되었으며 이를 어의적 기준과 상대적인 중요도를 기준으로 하여 10개의 주요 감성으로 정리하였다. 사용자의 불만사항 등으로부터 감성실험을 위한 설계변수를 추출하였으며 실험환경 구축을 위한 simulator가 구성되었다. 실험은 음성지연, 음성에코, 화면의 초당 프레임수 그리고 통화주제를 인자로 하는 2$^{4}$요인배치법에 의해 실시되었으며 16명의 피실험자와 Magnitude Estimation방법을 이용하여 파악된 각 감성이 주관적으로 평가되었다. 분산분석 결과, 음성지연은 모든 주요 감성들에 유의한 영향을 미쳤으며, 화상프레임 수는 거리감과 안정성을 제외한 모든 사용자 감성에 주인자로 작용하였다. 또한 요인분석을 실시한 결과 동적인 요인과 정적인 요인으로 전체 감성을 구분지을 수 있었으며 속도감과 깨끗함이 각각을 대표하는 감성으로 나타났다. 주관적이고 복합적인 통신 사용자의 여러 감성을 단일 품질 평가지수로 나타내어 통신소비자의 시스템 선호도 평가에 사용할 수 있는 방법이 제안되었다.

  • PDF

유, 무성음 및 묵음 식별에 관한 연구 (A study on the Voiced, Unvoiced and Silence Classification)

  • 김명환;김순협
    • 한국음향학회지
    • /
    • 제3권2호
    • /
    • pp.46-58
    • /
    • 1984
  • 본 논문은 한국어 음성 인식을 위한 유성음, 무성음, 묵음 식별에 관한 연구이다. 주어진 음성 구간을 3가지 음성 신호 부류로 식별하기 위하여 패턴 인식 방법을 사용하였다. 여기에 사용한 분석 파 라메타는 음성 신호의 영교차율, 대수 에너지, 정규화 된 첫 번째 자동 상관 계수, 선형 예측 분석에서 얻은 첫 번째 예측 계수, 그리고 예측 오차의 에너지이다. 한편 측정된 파라메타들이 다차원 가우스 확 률 밀도 함수에 따라 분산되었다는 가정하에서 어어진 최소 거리 법칙에 기본을 두고 음성 구간을 결정 하였다. 측정된 파라메타들을 여러 가지 방법으로 조합하여 식별한 결과 영교차율, 첫 번째 예측계수, 예측 오차의 에너지를 측정 파라메타로 사용했을 때 1%보다 적은 식별 오차율을 얻었다.

  • PDF

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식 (Cepstral Normalization Combined with CSFN for Noisy Speech Recognition)

  • 최숙남;신광호;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1221-1228
    • /
    • 2011
  • 일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

연속음성 인식 및 합성을 위한 운율 경계강도 예측 모델 (Prosody Boundary Index Prediction Model for Continuous Speech Recognition and Speech Synthesis)

  • 강평수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.99-102
    • /
    • 1998
  • 본 연구에서는 연속음 인식과 합성을 위한 경계강도 예측 모델을 제안한다. 운율 경계 강도는 음성 합성에서는 운율구 사이의 휴지기의 길이 조절로 합성음의 자연도에 기여를 하고 연속음 인식에서는 인식과정에서 나타나는 후보문장의 선별 과정에 특징변수가 되어 인식률 향상에 큰 역할을 한다. 음성학적으로 발화된 문장은 큰 경계 단위로 볼 때 운율구 형태로 이루어졌다고 볼 수 있으며 구의 경계는 문장의 문법적인 특징과 관련을 지을 수 있게 된다. 본 논문에서는 운율 경계 강도 수준을 4로 하고 문법적인 특징으로는 트리구조 방법으로 결정된 오른쪽 가지의 수식의 깊이(rd)와 link grammar방법으로 결정된 음절수(syl), 연결거리(torig)를 bigram 모형과 결합하여 운율적 경계 강도를 예측한다. 예측 모형으로는 다중 회귀 모형과 Marcov 모형을 제안한다. 이들 모형으로 낭독체 200 문장에 대해 실험한 결과 76%로 경계 강도를 예측할 수 있었다.

  • PDF

다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중 (Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition)

  • 조훈영;지상문;오영환
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.552-558
    • /
    • 2002
  • 최근에 Fletcher의 HSR (human speech recognition) 이론을 기초로 한 다중대역 (multi-band) 음성인식이 활발히 연구되고 있다. 다중대역 음성인식은 주파수 영역을 다수의 부대역으로 나누고 별도로 인식한 뒤 부대역들의 인식결과를 부대역 신뢰도로 가중 및 통합하여 최종 판단을 내리는 새로운 음성인식 방식으로서 잡음환경에 특히 강인하다고 알려졌다. 잡음이 정상적인 경우 무음구간의 잡음정보를 이용하여 부대역 신호대 잡음비(SNR)를 추정하고 이를 가중치로 사용하기도 하였으나, 비정상잡음은 시간에 따라 특성이 변하여 부대역 신호대 잡음비를 추정하기가 쉽지 않다. 본 논문에서는 깨끗한 음성으로 학습한 은닉 마코프 모델과 잡음음성의 통계적 정합에 의해 각 부대역에서 모델과 잡음음성 사이의 거리를 추정하고, 이 거리의 역을 부대역 가중치로 사용하는 ISD (inverse sub-band distance) 가중을 제안한다. 1500∼1800㎐로 대역이 제한된 백색잡음 및 클래식 기타음에 대한 인식 실험 결과, 제안한 방법은 정상 및 비정상대역제한잡음에 대하여 부대역의 신뢰도를 효과적으로 표현하며 인식 성능을 향상시켰다.

벡터의 발생 순서를 이용한 효율적인 벡터양자화 (An Effective Vector Quantization using Generating Sequence of the Vector)

  • 김동환;윤재선;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.189-192
    • /
    • 2000
  • 벡터양자화는 신호의 압축에 이용되는 일반적인 방법이다. 그러나 유클리드 거리 등을 이용한 거리 계산량이 많아서 코드북 크기나 압축율의 제한이 있게 된다. 따라서 PDS(partial distance search)와 같은 벡터양자화 부호화의 계산량을 줄이기 위한 많은 방법들이 제안되고 있다. 본 논문에서는 이웃한 음성신호는 급격히 변하지 않고 서서히 변해가는 성질에 착안하여 현재의 벡터 다음에 발생되는 벡터를 조사하여 인덱스를 저장한 후 이를 다음 벡터의 벡터양자화 때 참고함으로써 불필요한 계산을 줄이는 방법이다. 제안한 방법으로 음성신호에 대해 실험한 결과 전탐색의 결과와 비교하여 빠른 시간에 큰 오차없이 벡터양자화 부호화를 할 수 있었다. 이 방법은 PDS와 같은 이미 제안되어 있는 많은 방법들과 같이 이용하면 더욱 효과적인 벡터양자화 부호화를 할 수 있을 것이다.

  • PDF

비교사 토론 인덱싱을 위한 시청각 콘텐츠 분석 기반 클러스터링 (Audio-Visual Content Analysis Based Clustering for Unsupervised Debate Indexing)

  • 금지수;이현수
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.244-251
    • /
    • 2008
  • 본 연구에서는 시청각 정보를 이용한 비교사 토론 인덱싱 방법을 제안한다. 제안하는 방법은 BIC (Bayesian Information Criterion)에 의한 음성 클러스터링 결과와 거리기반 함수에 의한 영상 클러스터링 결과를 결합한다. 시청각 정보의 결합은 음성 또는 영상 정보를 개별적으로 사용하여 클러스터링할 때 나타나는 문제점을 줄일 수 있고, 토론 데이터의 효과적인 내용 기반의 분석이 가능하다. 제안하는 방법의 성능 평가를 위해 서로 다른 5종류의 토론 데이터에 대해 음성, 영상 정보를 개별적으로 사용할 때와 두 가지 정보를 동시에 사용할 때의 성능 평가를 수행하였다. 실험 결과 음성과 영상 정보를 결합한 방법이 음성, 영상 정보를 개별적으로 사용할 때 보다 토론 인덱싱에 효과적임을 확인하였다.