• 제목/요약/키워드: CODEBOOK

검색결과 346건 처리시간 0.025초

DMS 모델과 이중 스펙트럼 특징을 이용한 HMM에 의한 음성 인식 (HMM-based Speech Recognition using DMS Model and Double Spectral Feature)

  • 안태옥
    • 한국산학기술학회논문지
    • /
    • 제7권4호
    • /
    • pp.649-655
    • /
    • 2006
  • 본 논문은 화자 독립의 음성인식을 위한 연구로써, DMS 모델에 의한 DMSVQ(Dynamic Multi-Section Vector Quantization) 코드북과 이중 스펙트럼 특징을 이용한 HMM(Hidden Markov Model) 음성인식 방법을 제안한다. 정적 스펙트럼 특징으로서는 LPC ?S스트럼 계수를 이용하였고, 동적 스펙트럼 특징으로는 LPC ?S스트럼의 회귀계수를 사용하였다. 이들 두개의 스펙트럼 특징들을 각각 VQ 코드북으로 양자화되고, DMS 모델을 이용한 HMM은 입력으로써 정적 스펙트럼 특징과 동적 스펙트럼 특징을 받아드림으로써 모델링된다. 제안된 방법에 의한 인식 실험은 기존의 다양한 인식 방법에 의한 인식 실험들과 비교를 위해 동일한 데이터와 조건 하에서 수행하였다. 실험 결과, 본 연구에서 제안한 방법이 기존의 방법들보다 우수한 방법임을 입증하였다.

  • PDF

강인한 화자확인 시스템을 위한 채널 불일치 보상 기법에 관한 연구 (A Study on Channel Mis-match Compensation Technique for Robust Speaker Verification System)

  • 강철호;정희석
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.228-234
    • /
    • 2004
  • 본 논문에서는 공통 코드북의 평균값과 개인 코드북의 평균값 간의 바이어스 제거에 의한 채널 불일치 보상 알고리즘을 제안하였다. 제안한 방식은 학습시 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 미리 보상하여 학습하고, 확인시에도 공통 코드북의 센터값과 학습 데이터의 센터값과의 차수별 차를 보상하여 확인함으로써 채널의 불일치에 의한 급격한 본인 인식율 하락을 해결한다. 그러나 무조건적인 평균값 보상은 사칭자의 인증오류를 가져오게 되므로 채널의 변이에 비례하는 적절한 가중치를 통한 평균값 보상이 필요하다. 따라서, 제안하는 방식은 음성구간을 제외한 묵음구간의 분포를 고려하여 학습시 채널과의 변이차이를 비선형함수에 의한 가중치로 보상해준다. 모의 실험 결과 기존의 켑스트럼 평균 차감법을 사용할 때보다 제안한 알고리즘을 적용했을 때의 본인 거부 오류율이 평균 14.95% 감소함을 알 수 있었다.

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

공간 상관도를 가지는 거대배열 다중안테나 시스템에서 압축채널 제한적 피드백 알고리즘 (Limited Feedback Precoding for Correlated Massive MIMO Systems)

  • 임연근;채찬병
    • 한국통신학회논문지
    • /
    • 제39A권7호
    • /
    • pp.431-436
    • /
    • 2014
  • 본 논문에서는 높은 공간 상관도(spatial correlation)를 가지는 massive MIMO(multiple-input multiple-output) 시스템에서 Compressive Sensing 기반의 제한적 피드백 알고리즘을 제안한다. 현실적으로 많은 안테나를 설치하기 위해 기지국에서는 조밀한 uniform square array를 가정하였다. 또한 다중 사용자를 지원하기 위해 기지국에서는 영점강제(zero-forcing) 프리코더를 사용하였다. 시뮬레이션 결과, 제안한 피드백 알고리즘이 기존의 random vector quantization 코드북 보다 더 좋은 성능을 보이고 피드백 오버헤드와 코드북 인덱스를 찾는 계산량이 감소함을 보였다.

다중 코드북을 이용한 랜덤 빔 형성 기법 (Random beamforming applying codebook rotation)

  • 강지원;유병욱;서정태;이충용
    • 대한전자공학회논문지TC
    • /
    • 제46권7호
    • /
    • pp.1-5
    • /
    • 2009
  • 랜덤 빔 형성 기법은 정적인 채널에서 다중 사용자 다이버시티를 얻게 하지만, 사용자수에 따른 성능의 제약이 있다. 이를 극복하기 위해 송신단에서 다중 랜덤 빔을 형성하는 기법들이 소개되었다. 특히 코드북에 기반을 둔 랜덤 빔 형성 기법은 적은 파일럿 수로 다중 랜덤 빔을 형성한다. 그러나 그 기법은 채널특성에 따른 빔 디자인의 어려움이 있다. 따라서, 본 논문에서는 다중 코드북을 교대로 이용하여 랜덤 빔을 형성하는 기법을 제안한다. 제안한 기법은 기존 기법에 비해 휠씬 용이하게 빔을 디자인하여 적은 파일럿을 이용하면서 다중 사용자 다이버시터 이득과 선택적 다이버시티 이득을 동시에 얻는다.

PCA에 기반한 압축영역에서의 MPEG Video 검색기법 (PCA-Based MPEG Video Retrieval in Compressed Domain)

  • 이경화;강대성
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.28-33
    • /
    • 2003
  • 본 논문에서는 동영상 압축 부호화에 대한 표준안인 MPEG 기반의 압축 비디오 스트림으로부터 DCT DC 계수를 추출하구 이들로 구성된 DE 영상으로부터 장면 전환 검출을 수행한 후 대표 프레임을 추출한다. 또한 추출된 대표 프레임을 PCA(Principal Component Analysis) 방법을 이용하여 데이터베이스의 색인 정보로 저장한 후 입력된 질의 영상과 가장 유사한 대표 영상들을 검색하는 방법에 대해 제안한다. 즉, 추출된 대표 프레임에 대해 주성분해석 기법을 적용하여 통계적인 특성을 가진 데이터를 특징으로 추출함으로써 코드워드의 수에 따른 코드북을 생성하고 이를 데이터베이스의 색인 정보로 저장한다. 실험 결과 제안된 방법이 검색에 있어 우수한 성능을 나타내고 또한 통계적인 데이터의 특성을 이용하기 때문에 처리 시간과 상당한 양의 메모리 공간을 줄일 수 있음을 확인하였다.

System-Level Performance of Limited Feedback Schemes for Massive MIMO

  • Choi, Yongin;Lee, Jaewon;Rim, Minjoong;Kang, Chung Gu;Nam, Junyoung;Ko, Young-Jo
    • ETRI Journal
    • /
    • 제38권2호
    • /
    • pp.280-290
    • /
    • 2016
  • To implement high-order multiuser multiple input and multiple output (MU-MIMO) for massive MIMO systems, there must be a feedback scheme that can warrant its performance with a limited signaling overhead. The interference-to-noise ratio can be a basis for a novel form of Codebook (CB)-based MU-MIMO feedback scheme. The objective of this paper is to verify such a scheme's performance under a practical system configuration with a 3D channel model in various radio environments. We evaluate the performance of various CB-based feedback schemes with different types of overhead reduction approaches, providing an experimental ground with which to optimize a CB-based MU-MIMO feedback scheme while identifying the design constraints for a massive MIMO system.

DHMM을 이용한 한국어 음성 인식 (Korean Speech Recognition using DHMM)

  • 안태옥;이강성;유형근;이형준;조형제;변용규;김순협
    • 한국음향학회지
    • /
    • 제10권1호
    • /
    • pp.52-60
    • /
    • 1991
  • 본 연구는 스펙트럼의 동적 특징을 한 파라메타로 하는 DHMM(Dynamic Hidden Markov Model)을 이용한 단독어인식에 관한 것으로 정적 스펙트럼 특징뿐 아니라 동적 스펙트럼 특징을 평가할 수 있는 DHMM에 근거한 음성 인식 실험을 논의 한다. 정적특징으로는 LPC cepstrum 계수를 이용하였고, 동적특징으로는 LPC cepstrum 의 회귀계수를 사용하였다. 이들 두 개의 특징 벡터들을 각각 집단화하여 만든 두 VQ codebook과 입력으로 받아들인 정적 벡터및 동적벡터로 단어들을 DHMM(Dynamic Hidden Markov Model)으로 모델링 하였다. 전체적인 실험에서 기존의 HMM을 이용한 인식실험에서는 88.8%의 인식율을 얻었는데 반해, DHMM을 이용한 인식실험에서는 92.7%의 인식율을 보였다.

  • PDF

Enhanced VLAD

  • Wei, Benchang;Guan, Tao;Luo, Yawei;Duan, Liya;Yu, Junqing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3272-3285
    • /
    • 2016
  • Recently, Vector of Locally Aggregated Descriptors (VLAD) has been proposed to index image by compact representations, which encodes powerful local descriptors and makes significant improvement on search performance with less memory compared against the state of art. However, its performance relies heavily on the size of the codebook which is used to generate VLAD representation. It indicates better accuracy needs higher dimensional representation. Thus, more memory overhead is needed. In this paper, we enhance VLAD image representation by using two level hierarchical-codebooks. It can provide more accurate search performance while keeping the VLAD size unchanged. In addition, hierarchical-codebooks are used to construct multiple inverted files for more accurate non-exhaustive search. Experimental results show that our method can make significant improvement on both VLAD image representation and non-exhaustive search.

인터넷에 기반한 내용기반 검색 시스템 설계 (Content-Based Retrieval System Design over the Internet)

  • 김영호;강대성
    • 제어로봇시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.471-475
    • /
    • 2005
  • Recently, development of digital technology is occupying a large part of multimedia information like character, voice, image, video, etc. Research about video indexing and retrieval progresses especially in research relative to video. This paper proposes the novel notation in order to retrieve MPEG video in the international standards of moving picture encoding For realizing the retrieval-system, we detect DCT DC coefficient, and then we obtain shot to apply MVC(Mean Value Comparative) notation to image constructed DC coefficient. We choose the key frame for start-frame of a shot, and we have the codebook index generating it using feature of DC image and applying PCA(principal Component Analysis) to the key frame. Also, we realize the retrieval-system through similarity after indexing. We could reduce error detection due to distinguish shot from conventional shot detection algorithm. In the mean time, speed of indexing is faster by PCA due to perform it in the compressed domain, and it has an advantage which is to generate codebook due to use statistical features. Finally, we could realize efficient retrieval-system using MVC and PCA to shot detection and indexing which is important step of retrieval-system, and we using retrieval-system over the internet.