• 제목/요약/키워드: PCA mixture models

검색결과 10건 처리시간 0.019초

PCA 혼합 모형과 클래스 기반 특징에 의한 LDA의 확장 (Extensions of LDA by PCA Mixture Model and Class-wise Features)

  • 김현철;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권8호
    • /
    • pp.781-788
    • /
    • 2005
  • LDA는 클래스간 퍼진 정도와 클래스내 퍼진 정도의 비를 최대화하는 변환를 구하는 데이터 구분 기술이다. LDA는 여러 가지 응용에 성공적으로 응용되었지만 그 모델의 단순성과 관련된 두 가지 한계를 가지고 있다. 첫째는 각 클래스의 데이타가 가우시안 분포를 가진다고 가정되므로 복잡한 분포를 갖는 데이타를 구분하는데 실패한다는 것이다. 둘째는 LDA가 클래스의 전체 범위에 대해서 단지 하나의 변환만을 주므로 클래스 기반의 정보를 잃게 된다는 것이다. 본 논문은 위의 문제들을 극복하는 세가지 확장들을 제안한다. 첫 번째 확장은 더 복잡한 분포를 표현할 수 있는 PCA 혼합 모형을 이용하여 클래스내 퍼진 정도를 모델링함으로써 첫째 문제를 극복한다. 두번째 확장은 클래스 기반 특징들을 제공하기 위해서 각 클래스에 대해 다른 변환을 취함으로써 둘째 문제를 극복한다. 셋째 확장은 PCA 혼합 모형의 관점에서 각 클래스를 표현함으로써 앞의 두 확장을 결합하는 것이다. 숫자 인식과 알파벳 인식에 대한 실험에서 LDA의 모든 제안된 확장들이 LDA보다 더 좋은 분류 성능을 보여 주었다.

Greedy Kernel PCA를 이용한 화자식별 (Speaker Identification Using Greedy Kernel PCA)

  • 김민석;양일호;유하진
    • 대한음성학회지:말소리
    • /
    • 제66호
    • /
    • pp.105-116
    • /
    • 2008
  • In this research, we propose a speaker identification system using a kernel method which is expected to model the non-linearity of speech features well. We have been using principal component analysis (PCA) successfully, and extended to kernel PCA, which is used for many pattern recognition tasks such as face recognition. However, we cannot use kernel PCA for speaker identification directly because the storage required for the kernel matrix grows quadratically, and the computational cost grows linearly (computing eigenvector of $l{\times}l$ matrix) with the number of training vectors I. Therefore, we use greedy kernel PCA which can approximate kernel PCA with small representation error. In the experiments, we compare the accuracy of the greedy kernel PCA with the baseline Gaussian mixture models using MFCCs and PCA. As the results with limited enrollment data show, the greedy kernel PCA outperforms conventional methods.

  • PDF

얼굴인증 방법들의 조명변화에 대한 견인성 비교 연구 (Study On The Robustness Of Face Authentication Methods Under illumination Changes)

  • 고대영;김진영;나승유
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.9-16
    • /
    • 2005
  • 본 논문은 얼굴인증 시스템 구현과 조명변화에 견인한 얼굴인증 방법들에 관한 연구에 초점을 둔다. 얼굴인증 시스템 구현을 위한 방법으로 PCA(Principal Component Analysis), GMM(Gaussian Mixture Models), 1차원 HMM(1 Dimensional Hidden Markov Models), 준 2차원 HMM(Pseudo 2 Dimensional Hidden Markov Models) 방법을 이용한다. 네 가지 다른 얼굴인증 방법들의 조명변화에 대한 성능비교 실험을 수행한다. 조명변화실험을 위해 얼굴이미지의 왼쪽에서 오른쪽으로 인공적인 조명효과(${\delta}=0,40,60,80$)를 준다. 얼굴특징벡터는 얼굴이미지에서 분할한 각 블록에 대한 2D DCT(2 Dimensional Discrete Cosine Transform) 계수를 이용하고 실험은 ORL(Olivetti Research Laboratory) 얼굴데이터베이스를 사용한다. 실험결과 모든 경우 조명변화 값이 커질수록 성능저하가 발생한다. 또한 조명변화가 없는 경우(${\delta}=0$) 준 2차원 HMM이 $2.54{\%}$, 1차원 HMM이 $3.18{\%}$, PCA가 $11.7{\%}$, GMM이 $13.38{\%}$의 EER(Equal Error Rate) 성능을 나타낸다. 조명변화가 없는 경우(${\delta}=0$) 1차원 HMM 방법이 PCA 방법보다 좋은 성능을 나타내지만 조명변화 ${\delta}{\geq}40$인 때에는 반대로 PCA 방법이 더 좋은 성능을 나타낸다. 마지막으로 준 2차원 HMM의 경우 조명변화에 관계없이 가장 좋은 EER성능을 나타낸다.

Dimension-Reduced Audio Spectrum Projection Features for Classifying Video Sound Clips

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권3E호
    • /
    • pp.89-94
    • /
    • 2006
  • For audio indexing and targeted search of specific audio or corresponding visual contents, the MPEG-7 standard has adopted a sound classification framework, in which dimension-reduced Audio Spectrum Projection (ASP) features are used to train continuous hidden Markov models (HMMs) for classification of various sounds. The MPEG-7 employs Principal Component Analysis (PCA) or Independent Component Analysis (ICA) for the dimensional reduction. Other well-established techniques include Non-negative Matrix Factorization (NMF), Linear Discriminant Analysis (LDA) and Discrete Cosine Transformation (DCT). In this paper we compare the performance of different dimensional reduction methods with Gaussian mixture models (GMMs) and HMMs in the classifying video sound clips.

빠른 화자 적응과 연산량 감소를 위한 MLLR알고리즘 개선 (ImprovementofMLLRAlgorithmforRapidSpeakerAdaptationandReductionofComputation)

  • 김지운;정재호
    • 한국통신학회논문지
    • /
    • 제29권1C호
    • /
    • pp.65-71
    • /
    • 2004
  • 본 논문은 주성분분석(PCA, Principle Component Analysis) 혹은 독립성분분석(ICA, Independent Principle Component Analysis)를 이용하여 HMM(Hidden Markov Model) 파라메타의 차수를 감소시킴으로써 MLLR(Maximum Likelihood Linear Regression) 화자 적응 알고리즘을 개선하였다. 데이터의 특징을 잘 나타내는 PCA와 ICA를 통해 모델 mixture component의 상관관계를 줄이고 상대적으로 데이터의 분포가 적은 축을 삭제함으로써 추정해야 하는 적응 파라메타의 수를 줄였다. 기존의 MLLR 알고리즘은 SI(Speaker Independent)모델 보다 좋은 인식성능을 나타내기 위해 30초 이상의 적응 데이터가 요구되었고, 반면 제안한 알고리즘은 적응 파라메타의 수를 감소시킴으로써 10초 이상의 적응데이터가 요구되었다. 또한, 36차의 HMM 파라메타는 기존의 MLLR 알고리즘과 비슷한 인식성능을 나다내는 10차의 주성분이나 독릭성분을 사용함으로써 MLLR 알고리즘에서 적응파라메타를 추정할 때 요구되는 연산량을 1/167로 감소시켰다.

과적응 감소를 위한 주성분 분석 및 독립성분 분석을 이용한 MLLR 화자적응 알고리즘 개선 (Improvement of MLLR Speaker Adaptation Algorithm to Reduce Over-adaptation Using ICA and PCA)

  • 김지운;정재호
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.539-544
    • /
    • 2003
  • 본 논문은MLLR (Maximum Likelihood Linear Regression)를 화자 적응시 과적응 방지를 위해 트리 구조에서 HHM 파라메타의 변환을 결정하는 점유 문턱값 (occupation threshold)의 영향을 감소하는 방법에 대해 기술한다. 데이터의 특징을 잘 나타내는 주성분 분석과 독립성분 분석을 통해 모델 혼합성분의 상관관계를 줄이고 상대적으로 데이터의 분포가 적은 축을 삭제함으로써 적은 적응데이터에 의한 과적응의 영향을 감소시켰다. 점유 문턱값을 작게 설정함으로써 변환함수의 수를 증가시켰을 경우, 기존의 MLLR 알고리즘은 과적응에 의해 화자 독립 모델보다 낮은 인식률을 나타내는 반면, 제안한 MLLR알고리즘은 화자 독립 모델의 성능에 비해 평균 2%이상 인식율 향상을 나타내었다.

하나의 IMU를 이용한 앉은 자세 분류 연구 (Research on Classification of Sitting Posture with a IMU)

  • 김연욱;조우형;전유용;이상민
    • 재활복지공학회논문지
    • /
    • 제11권3호
    • /
    • pp.261-270
    • /
    • 2017
  • 바르지 못한 앉은 자세는 다양한 질병과 신체 변형을 유발한다. 하지만 오랜 시간동안 바른 앉은 자세를 유지하는 것은 쉬운 일이 아니다. 이러한 이유 때문에 그동안 자동으로 바른 앉은 자세를 유도하기 위한 다양한 시스템이 제안되어왔다. 이전에 제안되었던 앉은 자세 판별 및 바른 앉은 자세 유도 시스템은 영상 처리를 이용한 방법, 의자에 압력센서를 달아 측정하는 방법, IMU(Internal Measurement Unit)를 이용한 방법이 있었다. 이 중 IMU를 이용한 측정 방법은 하드웨어 구성이 간단하고, 공간, 광량 등의 환경적 제한이 적어 측정에 있어서 용이한 이점이 있었다. 본 논문에서는 하나의 IMU를 이용하여 적은 데이터로 효율적으로 앉은 자세를 분류하는 방법을 연구하였다. 특징추출 기법을 이용하여 데이터 분류에 기여도가 낮은 데이터를 제거하였으며, 머신러닝 기법을 이용하여 앉은 자세 분류에 적합한 센서 위치를 찾고, 여러 개의 머신러닝 모델 중 가장 분류 정확도가 높은 머신러닝 모델을 선정하였다. 특징추출 기법은 PCA(Principal Component Analysis)를 사용하였고, 머신러닝 모델은 SVM(Support Vector Machine), KNN(K Nearest Neighbor), K-means (K-means Algorithm) GMM (Gaussian Mixture Model), and HMM (Hidden Marcov Model)모델을 사용하였다. 연구결과 데이터 분류율이 높게나온 뒷목이 적합한 센서 위치가 되었으며, 센서 데이터 중 Yaw데이터는 분류 기여도가 가장 낮은 데이터임을 PCA 특징추출 기법을 이용하여 확인하고, 제거하여도 분류율에 영향이 매우 작음을 확인하였다. 적합 머신러닝 모델은 SVM, KNN 모델로 다른 모델에 비하여 분류율이 높게 나오는 것을 확인할 수 있었다.

화자인식에서 연속밀도 은닉마코프모델의 혼합밀도 결정방법 (Gaussian Density Selection Method of CDHMM in Speaker Recognition)

  • 서창우;이주헌;임재열;이기용
    • 한국음향학회지
    • /
    • 제22권8호
    • /
    • pp.711-716
    • /
    • 2003
  • 본 논문은 연속밀도 은닉마코프모델에서 각 상태별 혼합성분 개수를 결정하는 방법을 제안한다. 지금까지의 대부분의 연구가 연속밀도 은닉마코프모델에서 화자의 스펙트럼 특성에 상관없이 각 상태별 동일한 혼합성분 개수를 적용하였다. 이런 접근방법은 많은 계산량을 요구할 뿐만 아니라, 각 상태의 특성을 무시하고 있기 때문에 각 상태별 음성신호의 정확한 모델링을 할 수 없다. 따라서 본 논문에서 제안한 연속밀도 은닉마코프모델의 파라미터 추정은 각 상태별 혼합성분에 대한 발생 확률값에 따라서 결정하였다. 또한 혼합성분의 개수를 줄이는 과정에서 신호의 상관성을 줄이고 시스템의 전체적인 안정성을 얻기 위해서 주성분 분석을 이용하였다. 제안한 방법은 기존의 은닉마코프모델에 비해서 평균 10% 작은 혼합성분 개수를 이용했을 때를 기준으로 실험하였다. 실험결과에서 혼합성분 결정만을 적용했을 때 거의 비슷한 성능을 얻을 수 있었다. 그리고 주성분 분석을 이용했을 때, 특정벡터가 16 차일 때 평균 0.35%의 성능감소가 일어났지만, 25 차에서는 평균 0.65%의 성능개선을 얻을 수 있었다.

알츠하이머 병의 검출을 위한 ML-SVM, PCA, VBM, GMM을 결합한 융합적 성능 비교 (Convergence performance comparison using combination of ML-SVM, PCA, VBM and GMM for detection of AD)

  • 사우라르 알람;권구락
    • 한국융합학회논문지
    • /
    • 제7권4호
    • /
    • pp.1-7
    • /
    • 2016
  • 구조적 MRI 영상은 여러 단 변량과 다변량 방법을 위해 그레이 메터 (GM), 화이트 메터 (WM), 뇌척수액 (CSF) 세션화 과정을 하고 난후 형태계측학적 특징을 추출하기 위해 사용한다. 새로운 접근 방법은 매우 가벼운 알츠하이머 병에서 가벼운 알츠하이머병의 진단을 위해 적용된다. 간이정신상태검사에 따른 형태계측학적 특징과 가우시안 복합 모델 파라미터를 결합하여 정상인으로부터 알츠하이머 병 환자로 분류하는 방법을 제안한다. 결합한 특징은 주성분 분석 기법을 이용한 고차원의 저주를 제거한 후 다중 커널 SVM 분류기에 공급한다. 제안한 진단 방법의 실험적 결과는 90%이상의 특성도와 고민감도에 따라 다중 커널 SVM을 가진 층화 정확도가 96%까지 최대 산출한다.

음성신호의 실시간 피치변경에 관한 연구 (A Study on Real Time Pitch Alteration of Speech Signal)

  • 김종국;박형빈;배명진
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.82-89
    • /
    • 2004
  • 고음질 합성을 하면서도 다양한 음색을 갖도록 하기 위해서는 파형부호화를 이용한 합성법에 적용할 수 있는 피치 변경법이 필요하다. 따라서 본 논문에서는 스펙트럼 왜곡률을 최소화하는 영교차 단위의 시간축 조절에 의한 피치 변경법과 피치 동기분석이 용이하고 다른 영역으로의 변환과정이 불필요한 피치시점 검출법을 제안함으로써 고음질을 유지하면서 시간영역에서만 처리됨으로써 계산량을 줄이고 스펙트럼 왜곡률을 최소화하고 위상을 그대로 보존할 수 있는 시간영역에서의 피치 변경법을 제안하였다. 결과적으로 전체 피치 변경율에 대해서는 기존의 방법에 비해서 제안한 방법의 스펙트럼 왜곡률이 0.73%개선되었고 피치 압축시에는 제안한 방법의 스펙트럼 왜곡율이 2.18%개선되었다.