• 제목/요약/키워드: discriminant feature

검색결과 200건 처리시간 0.025초

SMV코덱의 음성/음악 분류 성능 향상을 위한 최적화된 가중치를 적용한 입력벡터 기반의 SVM 구현 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Codec Employing SVM Based on Discriminative Weight Training)

  • 김상균;장준혁;조기호;김남수
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.471-476
    • /
    • 2009
  • 본 논문에서는 변별적 가중치 학습 (discriminative weight training) 기반의 최적화된 가중치를 가지는 입력벡터를 구성하여 support vector machine (SVM)을 이용한 기존의 3GPP2 selectable mode vocoder (SMV)코덱의 음성/음악 분류 성능을 향상 시키는 방법을 제안한다. 구체적으로, 최소 분류 오차 minimum classification error (MCE) 방법을 도입하여, 최적화된 가중치를 각각의 특징벡터별로 부가한 SVM을 적용하여 기존의 가중치를 고려하지 않은 SVM 기반의 알고리즘과 비교하였으며, 우수한 음성/음악 분류 성능을 보였다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용 (Optimization of Multiclass Support Vector Machine using Genetic Algorithm: Application to the Prediction of Corporate Credit Rating)

  • 안현철
    • 경영정보학연구
    • /
    • 제16권3호
    • /
    • pp.161-177
    • /
    • 2014
  • 기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.

부분공간과 LVQ 분류기에 기반한 실시간 얼굴 인식 (Real-Time Face Recognition Based on Subspace and LVQ Classifier)

  • 권오륜;민경필;전준철
    • 인터넷정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.19-32
    • /
    • 2007
  • 본 논문에서는 실시간 얼굴인증 시스템의 구축을 위한 LVQ 신경망 기반의 새로운 얼굴 인식 방법을 제안한다. 기존의 연구에서 PCA, LDA 변환이 많이 적용되며 신경망을 결합한 형태가 제안되고 있지만 신경망 학습 시간이 오래 걸리는 단점을 가지고 있다. LVQ 신경망은 학습 시간이 짧고 클래스간의 분리도를 최대화할 수 있는 교사학습방법이다. 따라서, 본 논문에서 제안된 방법은 동영상으로부터 실시간으로 입력되는 얼굴영상을 PCA와 LDA변환을 순차적으로 적용하여 부분공간상의 변환된 특징벡터로부터 LVQ 신경망의 학습을 통하여 얼굴을 인식한다. 외부조명의 영향에 강건한 인식시스템을 구축하기 위하여 얼굴검출 단계에서 검출된 얼굴영역은 밝기값의 최대-최소 정규화 방법에 의해 보정된 정규화 영상을 생성한다. 정규화된 얼굴영상은 PCA와 LDA 변환을 통해 부분공간상의 특징벡터로 변환된다. 변환된 훈련 데이터로부터 LVQ 신경망의 초기 중심 벡터를 결정하고 신경망의 학습률 향상을 위해 K-Means 클러스터링 알고리즘을 적용하며, 초기 중심 벡터를 이용하여 LVQ2 학습 방법에 의해 학습된 중심벡터는 클래스의 대표 벡터가 된다. 결국 각 클래스의 대표 벡터로부터 입력 영상의 특징벡터간의 유클리디언 거리 비교법을 적용하여 얼굴 인식을 수행한다. ORL 데이터베이스를 이용한 정지 영상에 대한 인식과 실시간으로 입력되는 영상에 대한 인식 등 두 가지 형태의 영상을 기반으로 실험한 결과 두 경우에 모두 제안된 방법이 기존의 인식 방법보다 인식률에서 우수함을 입증할 수 있었다.

  • PDF

클릭 구조를 이용한 지문 인식 알고리즘 (Fingerprint Recognition Algorithm using Clique)

  • 안도성;김학일
    • 전자공학회논문지S
    • /
    • 제36S권2호
    • /
    • pp.69-80
    • /
    • 1999
  • 정보화 시대에 있어 개인 인증 기술에 대한 요구는 날로 증가되고 있으며 그 중에서도 지문 인식 기술은 정확도, 수행 속도, 구현 비용 등 모든 평가 항목에 있어 가장 현실성 있는 수단으로 주목 받고 있다. 본 논문에서는 전산 환경에 적합하도록 무 잉크 방식의 압착 날인을 통하여 획득된 지문 영상을 이용한 온라인 지문 인식 시스템의 설계와 구현을 목표로 한다. 지문 인식은 크게 두 가지 과정으로 이루어 지며 이를 특징점 추출과 특징점 정합이라 한다. 본 논문에서는 이러한 과정 중에서 특징점 정합의 정합의 성능과 속도의 개선을 위한 새로운 알고리즘을 제안 한다. 특징점 정합 과정은 다시 정렬 기준점 선정 과정과 정렬 후 대응점 확인과정이 있으며 정렬 과정의 최적화 여부가 전체 수행 속도에 미치는 영향이 가장 크게 된다. 제안된 정렬 기준점 선정 알고리즘은 탐색 공간의 최소화와 등록 지문과 입력 지문간의 비선형 왜곡에도 강인함을 보였다. 전체 시스템의 성능 검증을 위하여 체계적인 샘플링을 통하여 채취된 데이터 베이스을 이용하였다. 팬티엄시스템에서 평균 정합 속도 1.55초를 기록하였으며, 0.05%의 FAR(False Acceptance Rate)에서 8.83%의 FRR(False Rejection Rate)의 오 인식율을 얻을 수 있었다.

  • PDF

서브 밴드 CSP기반 FLD 및 PCA를 이용한 동작 상상 EEG 특징 추출 방법 연구 (A Method of Feature Extraction on Motor Imagery EEG Using FLD and PCA Based on Sub-Band CSP)

  • 박상훈;이상국
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1535-1543
    • /
    • 2015
  • 뇌-컴퓨터 인터페이스는 사용자의 뇌전도(Electroencephalogram: EEG)를 획득하여 생각만으로 기계를 제어하거나 신체장애를 가진 사람에게 손 또는 발과 같은 신체를 대신하여 의사 전달 수단으로 사용될 수 있다. 본 논문에서는 동작 상상 EEG를 분류하기 위해 Sub-Band Common Spatial Pattern(SBCSP)를 기반으로 필터 선택을 하지 않는 특징 추출 방법에 대해 연구한다. 4~40Hz의 동작 상상 신호를 4Hz 대역마다 나눈 9개의 서브 밴드에 각각 CSP를 적용한다. 이후 Fisher's Linear Discriminant(FLD)를 사용하여 도출된 값들을 결합한 FLD 점수 벡터에 차원 축소를 위한 Principal Component Analysis(PCA)를 적용하여 클래스 구분을 위한 최적의 평면에 특징을 투영한다. 데이터베이스는 BCI CompetitionIII dataset IVa(2 클래스: 오른손 다리)를 이용하며, 추출된 특징은 Least Squares Support Vector Machine(LS-SVM)의 입력으로 사용된다. 제안된 방법의 성능은 $10{\times}10$ fold cross-validation을 이용하여 분류 정확도로 나타낸다. 본 논문에서 제안하는 방법은 피험자 'aa', 'al', 'av', 'aw', 'ay'에 대하여 각각 $85.29{\pm}0.93%$, $95.43{\pm}0.57%$, $72.57{\pm}2.37%$, $91.82{\pm}1.38%$, $93.50{\pm}0.69%$의 분류 정확도를 보였다.

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

분류 알고리즘과 NCA를 활용한 기계학습 기반 구조건전성 모니터링 시스템 (Machine Learning Based Structural Health Monitoring System using Classification and NCA)

  • 신창교;권현석;박유림;김천곤
    • 한국항행학회논문지
    • /
    • 제23권1호
    • /
    • pp.84-89
    • /
    • 2019
  • 본 연구는 복합재 항공기의 비행 데이터를 활용한 기계학습 기반 구조건전성 모니터링 시스템 연구의 예비 연구이다. 본 연구에서는 구조건전성 모니터링에 이용되기에 가장 적합한 기계학습 알고리즘을 선별하고, 실 기체 데이터에 대한 적용을 위해 차원 축소를 수행하였다. 이를 위해 외팔보를 통해 모사된 항공기 날개 구조와 부가 질량을 통해 손상 모사 실험을 진행하고, 분류 알고리즘을 통해 데이터를 손상의 위치와 정도에 따라 구분하였다. 이를 위해 FBG (fiber bragg grating) 센서를 부착한 외팔보의 진동 실험을 통해 정상상태와 12개의 손상상태에 대한 데이터를 취득하고, MATLAB 환경에서 tree, discriminant, SVM (support vector machine), kNN, ensemble 알고리즘의 비교와 파라미터 튜닝을 통해 가장 적합한 알고리즘을 도출하였다. 또한 NCA (neighborhood component analysis)를 이용한 특징 선택을 통해, 실 기체에서 나올 수 있는 고차원 데이터의 관리를 위해 필요한 차원 축소를 수행하였다. 그 결과, quadratic SVM이 NCA를 적용하지 않은 모델에서 98.7%, NCA를 적용한 모델에서 95.9%로 가장 높은 정답률을 보였다. 또한 NCA 적용 후 모델의 예측 속도, 학습 시간, 용량이 모두 향상되었다.

데이터 증가를 통한 선형 모델의 일반화 성능 개량 (중심극한정리를 기반으로) (Improvement of generalization of linear model through data augmentation based on Central Limit Theorem)

  • 황두환
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.19-31
    • /
    • 2022
  • 기계학습 모델 구축 간 트레이닝 데이터를 활용하며, 훈련 간 사용되지 않은 테스트 데이터를 활용하여 모델의 정확도와 일반화 성능을 판단한다. 일반화 성능이 낮은 모델의 경우 새롭게 받아들이게 되는 데이터에 대한 예측 정확도가 현저히 감소하게 되며 이러한 현상을 두고 모델이 과적합 되었다고 한다. 본 연구는 중심극한정리를 기반으로 데이터를 생성 및 기존의 훈련용 데이터와 결합하여 새로운 훈련용 데이터를 구성하고 데이터의 정규성을 증가시킴과 동시에 이를 활용하여 모델의 일반화 성능을 증가시키는 방법에 대한 것이다. 이를 위해 중심극한정리의 성질을 활용해 데이터의 각 특성별로 표본평균 및 표준편차를 활용하여 데이터를 생성하였고, 새로운 훈련용 데이터의 정규성 증가 정도를 파악하기 위하여 Kolmogorov-Smirnov 정규성 검정을 진행한 결과, 새로운 훈련용 데이터가 기존의 데이터에 비해 정규성이 증가하였음을 확인할 수 있었다. 일반화 성능은 훈련용 데이터와 테스트용 데이터에 대한 예측 정확도의 차이를 통해 측정하였다. 새롭게 생성된 데이터를 K-Nearest Neighbors(KNN), Logistic Regression, Linear Discriminant Analysis(LDA)에 적용하여 훈련시키고 일반화 성능 증가정도를 파악한 결과, 비모수(non-parametric) 기법인 KNN과 모델 구성 간 정규성을 가정으로 갖는 LDA의 경우에 대하여 일반화 성능이 향상되었음을 확인할 수 있었다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.