• 제목/요약/키워드: statistical classifier

검색결과 159건 처리시간 0.021초

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

발화행태 특징을 활용한 응급상황 신고자 연령분류 (Age classification of emergency callers based on behavioral speech utterance characteristics)

  • 손귀영;권순일;백성욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권6호
    • /
    • pp.96-105
    • /
    • 2017
  • 본 논문에서는 실제 응급상황센터에 접수된 신고전화의 음성분석을 통하여 발화자의 연령을 분류하고자 한다. 2가지 발화행태적 특징요소인 무성휴지(Silent Pause), 대화반응시간(Turn-taking latency)를 활용하여 성인과 노인을 분류할 수 있는 특징에 대한 분류기준을 선정하고, 이를 기계학습 분류기인 SVM(Support Vector Machine)을 활용하여 분류정확도를 확인하였다. 먼저, 응급상황센터의 실제 신고전화에 대하여 발화행태적 특징 요소를 기반으로 청취분석을 통하여 발생길이에 대하여 성인과 노인사이에 통계적으로 유의하다는 것을 확인하였다(p<0.05). 또한, 성인과 노인 각 100개, 총 200개의 음성데이터를 5차 교차검증방법을 사용하여 기계학습을 실행한 결과, 2가지의 발화행태를 모두 사용한 복합기준(무성휴지+대화반응시간)일 경우, 70%의 가장 높은 분류정확도를 확인할 수 있었다. 본 연구의 결과는 음성에 기반한 연령을 분류하는 연구에 있어서, 기존의 음성정보와 더불어, 새로운 발화행태적 특징요소와의 결합을 통하여 연령구분을 가능하게 하는 새로운 방법으로 제안할 수 있을 것이다. 또한, 향후 음성기반 상황판단 시스템 기술 개발에 있어서 기초자료로 적용이 가능하며, 이를 통하여 신속한 연령분류를 판단을 통한 상황대처가 가능하도록 하는 데에 기여할 수 있을 것이다.

웨이블릿 부대역의 히스토그램 특성과 통계적 모멘트를 이용한 스테그분석 (Steganalysis Using Histogram Characteristic and Statistical Moments of Wavelet Subbands)

  • 현승화;박태희;김영인;김유신;엄일규
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.57-65
    • /
    • 2010
  • 본 논문은 스테가노그래피 알고리즘에 대한 블라인드 스테그분석 기법을 제안한다. 제안하는 스테그분석기법은 두 가지 형태의 특징 벡터를 추출한다. 첫 번째로, 영상에 정보를 은닉한 후 웨이블릿 부대역의 히스토그램 특성이 변한다는 것을 관찰하고 히스토그램의 위치 변화를 특징으로 이용한다. 두 번째로, 웨이블릿 특성 함수의 통계적 모멘트를 특징으로 이용한다. 첫번째 형태의 특징은 영상을 3-레벨 웨이블릿 변환하여 9개의 고주파 부대역에서 각각 하나의 특징을 추출하여 총 9개의 특징 벡터 얻는다. 두 번째 형태의 특징은 각 부대역별로 3차 모멘트까지 추출하여 39개의 특징 벡터를 얻는다. 총 48개의 특징 벡터를 교사학습을 이용하여 학습한 후 스테고 영상과 커버 영상을 분류한다. 다층 퍼셉트론 신경망 분류기를 이용하여 두 가지 형태의 특징을 입력으로 하여 삽입 데이터의 존재유무를 판별한다. 제안 방법의 성능을 평가하기 위하여 CorelDraw 데이터베이스 영상이 사용되었고 LSB 방법과 SS방법, blind SS방법, F5방법으로 다양한 삽입률의 스테고 영상을 생성하여 실험한다. 민감도와 특이도, 에러율, ROC 커브 면적 등을 이용하여 제안 방법이 기존의 스테그분석 방법보다 삽입 정보 유무를 검출하는데 효과적임을 보여준다.

Classification of Water Areas from Satellite Imagery Using Artificial Neural Networks

  • Sohn, Hong-Gyoo;Song, Yeong-Sun;Jung, Won-Jo
    • Korean Journal of Geomatics
    • /
    • 제3권1호
    • /
    • pp.33-41
    • /
    • 2003
  • Every year, several typhoons hit the Korean peninsula and cause severe damage. For the prevention and accurate estimation of these damages, real time or almost real time flood information is essential. Because of weather conditions, images taken by optic sensors or LIDAR are sometimes not appropriate for an accurate estimation of water areas during typhoon. In this case SAR (Synthetic Aperture Radar) images which are independent of weather condition can be useful for the estimation of flood areas. To get detailed information about floods from satellite imagery, accurate classification of water areas is the most important step. A commonly- and widely-used classification methods is the ML(Maximum Likelihood) method which assumes that the distribution of brightness values of the images follows a Gaussian distribution. The distribution of brightness values of the SAR image, however, usually does not follow a Gaussian distribution. For this reason, in this study the ANN (Artificial Neural Networks) method independent of the statistical characteristics of images is applied to the SAR imagery. RADARS A TSAR images are primarily used for extraction of water areas, and DEM (Digital Elevation Model) is used as supplementary data to evaluate the ground undulation effect. Water areas are also extracted from KOMPSAT image achieved by optic sensors for comparison purpose. Both ANN and ML methods are applied to flat and mountainous areas to extract water areas. The estimated areas from satellite imagery are compared with those of manually extracted results. As a result, the ANN classifier performs better than the ML method when only the SAR image was used as input data, except for mountainous areas. When DEM was used as supplementary data for classification of SAR images, there was a 5.64% accuracy improvement for mountainous area, and a similar result of 0.24% accuracy improvement for flat areas using artificial neural networks.

  • PDF

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.

데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석 (An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining)

  • 이영섭;오현정;김미경
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.343-354
    • /
    • 2005
  • 데이터 마이닝에서 데이터를 효율적으로 분류하고자 할 때 많이 사용하고 있는 알고리즘을 실제 자료에 적용시켜 분류성능을 비교하였다. 분류자 생성기법으로는 의사결정나무기법 중의 하나인 CART, 배깅과 부스팅 알고리즘을 CART 모형에 결합한 분류자, 그리고 SVM 분류자를 비교하였다. CART는 결과 해석이 쉬운 장점을 가지고 있지만 데이터에 따라 생성된 분류자가 다양하여 불안정하다는 단점을 가지고 있다. 따라서 이러한 CART의 단점을 보완한 배깅 또는 부스팅 알고리즘과의 결합을 통해 분류자를 생성하고 그 성능에 대해 평가하였다. 또한 최근 들어 분류성능을 인정받고 있는 SVM의 분류성능과도 비교?평가하였다. 각 기법에 의한 분류 결과를 가지고 의사결정나무를 형성하여 자료가 가지는 데이터의 특성에 따른 분류 성능을 알아보았다. 그 결과 데이터의 결측치가 없고 관측값의 수가 적은 경우는 SVM의 분류성능이 뛰어남을 알 수 있었고, 관측값의 수가 많을 때에는 부스팅 알고리즘의 분류성능이 뛰어났으며, 데이터의 결측치가 존재하는 경우는 배깅의 분류성능이 뛰어남을 알 수 있었다.

수리계획법을 이용한 서포트 벡터 기계 방법에 관한 연구 (Study on Support Vector Machines Using Mathematical Programming)

  • 윤민;이학배
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.421-434
    • /
    • 2005
  • 기계학습은 패턴분류의 한 도구로써 광범위하게 연구되고 있다. 기계학습 방법들 중에서 서포트 벡터 기계(Support Vector Machines)는 많은 분야에서 연구되어지는 것으로 이진 패턴 분류문제에서 고차원의 특징공간에서 두 집합들 사이에 가장 큰 분리를 제공하는 최대 여유도(margin)를 가지는 분리 초평면을 찾는 것이다. 최대 여유도의 분리의 개념에 기초하여 Mangasarian(1968)은 다중-표면 방법(multi-surface method)을 제안하였고, 1980년대에 목적 계획법을 이용한 방법들이 광범위하게 개발되었다. 본 논문에서는 다목적 계획법과 목적 계획법을 이용한 수리계획법인 서포트 벡터 기계의 두가지 방법들을 제안하고 수치 예제들을 통하여 효용성에 대하여 논의하고자 한다.

SNP와 양적 표현형의 연관성 분석을 위한 분류기 (A Classifier for the association study between SNPs and quantitative traits)

  • 엄상용;이광모
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권11호
    • /
    • pp.141-148
    • /
    • 2012
  • 인간 유전체 정보와 관련된 기술이 발전함으로 인하여 이를 이용한 질환 또는 질병에 대한 연관성을 분석하여 그 위험도나 치료 예후 등에 대한 예측하기 위한 연구가 활발히 진행되고 있다. 이러한 연구의 대부분은 대표적인 질적 표현형을 대상으로 하는 환자-대조군 연구(case-control study) 방법을 이용하고 있으며 양적 표현형에 대해서는 개별 단일 염기 변이의 연관성을 회기 분석 방법을 이용하여 규명하는 연구가 주로 수행되고 있다. 특히 복합 질병(complex disease)에 대한 위험도를 예측하기 위한 연구의 경우 흔한 변이 흔한 질환(common variants common disease)의 가정아래 주로 각각의 단일 염기 변이가 보이는 연관성 정보를 기반으로 진행되고 있으며 여러 변이의 상호 작용에 의한 영향을 분석한 결과는 상대적으로 미비하다. 이 논문에서는 양적 표현형에 대한 SNP의 연관성을 분석하고 그 결과로 발견된 SNP을 이용하여 대상 표현형의 값을 예측하기 위한 분류기를 구성하고 그 성능을 평가하였으며 분류기의 단일 염기 변이의 선택에 있어서 각각의 단일 염기 변이의 연관성을 고려할 때와 단일 염기 변이의 쌍이 보이는 연관성을 고려할 때의 분류 성능을 비교하였다.

분광 유사도 커널을 이용한 하이퍼스펙트럴 영상의 Support Vector Machine(SVM) 분류 (Support Vector Machine Classification of Hyperspectral Image using Spectral Similarity Kernel)

  • 최재완;변영기;김용일;유기윤
    • 대한공간정보학회지
    • /
    • 제14권4호통권38호
    • /
    • pp.71-77
    • /
    • 2006
  • 통계학습이론에 기반하고 있는 Support Vector Machine(SVM)은 구조적 위험 최소화원리를 바탕으로 하는 학습 알고리즘이다. 일반적으로SVM은 비선형 경계를 결정하고 자료를 분류하기 위해서 커널(kernel)을 사용한다. 그러나 기존의 커널들은 두 벡터간의 내적이나 거리차를 이용하여 유사도를 측정하기 때문에 하이퍼스펙트럴 영상분류에 효과적으로 적용될 수 없다. 본 논문에서는 이를 해결하기 위해서 분광유사도커널(Spectral similarity kernel)을 제안한다. 분광유사도 커널은 두 벡터의 거리차와 각 차이를 모두 계산하는 지역적 커널로 하이퍼스펙트럴 영상의 분광특성을 효과적으로 고려할 수 있다. 이를 검증하기 위해서 Hyperion 영상에 polynomial kernel, RBF kernel을 사용한 SVM 분류기와 분광유사도 커널을 사용한 SVM 분류기를 적용하여 토지피복분류를 시행하였다. 분류결과를 통해서 분광유사도 커널을 사용한 SVM 분류기가 정량적, 공간적으로 가장 우수한 결과를 보임을 확인하였다.

  • PDF