• 제목/요약/키워드: ensemble training

검색결과 126건 처리시간 0.022초

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

신용카드 불법현금융통 적발을 위한 축소된 앙상블 모형 (Illegal Cash Accommodation Detection Modeling Using Ensemble Size Reduction)

  • 이화경;한상범;지원철
    • 지능정보연구
    • /
    • 제16권1호
    • /
    • pp.93-116
    • /
    • 2010
  • 불법현금융통 적발모형 개발에 앙상블 접근방법을 사용하였다. 불법현금융통은 국내 신용카드사의 손익에 영향을 미치며 최근 국제화되고 있음에도 불구하고 학문적인 접근이 이루어지지 않았다. 부정행위 적발모형(Fraud Detection Model, FDM)은 데이터 불균형 문제로 인하여 좋은 성능을 얻기 어려운데, 다수의 모형을 결합하는 앙상블이 대안으로 제시되어 왔다. 앙상블에 포함된 모형들의 다양성이 보장된다면 단일모형에 비해 더 좋은 성능을 보인다는 점은 이미 인정되고 있으며, 최근 연구 결과는 학습된 모든 기본모형들을 사용하는 것보다 적절한 기본모형들만 선택하여 앙상블에 포함시키는 것이 바람직하다는 것이다. 본 논문에서는 효과적인 불법현금융통 적발을 위하여 축소된 앙상블 기법을 사용하는데, 정확성과 다양성 척도를 사용하여 앙상블에 참여할 기본모형을 선택하는 것이다. 다양성은 앙상블을 구성하는 기본모형들 사이의 불일치 (Disagreement or Ambiguity)를 의미하는데, FDM에 내재된 데이터 불균형문제를 고려하여 두 가지 측면에 중점을 두었다. 첫째, 학습 자료의 추출 과정에서 다양성을 확보하기 위한 소수 범주의 과잉추출 방법과 적절한 훈련 방법에 대해 설명하였다. 둘째, 소수범주에 초점을 맞추어 기존의 다양성 척도를 효과적인 척도로 변형시키고, 전진추가법과 후진소거법의 동적 다양성 계산법을 도입하여 앙상블에 참여할 기본모형을 평가하였다. 실험에 사용된 학습 알고리즘은 신경망, 의사결정수와 로짓 회귀분석이었으며, 동질적 앙상블과 이질적 앙상블을 구성하여 성능평가를 하였다. 실험결과 불법현금융통 적발모형에 있어 축소된 앙상블은 모든 기본모형이 포함된 앙상블과 성능 차이가 없었다. 축소된 앙상블은 앙상블 구성의 복잡성을 감소시키고 구현을 용이하게 한다는 점에서 FDM에서도 유력한 모형 수립 접근방법이 될 수 있음을 보였다.

Application of couple sparse coding ensemble on structural damage detection

  • Fallahian, Milad;Khoshnoudian, Faramarz;Talaei, Saeid
    • Smart Structures and Systems
    • /
    • 제21권1호
    • /
    • pp.1-14
    • /
    • 2018
  • A method is proposed to detect structural damages in the presence of damping using noisy data. This method uses Frequency Response Function (FRF) and Mode-Shapes as the input parameters for a system of Couple Sparse Coding (CSC) to study the healthy state of the structure. To obtain appropriate patterns of FRF for CSC training, Principal Component Analysis (PCA) technique is adopted to reduce the full-size FRF to overcome over-fitting and convergence problems in machine-learning training. To verify the proposed method, a numerical two-story frame structure is employed. A system of individual CSCs is trained with FRFs and mode-shapes, and then termed ensemble to detect the health condition of the structure. The results demonstrate that the proposed method is accurate in damage identification even in presence of up to 20% noisy data and 5% unconsidered damping ratio. Furthermore, it can be concluded that CSC ensemble is highly efficient to detect the location and the severity of damages in comparison to the individual CSC trained only with FRF data.

고차원 데이터에서 One-class SVM과 Spectral Clustering을 이용한 이진 예측 이상치 탐지 방법 (A Binary Prediction Method for Outlier Detection using One-class SVM and Spectral Clustering in High Dimensional Data)

  • 박정희
    • 한국멀티미디어학회논문지
    • /
    • 제25권6호
    • /
    • pp.886-893
    • /
    • 2022
  • Outlier detection refers to the task of detecting data that deviate significantly from the normal data distribution. Most outlier detection methods compute an outlier score which indicates the degree to which a data sample deviates from normal. However, setting a threshold for an outlier score to determine if a data sample is outlier or normal is not trivial. In this paper, we propose a binary prediction method for outlier detection based on spectral clustering and one-class SVM ensemble. Given training data consisting of normal data samples, a clustering method is performed to find clusters in the training data, and the ensemble of one-class SVM models trained on each cluster finds the boundaries of the normal data. We show how to obtain a threshold for transforming outlier scores computed from the ensemble of one-class SVM models into binary predictive values. Experimental results with high dimensional text data show that the proposed method can be effectively applied to high dimensional data, especially when the normal training data consists of different shapes and densities of clusters.

Ensemble Deep Learning Features for Real-World Image Steganalysis

  • Zhou, Ziling;Tan, Shunquan;Zeng, Jishen;Chen, Han;Hong, Shaobin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권11호
    • /
    • pp.4557-4572
    • /
    • 2020
  • The Alaska competition provides an opportunity to study the practical problems of real-world steganalysis. Participants are required to solve steganalysis involving various embedding schemes, inconsistency JPEG Quality Factor and various processing pipelines. In this paper, we propose a method to ensemble multiple deep learning steganalyzers. We select SRNet and RESDET as our base models. Then we design a three-layers model ensemble network to fuse these base models and output the final prediction. By separating the three colors channels for base model training and feature replacement strategy instead of simply merging features, the performance of the model ensemble is greatly improved. The proposed method won second place in the Alaska 1 competition in the end.

Performance Enhancement of Automatic Wood Classification of Korean Softwood by Ensembles of Convolutional Neural Networks

  • Kwon, Ohkyung;Lee, Hyung Gu;Yang, Sang-Yun;Kim, Hyunbin;Park, Se-Yeong;Choi, In-Gyu;Yeo, Hwanmyeong
    • Journal of the Korean Wood Science and Technology
    • /
    • 제47권3호
    • /
    • pp.265-276
    • /
    • 2019
  • In our previous study, the LeNet3 model successfully classified images from the transverse surfaces of five Korean softwood species (cedar, cypress, Korean pine, Korean red pine, and larch). However, a practical limitation exists in our system stemming from the nature of the training images obtained from the transverse plane of the wood species. In real-world applications, it is necessary to utilize images from the longitudinal surfaces of lumber. Thus, we improved our model by training it with images from the longitudinal and transverse surfaces of lumber. Because the longitudinal surface has complex but less distinguishable features than the transverse surface, the classification performance of the LeNet3 model decreases when we include images from the longitudinal surfaces of the five Korean softwood species. To remedy this situation, we adopt ensemble methods that can enhance the classification performance. Herein, we investigated the use of ensemble models from the LeNet and MiniVGGNet models to automatically classify the transverse and longitudinal surfaces of the five Korean softwoods. Experimentally, the best classification performance was achieved via an ensemble model comprising the LeNet2, LeNet3, and MiniVGGNet4 models trained using input images of $128{\times}128{\times}3pixels$ via the averaging method. The ensemble model showed an F1 score greater than 0.98. The classification performance for the longitudinal surfaces of Korean pine and Korean red pine was significantly improved by the ensemble model compared to individual convolutional neural network models such as LeNet3.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

트래픽 데이터의 통계적 기반 특징과 앙상블 학습을 이용한 토르 네트워크 웹사이트 핑거프린팅 (Tor Network Website Fingerprinting Using Statistical-Based Feature and Ensemble Learning of Traffic Data)

  • 김준호;김원겸;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권6호
    • /
    • pp.187-194
    • /
    • 2020
  • 본 논문은 클라이언트의 익명성과 개인 정보를 보장하는 토르 네트워크에서 앙상블 학습을 이용한 웹사이트 핑거프린팅 방법을 제안한다. 토르네트워크에서 수집된 트래픽 패킷들로부터 웹사이트 핑거프린팅을 위한 훈련 문제를 구성하며, 트리 기반 앙상블 모델을 적용한 웹사이트 핑거프린팅 시스템의 성능을 비교한다. 훈련 특징 벡터는 트래픽 시퀀스에서 추출된 범용 정보, 버스트, 셀 시퀀스 길이, 그리고 셀 순서로부터 준비하며, 각 웹사이트의 특징은 고정 길이로 표현된다. 실험 평가를 위해 웹사이트 핑거프린팅의 사용에 따른 4가지 학습 문제(Wang14, BW, CWT, CWH)를 정의하고, CUMUL 특징 벡터를 사용한 지지 벡터 기계 모델과 성능을 비교한다. 실험 평가에서, BW 경우를 제외하고 제안하는 통계 기반 훈련 특징 표현이 CUMUL 특징 표현보다 우수하다.

영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과 (Effect of Application of Ensemble Method on Machine Learning with Insufficient Training Set in Developing Automated English Essay Scoring System)

  • 이경호;이공주
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1124-1132
    • /
    • 2015
  • 일반적으로, 교사 학습 알고리즘이 적절히 학습되기 위해서는 레이블의 편향이 없는 충분한 양의 학습데이터가 필요하다. 그러나 영작문 자동채점 시스템 개발을 위한 충분하고 편향되지 않은 학습데이터를 수집하는 것은 어려운 일이다. 또한 영어 작문 평가의 경우, 전체적인 답안 수준에 대한 다면적인 평가가 이루어진다. 적고 편향되기 쉬운 학습데이터와 이를 이용한 여러 평가영역에 대한 학습모델을 생성해야하기 때문에, 이를 위한 적절한 기계학습 알고리즘을 결정하기 어렵다. 본 논문에서는 이러한 문제를 앙상블학습을 통해 완화할 수 있음을 실험에 통해 보이고자 한다. 실제 중, 고등학교 학생들을 대상으로 시행된 단문형 영작문 채점 결과를 학습데이터 개수와 편향성을 조절하여 실험하였다. 학습데이터의 개수 변화와 편향성 변화의 실험 결과, 에이다부스트 알고리즘을 적용한 결과를 투표로 결합한 앙상블 기법이 다른 알고리즘들 보다 전반적으로 더 나은 성능을 나타냄을 실험을 통해 나타내었다.

동적 중요도 결정 방법을 이용한 새로운 앙상블 시스템 (A New Ensemble System using Dynamic Weighting Method)

  • 서동훈;이원돈
    • 한국정보통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1213-1220
    • /
    • 2011
  • 본 논문에서는 분류자들 속에 중요도 정보를 삽입하여 동적 중요도 결정이 가능한 앙상블 시스템을 제안하였다. 그동안 앙상블 시스템에서 중요도는 훈련이 끝나고 결정된 중요도를 사용하였다. 한 번 결정된 중요도는 테스트 데이터에 상관없이 정적으로 사용되었다. 이 문제를 푸는 방법으로 관문 네트워크에서 구조적으로 계층을 두는 프로세스를 추가하여 동적 중요도 결정이 가능하게 하는 방법이 있지만 프로세스가 추가된다는 단점이 있다. 본 논문에서는 이런 추가적인 프로세스 없이 간단하게 동적 중요도 결정이 가능한 방법을 보여주고 구조적 변경 없이 기존의 시스템에 쉽게 적용할 수 있으며 AdaBoost보다 나은 성능을 보여주는 알고리즘을 제안한다.