• 제목/요약/키워드: synthetic data sampling

검색결과 44건 처리시간 0.022초

Experimental Analysis of Equilibrization in Binary Classification for Non-Image Imbalanced Data Using Wasserstein GAN

  • Wang, Zhi-Yong;Kang, Dae-Ki
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.37-42
    • /
    • 2019
  • In this paper, we explore the details of three classic data augmentation methods and two generative model based oversampling methods. The three classic data augmentation methods are random sampling (RANDOM), Synthetic Minority Over-sampling Technique (SMOTE), and Adaptive Synthetic Sampling (ADASYN). The two generative model based oversampling methods are Conditional Generative Adversarial Network (CGAN) and Wasserstein Generative Adversarial Network (WGAN). In imbalanced data, the whole instances are divided into majority class and minority class, where majority class occupies most of the instances in the training set and minority class only includes a few instances. Generative models have their own advantages when they are used to generate more plausible samples referring to the distribution of the minority class. We also adopt CGAN to compare the data augmentation performance with other methods. The experimental results show that WGAN-based oversampling technique is more stable than other approaches (RANDOM, SMOTE, ADASYN and CGAN) even with the very limited training datasets. However, when the imbalanced ratio is too small, generative model based approaches cannot achieve satisfying performance than the conventional data augmentation techniques. These results suggest us one of future research directions.

P2P 대부 우수 대출자 예측을 위한 합성 소수집단 오버샘플링 기법 성과에 관한 탐색적 연구 (Exploring the Performance of Synthetic Minority Over-sampling Technique (SMOTE) to Predict Good Borrowers in P2P Lending)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.71-78
    • /
    • 2019
  • 본 연구는 P2P 대부 플랫폼에서 우수 대출자를 예측시 유용한 합성 소수집단 오버샘플링 기법을 제안하고 그 성과를 실증적으로 검증하고자 한다. P2P 대부 관련 우수 대출자를 추정할 때 일어나는 문제점중의 하나는 클래스 간 불균형이 심하여 이를 해결하지 않고서는 우수 대출자 예측이 쉽지 않다는 점이다. 이러한 문제를 해결하기 위하여 본 연구에서는 SMOTE, 즉 합성 소수집단 오버샘플링 기법을 제안하고 LendingClub 데이터셋에 적용하여 성과를 검증하였다. 검증결과 SMOTE 방법은 서포트 벡터머신, k-최근접이웃, 로지스틱 회귀, 랜덤 포레스트, 그리고 딥 뉴럴네트워크 분류기와 비교하여 통계적으로 우수한 성과를 보였다.

Intelligent LoRa-Based Positioning System

  • Chen, Jiann-Liang;Chen, Hsin-Yun;Ma, Yi-Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권9호
    • /
    • pp.2961-2975
    • /
    • 2022
  • The Location-Based Service (LBS) is one of the most well-known services on the Internet. Positioning is the primary association with LBS services. This study proposes an intelligent LoRa-based positioning system, called AI@LBS, to provide accurate location data. The fingerprint mechanism with the clustering algorithm in unsupervised learning filters out signal noise and improves computing stability and accuracy. In this study, data noise is filtered using the DBSCAN (Density-Based Spatial Clustering of Applications with Noise) algorithm, increasing the positioning accuracy from 95.37% to 97.38%. The problem of data imbalance is addressed using the SMOTE (Synthetic Minority Over-sampling Technique) technique, increasing the positioning accuracy from 97.38% to 99.17%. A field test in the NTUST campus (www.ntust.edu.tw) revealed that AI@LBS system can reduce average distance error to 0.48m.

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

사출성형공정에서 데이터의 불균형 해소를 위한 담금질모사 (Simulated Annealing for Overcoming Data Imbalance in Mold Injection Process)

  • 이동주
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.233-239
    • /
    • 2022
  • The injection molding process is a process in which thermoplastic resin is heated and made into a fluid state, injected under pressure into the cavity of a mold, and then cooled in the mold to produce a product identical to the shape of the cavity of the mold. It is a process that enables mass production and complex shapes, and various factors such as resin temperature, mold temperature, injection speed, and pressure affect product quality. In the data collected at the manufacturing site, there is a lot of data related to good products, but there is little data related to defective products, resulting in serious data imbalance. In order to efficiently solve this data imbalance, undersampling, oversampling, and composite sampling are usally applied. In this study, oversampling techniques such as random oversampling (ROS), minority class oversampling (SMOTE), ADASYN(Adaptive Synthetic Sampling), etc., which amplify data of the minority class by the majority class, and complex sampling using both undersampling and oversampling, are applied. For composite sampling, SMOTE+ENN and SMOTE+Tomek were used. Artificial neural network techniques is used to predict product quality. Especially, MLP and RNN are applied as artificial neural network techniques, and optimization of various parameters for MLP and RNN is required. In this study, we proposed an SA technique that optimizes the choice of the sampling method, the ratio of minority classes for sampling method, the batch size and the number of hidden layer units for parameters of MLP and RNN. The existing sampling methods and the proposed SA method were compared using accuracy, precision, recall, and F1 Score to prove the superiority of the proposed method.

FASIM: Fragments Assembly Simulation using Biased-Sampling Model and Assembly Simulation for Microbial Genome Shotgun Sequencing

  • Hur Cheol-Goo;Kim Sunny;Kim Chang-Hoon;Yoon Sung-Ho;In Yong-Ho;Kim Cheol-Min;Cho Hwan-Gue
    • Journal of Microbiology and Biotechnology
    • /
    • 제16권5호
    • /
    • pp.683-688
    • /
    • 2006
  • We have developed a program for generating shotgun data sets from known genome sequences. Generation of synthetic data sets by computer program is a useful alternative to real data to which students and researchers have limited access. Uniformly-distributed-sampling clones that were adopted by previous programs cannot account for the real situation where sampled reads tend to come from particular regions of the target genome. To reflect such situation, a probabilistic model for biased sampling distribution was developed by using an experimental data set derived from a microbial genome project. Among the experimental parameters tested (varied fragment or read lengths, chimerism, and sequencing error), the extent of sequencing error was the most critical factor that hampered sequence assembly. We propose that an optimum sequencing strategy employing different insert lengths and redundancy can be established by performing a variety of simulations.

소지역 추정방법을 이용한 실업자 수 추정 사례연구 (Estimation of the Number of the Unemployed Using Small Area Estimation Methods)

  • 권세혁
    • 한국조사연구학회지:조사연구
    • /
    • 제10권1호
    • /
    • pp.141-154
    • /
    • 2009
  • 정보화 사회에서는 목표지향적이고 세분화된 통계의 필요성이 높아지고 있으나 현재 사용되는 조사체계를 이용하면 추정 분산이 커져 생산된 통계의 정확도가 낮아진다. 표본크기를 늘리면 추정분산을 줄일 수 있으나 비용이나 시간 면에서는 비효율적이다. 현재와 비슷한 규모의 표본조사구 조사와 일반 행정통계를 이용하여 일정 신뢰수준을 갖춘 통계를 생산할 수 있는 소지역 추정법에 대한 연구가 진행되어 개발 적용되고 있다. 본 연구에서는 소지역 추정법을 활용하여 대전광역시의 5개 구별 실업자 수를 추정하고 추정치의 CV 값을 계산하여 추정방법의 효율성을 비교하는 사례분석을 실시하였다. 또한 합성추정량과 복합추정량의 MSE를 보다 정확하게 계산하는 방법으로 잭나이프 방법을 제안하고 계산방법을 보였다.

  • PDF

트리밍 방식 수정을 통한 연관규칙 마이닝 개선 (Improved Association Rule Mining by Modified Trimming)

  • 황원태;김동승
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.15-21
    • /
    • 2008
  • 본 논문은 2단 샘플링을 통해 정확도는 줄지만 신속하게 연관규칙을 추출하는 새로운 마이닝 알고리즘을 제안한다. 직전 연구인 FAST(Finding Association by Sampling Technique) 기법은 빈발1항목만 최적샘플 형성과정에 적용하여 빈발2항목 및 그이상의 빈발항목을 샘플 추출에 반영하지 못하였다. 이 논문은 그러한 약점을 보완하여 트리밍 과정에서 손실항목과 오류항목의 비중을 동시에 고려하여 다수 빈발항목에 대한 마이닝의 정확성을 높였다. 대표적인 데이터 세트를 써서 실험한 결과 이전연구와 비교해서 동일한 품질하에서 새 알고리즘의 정확도가 향상됨을 확인하였다.

불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법 (A Hybrid Oversampling Technique for Imbalanced Structured Data based on SMOTE and Adapted CycleGAN)

  • 노정담;최병구
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.97-118
    • /
    • 2022
  • 이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형 데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형 데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고 있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에 맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드 오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원 합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고 그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교 결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한 오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

변수 선택 및 샘플링 기법을 적용한 조류 경보 단계 예측 모델의 정확도 개선 (Environmental variable selection and synthetic sampling methods for improving the accuracy of algal alert level prediction model)

  • 김진휘;이한규;변서현;신재기;박용은
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.517-517
    • /
    • 2023
  • 현재 우리나라에서는 4대강 및 주요 호소 29지점을 대상으로 조류경보제가 시행되고 있으며 조류 경보 단계는 실시간 모니터링지점에서 측정되는 유해 조류의 셀농도를 기반으로 발령 단계가 결정된다. 상수원 구간은 관심, 경계, 조류 대발생, 해제 또는 미발생 총 4구간으로 구성되며, 친수 활동 구간의 경우 조류 대발생을 제외한 3구간으로 구성된다. 현재 시행되는 조류 경보제의 목적은 유해 조류 발생 시 사후 대응 방안 마련에 보다 초점이 맞춰져 있으며 특히, 모니터링 주기 확대 여부, 오염원 관리 방안 마련, 조류 제거 여부 등의 의사 결정 수단으로 사용되고 있다. 하지만 조류 경보 단계에 대한 사전 예측이 가능한 경우 유해 조류의 성장을 억제할 수 있으며 이를 통해 안전하고 깨끗한 수자원을 확보할 수 있다. 본 연구에서는 조류 경보 단계의 사전적 예측을 위해 국가 실시간 측정망에서 제공하는 전국 보 모니터링 종합 정보 자료, 기상측정망 자료, 실시간 보 현황 자료를 활용하여 예측 모델을 구축하였다. 또한, 단계 예측의 정확도를 개선하기 위해 변수 선택 기법을 활용하여 조류 경보 단계에 영향을 미치는 환경변수를 선정하였으며 자료의 불균형으로 인해 모델 학습 과정에서 발생하는 예측 오류를 최소화하기 위해 다양한 샘플링 기법을 적용하여 모델의 성능을 평가하였다. 변수 선택 및 샘플링 기법을 고려하지 않은 원자료를 사용하여 예측 모델을 구축한 결과 관심 단계(Level-1) 및 경보 단계(Level-2)에 대해 각각 50%, 62.5%의 예측 정확도를 보인 반면 비선형 변수 선택 기법 및 Synthetic Minority Over-sampling Technique-Edited Nearrest Neighbor(SMOTE-ENN) 샘플링 기법을 적용하여 구축한 모델에서는 Level-1은 85.7%, Level-2는 75.0%의 예측 정확도를 보였다.

  • PDF