• 제목/요약/키워드: Oversampling Technique

검색결과 56건 처리시간 0.03초

A study on the characteristics of applying oversampling algorithms to Fosberg Fire-Weather Index (FFWI) data

  • Sang Yeob Kim;Dongsoo Lee;Jung-Doung Yu;Hyung-Koo Yoon
    • Smart Structures and Systems
    • /
    • 제34권1호
    • /
    • pp.9-15
    • /
    • 2024
  • Oversampling algorithms are methods employed in the field of machine learning to address the constraints associated with data quantity. This study aimed to explore the variations in reliability as data volume is progressively increased through the use of oversampling algorithms. For this purpose, the synthetic minority oversampling technique (SMOTE) and the borderline synthetic minority oversampling technique (BSMOTE) are chosen. The data inputs, which included air temperature, humidity, and wind speed, are parameters used in the Fosberg Fire-Weather Index (FFWI). Starting with a base of 52 entries, new data sets are generated by incrementally increasing the data volume by 10% up to a total increase of 100%. This augmented data is then utilized to predict FFWI using a deep neural network. The coefficient of determination (R2) is calculated for predictions made with both the original and the augmented datasets. Suggesting that increasing data volume by more than 50% of the original dataset quantity yields more reliable outcomes. This study introduces a methodology to alleviate the challenge of establishing a standard for data augmentation when employing oversampling algorithms, as well as a means to assess reliability.

A COMOS Oversampling Data Recovery Circuit With the Vernier Delay Generation Technique

  • Jun-Young Park
    • 한국통신학회논문지
    • /
    • 제25권10A호
    • /
    • pp.1590-1597
    • /
    • 2000
  • This paper describes a CMOS data recovery circuit using oversampling technique. Digital oversampling is done using a delay locked loop circuit locked to multiple clock periods. The delay locked loop circuit generates the vernier delay resolution less than the gate delay of the delay chain. The transition and non-transition counting algorithm for 4x oversampling was implemented for data recovery and verified through FPGA. The chip has been fabricated with 0.6um CMOS technology and measured results are presented.

  • PDF

불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법 (A Hybrid Oversampling Technique for Imbalanced Structured Data based on SMOTE and Adapted CycleGAN)

  • 노정담;최병구
    • 경영정보학연구
    • /
    • 제24권4호
    • /
    • pp.97-118
    • /
    • 2022
  • 이미지와 같은 비정형 데이터의 불균형 클래스 문제 해결에 있어 생산적 적대 신경망(generative adversarial network)에 기반한 오버샘플링 기법의 우수성이 알려짐에 따라 다양한 연구들이 이를 정형 데이터의 불균형 문제 해결에도 적용하기 시작하였다. 그러나 이러한 연구들은 데이터의 형태를 비정형 데이터 구조로 변경함으로써 정형 데이터의 특징을 정확하게 반영하지 못한다는 점이 문제로 지적되고 있다. 본 연구에서는 이를 해결하기 위해 순환 생산적 적대 신경망(cycle GAN)을 정형 데이터의 구조에 맞게 재구성하고 이를 SMOTE(synthetic minority oversampling technique) 기법과 결합한 하이브리드 오버샘플링 기법을 제안하였다. 특히 기존 연구와 달리 생산적 적대 신경망을 구성함에 있어 1차원 합성곱 신경망(1D-convolutional neural network)을 사용함으로써 기존 연구의 한계를 극복하고자 하였다. 본 연구에서 제안한 기법의 성능 비교를 위해 불균형 정형 데이터를 기반으로 오버샘플링을 진행하고 그 결과를 SMOTE, ADASYN(adaptive synthetic sampling) 등과 같은 기존 기법과 비교하였다. 비교 결과 차원이 많을수록, 불균형 정도가 심할수록 제안된 모형이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 기존 연구와 달리 정형 데이터의 구조를 유지하면서 소수 클래스의 특징을 반영한 오버샘플링을 통해 분류의 성능을 향상시켰다는 점에서 의의가 있다.

가중치 VAE 오버샘플링(W-VAE)을 이용한 보안데이터셋 샘플링 기법 연구 (A Data Sampling Technique for Secure Dataset Using Weight VAE Oversampling(W-VAE))

  • 강한바다;이재우
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1872-1879
    • /
    • 2022
  • 최근 인공지능 기술이 발전하면서 해킹 공격을 탐지하기 위해 인공지능을 이용하려는 연구가 활발히 진행되고 있다. 하지만, 인공지능 모델 개발에 핵심인 학습데이터를 구성하는데 있어서 보안데이터가 대표적인 불균형 데이터라는 점이 큰 장애물로 인식되고 있다. 이에 본 눈문에서는 오버샘플링을 위한 데이터 추출에 딥러닝 생성 모델인 VAE를 적용하고 K-NN을 이용한 가중치 계산을 통해 클래스별 오버샘플링 개수를 설정하여 샘플링을 하는 W-VAE 오버샘플링 기법을 제안한다. 본 논문에서는 공개 네트워크 보안 데이터셋인 NSL-KDD를 통해 ROS, SMOTE, ADASYN 등 총 5가지 오버샘플링 기법을 적용하였으며 본 논문에서 제안한 오버샘플링 기법이 F1-Score 평가지표를 통해 기존 오버샘플링 기법과 비교하여 가장 효과적인 샘플링 기법임을 증명하였다.

Improving BMI Classification Accuracy with Oversampling and 3-D Gait Analysis on Imbalanced Class Data

  • Beom Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권9호
    • /
    • pp.9-23
    • /
    • 2024
  • 본 연구에서는 3차원 보행 데이터 기반 체질량지수(Body Mass Index, BMI) 추정 기술의 분류 정확도를 향상시킬 수 있는 방법을 제안한다. BMI 추정 기술에 관해 기존 연구에서는 BMI 분류 정확도가 약 60%에 불과했다. 이에 본 연구에서는 먼저 BMI 분류 정확도가 낮았던 원인을 규명한다. 본 연구의 분석 결과에 따르면, 그 원인은 보행 데이터 세트의 클래스 불균형(Class Imbalance) 문제를 해결하기 위해 언더샘플링(Undersampling) 기법을 사용한 것에 있었다. 이에 본 연구에서는 언더샘플링 기법 대신 오버샘플링(Oversampling) 기법을 적용해 클래스 불균형 문제를 해결하는 것을 제안한다. 또한, 보행 데이터 기반 BMI 추정 기술에서 인체 측정학(Anthropometric) 특징과 시공간적(Spatiotemporal) 특징의 유용성을 재입증한다. 기존 연구에서는 언더샘플링 기법이 적용된 상태에서 인체 측정학 특징과 시공간적 특징의 유용성이 평가됐고, 두 특징을 함께 사용하면 단독으로 사용했을 때보다 BMI 추정 성능이 낮아진다고 보고됐다. 하지만 본 연구 결과에 따르면, 두 특징을 함께 사용하고 오버샘플링 기법을 적용했을 때 BMI 추정 문제에서 92.92%의 정확도로 SOTA(State-Of-The-Art) 성능을 달성하는 것을 보인다.

Factors affecting modulation transfer function measurements in cone-beam computed tomographic images

  • Choi, Jin-Woo
    • Imaging Science in Dentistry
    • /
    • 제49권2호
    • /
    • pp.131-137
    • /
    • 2019
  • Purpose: This study was designed to investigate the effects of voxel size, the oversampling technique, and the direction and area of measurement on modulation transfer function (MTF) values to identify the optimal method of MTF measurement. Materials and Methods: Images of the wire inserts of the SedentexCT IQ phantom were acquired, and MTF values were calculated under different conditions(voxel size of 0.1, 0.2, and 0.3 mm; 5 oversampling techniques; simulated pixel location errors; and different directions and areas of measurement). The differences in the MTF values across various conditions were evaluated. Results: The MTF 10 values showed smaller standard deviations than the MTF 50 values. Stable and accurate MTF values were obtained in the 0.1-mm voxel images. In the 0.3-mm voxel images, oversampling techniques of 11 lines or more did not show significant differences in MTF values depending on the presence of simulated location errors. MTF 10 values showed significant differences according to the direction and area of the measurement. Conclusion: To measure more accurate and stable MTF values, it is better to measure MTF 10 values in small-voxel images. In large-voxel images, the proper oversampling technique is required. MTF values from the radial and tangential directions may be different, and MTF values vary depending on the measured area.

Study of oversampling algorithms for soil classifications by field velocity resistivity probe

  • Lee, Jong-Sub;Park, Junghee;Kim, Jongchan;Yoon, Hyung-Koo
    • Geomechanics and Engineering
    • /
    • 제30권3호
    • /
    • pp.247-258
    • /
    • 2022
  • A field velocity resistivity probe (FVRP) can measure compressional waves, shear waves and electrical resistivity in boreholes. The objective of this study is to perform the soil classification through a machine learning technique through elastic wave velocity and electrical resistivity measured by FVRP. Field and laboratory tests are performed, and the measured values are used as input variables to classify silt sand, sand, silty clay, and clay-sand mixture layers. The accuracy of k-nearest neighbors (KNN), naive Bayes (NB), random forest (RF), and support vector machine (SVM), selected to perform classification and optimize the hyperparameters, is evaluated. The accuracies are calculated as 0.76, 0.91, 0.94, and 0.88 for KNN, NB, RF, and SVM algorithms, respectively. To increase the amount of data at each soil layer, the synthetic minority oversampling technique (SMOTE) and conditional tabular generative adversarial network (CTGAN) are applied to overcome imbalance in the dataset. The CTGAN provides improved accuracy in the KNN, NB, RF and SVM algorithms. The results demonstrate that the measured values by FVRP can classify soil layers through three kinds of data with machine learning algorithms.

오버샘플링 시그마-델타 변환기의 설계와 응용 (The Design and Application of Oversampling Sigma-Delta Converters)

  • 신종한;박송배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1991년도 하계학술대회 논문집
    • /
    • pp.861-865
    • /
    • 1991
  • Sigma delta modulation has been the preferred technique for oversampling conversion. In this paper we present the basic principles of oversampled sigma-delta Converters. Basic operation and theory behind sigma-delta modulation is reviewed. The different structures of the sigma-delta converters are described and the concepts of designing modulators and digital filters are discussed. The latest designs are also reviewed.

  • PDF

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율 (Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance)

  • 신승수;조휘연;김용혁
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.49-55
    • /
    • 2021
  • 최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다.

Experimental Analysis of Equilibrization in Binary Classification for Non-Image Imbalanced Data Using Wasserstein GAN

  • Wang, Zhi-Yong;Kang, Dae-Ki
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.37-42
    • /
    • 2019
  • In this paper, we explore the details of three classic data augmentation methods and two generative model based oversampling methods. The three classic data augmentation methods are random sampling (RANDOM), Synthetic Minority Over-sampling Technique (SMOTE), and Adaptive Synthetic Sampling (ADASYN). The two generative model based oversampling methods are Conditional Generative Adversarial Network (CGAN) and Wasserstein Generative Adversarial Network (WGAN). In imbalanced data, the whole instances are divided into majority class and minority class, where majority class occupies most of the instances in the training set and minority class only includes a few instances. Generative models have their own advantages when they are used to generate more plausible samples referring to the distribution of the minority class. We also adopt CGAN to compare the data augmentation performance with other methods. The experimental results show that WGAN-based oversampling technique is more stable than other approaches (RANDOM, SMOTE, ADASYN and CGAN) even with the very limited training datasets. However, when the imbalanced ratio is too small, generative model based approaches cannot achieve satisfying performance than the conventional data augmentation techniques. These results suggest us one of future research directions.