• 제목/요약/키워드: oversampling algorithm

검색결과 30건 처리시간 0.026초

A COMOS Oversampling Data Recovery Circuit With the Vernier Delay Generation Technique

  • Jun-Young Park
    • 한국통신학회논문지
    • /
    • 제25권10A호
    • /
    • pp.1590-1597
    • /
    • 2000
  • This paper describes a CMOS data recovery circuit using oversampling technique. Digital oversampling is done using a delay locked loop circuit locked to multiple clock periods. The delay locked loop circuit generates the vernier delay resolution less than the gate delay of the delay chain. The transition and non-transition counting algorithm for 4x oversampling was implemented for data recovery and verified through FPGA. The chip has been fabricated with 0.6um CMOS technology and measured results are presented.

  • PDF

A study on the characteristics of applying oversampling algorithms to Fosberg Fire-Weather Index (FFWI) data

  • Sang Yeob Kim;Dongsoo Lee;Jung-Doung Yu;Hyung-Koo Yoon
    • Smart Structures and Systems
    • /
    • 제34권1호
    • /
    • pp.9-15
    • /
    • 2024
  • Oversampling algorithms are methods employed in the field of machine learning to address the constraints associated with data quantity. This study aimed to explore the variations in reliability as data volume is progressively increased through the use of oversampling algorithms. For this purpose, the synthetic minority oversampling technique (SMOTE) and the borderline synthetic minority oversampling technique (BSMOTE) are chosen. The data inputs, which included air temperature, humidity, and wind speed, are parameters used in the Fosberg Fire-Weather Index (FFWI). Starting with a base of 52 entries, new data sets are generated by incrementally increasing the data volume by 10% up to a total increase of 100%. This augmented data is then utilized to predict FFWI using a deep neural network. The coefficient of determination (R2) is calculated for predictions made with both the original and the augmented datasets. Suggesting that increasing data volume by more than 50% of the original dataset quantity yields more reliable outcomes. This study introduces a methodology to alleviate the challenge of establishing a standard for data augmentation when employing oversampling algorithms, as well as a means to assess reliability.

2X Converse Oversampling 1.65Gb/s/ch CMOS 준 디지털 데이터 복원 회로 (2X Converse Oversampling 1.65Gb/s/ch CMOS Semi-digital Data Recovery)

  • 김길수;김규영;손관수;김수원
    • 대한전자공학회논문지SD
    • /
    • 제44권6호
    • /
    • pp.1-7
    • /
    • 2007
  • 본 논문에서는 고성능 멀티미디어 인터페이스 (High Definition Multimedia Interface: HDMI) 용 수신기의 전력 절감과 면적 감소를 위한 2X converse oversampling 방식의 준 디지털 데이터 복원 회로를 제안한다. 제안하는 데이터 복원 회로는 2X converse oversampling 방식의 데이터 검출 알고리즘과 준 디지털 구조를 이용해 전력과 유효 면적을 효과적으로 감소시킨다. 제안하는 회로의 성능을 검증하기 위해서 0.18um CMOS 공정을 이용하여 칩이 제작되었으며, 측정 결과 14.4mW의 전력을 소모하고, $0.152mm^2$의 유효 면적을 차지하며, 0.7UIpp의 Jitter tolerance 성능을 나타내므로 HDMI용 수신기의 전체 전력과 유효면적을 효과적으로 감소시킬 수 있다.

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율 (Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance)

  • 신승수;조휘연;김용혁
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.49-55
    • /
    • 2021
  • 최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다.

Semi-supervised Software Defect Prediction Model Based on Tri-training

  • Meng, Fanqi;Cheng, Wenying;Wang, Jingdong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.4028-4042
    • /
    • 2021
  • Aiming at the problem of software defect prediction difficulty caused by insufficient software defect marker samples and unbalanced classification, a semi-supervised software defect prediction model based on a tri-training algorithm was proposed by combining feature normalization, over-sampling technology, and a Tri-training algorithm. First, the feature normalization method is used to smooth the feature data to eliminate the influence of too large or too small feature values on the model's classification performance. Secondly, the oversampling method is used to expand and sample the data, which solves the unbalanced classification of labelled samples. Finally, the Tri-training algorithm performs machine learning on the training samples and establishes a defect prediction model. The novelty of this model is that it can effectively combine feature normalization, oversampling techniques, and the Tri-training algorithm to solve both the under-labelled sample and class imbalance problems. Simulation experiments using the NASA software defect prediction dataset show that the proposed method outperforms four existing supervised and semi-supervised learning in terms of Precision, Recall, and F-Measure values.

Oversampling 기법 및 이상치 제거 방법을 통한 데이터 구축 연구 (Data Construction through Oversampling Techniques and Outlier Removal Methods)

  • 장병수;고규현;김영석;김세원;최현준;윤형구
    • 한국지반공학회논문집
    • /
    • 제40권5호
    • /
    • pp.93-101
    • /
    • 2024
  • 수소 저장 시설의 안정성을 평가하기 위해서 주로 수치해석 방법이 활용되나, 여러 조건의 데이터 확보에는 어려움이 따른다. 해당 연구의 목적은 oversampling 알고리즘을 활용하여 데이터 그룹의 양을 확대하고 수치해석 시 다양한 입력 인자로 이용되도록 하는 것이다. Oversampling 알고리즘은 AI 분야에서 데이터 불균형 문제를 해소하고자 제안된 SMOTE, Borderline-SMOTE, ADASYN 그리고 CTGAN 기법을 적용하였으며, 기존 데이터 대비 2배, 5배 그리고 100배로 증폭하였다. 해당 방법은 기존 데이터 특성을 기반으로 양을 증폭하는 방식으로 최종 데이터 그룹은 이상치가 포함될 가능성이 있다. 이를 해소하고자 통계기법인 3 sigma rule과 confidence level 방법으로 데이터의 정규분포 특성의 일정한 범위 외에 있는 값들은 이상치로 판단하여 제거하였다. 데이터 증폭과 이상치 분석을 통해 구축된 다양한 조건의 값의 신뢰성은 기존 데이터의 경향과 비교하여 판단하고자 하였으며, SHAP 알고리즘을 통해 각 물성치들의 중요도 값의 변화를 살펴보았다. 기존 데이터와 AI 기법 및 이상치 분석을 수행한 데이터의 SHAP 값은 모두 유사하게 나타나 해당 논문에서 제안한 방법이 타당함을 입증하였다. 해당 논문에서 제안한 방법은 수소 저장 시설뿐 아니라 다양한 지반 구조물의 안정성 평가 시 합리적인 데이터 구축에 활용 가능할 것으로 판단된다.

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

다양한 데이터 전처리 기법과 데이터 오버샘플링을 적용한 GRU 모델 기반 이상 탐지 성능 비교 (Comparison of Anomaly Detection Performance Based on GRU Model Applying Various Data Preprocessing Techniques and Data Oversampling)

  • 유승태;김강석
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.201-211
    • /
    • 2022
  • 최근 사이버보안 패러다임의 변화에 따라, 인공지능 구현 기술인 기계학습과 딥러닝 기법을 적용한 이상탐지 방법의 연구가 증가하고 있다. 본 연구에서는 공개 데이터셋인 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 GRU(Gated Recurrent Unit) 신경망 기반 침입 탐지 모델의 이상(anomaly) 탐지 성능을 향상시킬 수 있는 데이터 전처리 기술에 관한 비교 연구를 수행하였다. 또한 정상 데이터와 공격 데이터 비율에 따른 클래스 불균형 문제를 해결하기 위해 DCGAN(Deep Convolutional Generative Adversarial Networks)을 적용한 오버샘플링 기법 등을 사용하여 오버샘플링 비율에 따른 탐지 성능을 비교 및 분석하였다. 실험 결과, 시스템 콜(system call) 특성과 프로세스 실행패스 특성에 Doc2Vec 알고리즘을 사용하여 전처리한 방법이 좋은 성능을 보였고, 오버샘플링별 성능의 경우 DCGAN을 사용하였을 때, 향상된 탐지 성능을 보였다.

Blind MMSE Equalization of FIR/IIR Channels Using Oversampling and Multichannel Linear Prediction

  • Chen, Fangjiong;Kwong, Sam;Kok, Chi-Wah
    • ETRI Journal
    • /
    • 제31권2호
    • /
    • pp.162-172
    • /
    • 2009
  • A linear-prediction-based blind equalization algorithm for single-input single-output (SISO) finite impulse response/infinite impulse response (FIR/IIR) channels is proposed. The new algorithm is based on second-order statistics, and it does not require channel order estimation. By oversampling the channel output, the SISO channel model is converted to a special single-input multiple-output (SIMO) model. Two forward linear predictors with consecutive prediction delays are applied to the subchannel outputs of the SIMO model. It is demonstrated that the partial parameters of the SIMO model can be estimated from the difference between the prediction errors when the length of the predictors is sufficiently large. The sufficient filter length for achieving the optimal prediction is also derived. Based on the estimated parameters, both batch and adaptive minimum-mean-square-error equalizers are developed. The performance of the proposed equalizers is evaluated by computer simulations and compared with existing algorithms.

  • PDF

Study on failure mode prediction of reinforced concrete columns based on class imbalanced dataset

  • Mingyi Cai;Guangjun Sun;Bo Chen
    • Earthquakes and Structures
    • /
    • 제27권3호
    • /
    • pp.177-189
    • /
    • 2024
  • Accurately predicting the failure modes of reinforced concrete (RC) columns is essential for structural design and assessment. In this study, the challenges of imbalanced datasets and complex feature selection in machine learning (ML) methods were addressed through an optimized ML approach. By combining feature selection and oversampling techniques, the prediction of seismic failure modes in rectangular RC columns was improved. Two feature selection methods were used to identify six input parameters. To tackle class imbalance, the Borderline-SMOTE1 algorithm was employed, enhancing the learning capabilities of the models for minority classes. Eight ML algorithms were trained and fine-tuned using k-fold shuffle split cross-validation and grid search. The results showed that the artificial neural network model achieved 96.77% accuracy, while k-nearest neighbor, support vector machine, and random forest models each achieved 95.16% accuracy. The balanced dataset led to significant improvements, particularly in predicting the flexure-shear failure mode, with accuracy increasing by 6%, recall by 8%, and F1 scores by 7%. The use of the Borderline-SMOTE1 algorithm significantly improved the recognition of samples at failure mode boundaries, enhancing the classification performance of models like k-nearest neighbor and decision tree, which are highly sensitive to data distribution and decision boundaries. This method effectively addressed class imbalance and selected relevant features without requiring complex simulations like traditional methods, proving applicable for discerning failure modes in various concrete members under seismic action.