Recent deep learning methods for tabular data

  • Yejin Hwang;Jongwoo Song
    • Communications for Statistical Applications and Methods
    • 제30권2호
    • pp.215-226
    • 2023
  • Deep learning has made great strides in the field of unstructured data such as text, images, and audio. However, in the case of tabular data analysis, machine learning algorithms such as ensemble methods are still better than deep learning. To keep up with the performance of machine learning algorithms with good predictive power, several deep learning methods for tabular data have been proposed recently. In this paper, we review the latest deep learning models for tabular data and compare the performances of these models using several datasets. In addition, we also compare the latest boosting methods to these deep learning methods and suggest the guidelines to the users, who analyze tabular datasets. In regression, machine learning methods are better than deep learning methods. But for the classification problems, deep learning methods perform better than the machine learning methods in some cases.

Tabular Data 학습을 위한 강화형 생성자 GAN Mode (Reinforced Generator GAN Model for Tabular Data Learning)

  • 성찬식;임준식
    • 인터넷정보학회논문지
    • 제25권5호
    • pp.121-130
    • 2024
  • Tabular Data는 수치형과 범주형 데이터의 혼합 데이터로, 이러한 Tabular Data를 이용한 학습을 수행함에 있어, 주로 머신러닝 모델이 생성형 모델보다 그 동안 적합하다고 평가되어 왔다. 이러한 평가는 생성형 모델이 Tabular Data의 특성인 수치형의 다봉분포와 범주형의 빈도 불균형 때문에 과도하게 매개변수가 많아지거나 학습의 방향을 찾지 못하는 문제가 있었기 때문이다. 그러나 데이터가 점차 빅데이터화 되고 실시간으로 이루어 지면서 기존의 머신러닝 모델들은 그 적용에 한계를 보여 왔다. 본 논문에서는 Tabular Data에 생성형 모델을 적용하기 위한 방법론으로, 켤레사전분포를 이용한 군집화 샘플링과 가워계수와 상호 정보량으로 손실함수를 개선한 생성자 강화형 적대적 신경망인 RGGAN(Reinforced Generator GAN)을 제안한다. 본 논문이 제안한 RGGAN으로 학습한 판별자들로 이상 탐지기를 구성하여, IEEE-CIS Fraud Detection Dataset에서의 사기거래를 탐지하여 AUC를 측정해본 결과, 기존 생성형 모델들 보다 1~7%의 성능 개선 효과를 보임으써, 제안된 모델이 Tabular Data 학습에 유효하고 또한 사기거래 탐지에 효과적인 모델임을 증명하였다.

ADxClass: Multi-Domain Attention Fusion and Imputation of Missing Heterogeneous Tabular Data

  • Dhivyaa S P;Hyung-Jeong Yang;Sae-Ryung Kang;Soo-Hyung Kim
    • 한국정보처리학회:학술대회논문집
    • 한국정보처리학회 2024년도 추계학술발표대회
    • pp.507-510
    • 2024
  • Alzheimer's Disease (AD) is a neurodegenerative disorder characterized by a progressive decline in cognitive function. Accurate and early diagnosis of AD is crucial for effective management and treatment. Traditional machine learning models, though commonly applied, often fall short in capturing the intricate relationships between diverse tabular data. Furthermore, the missing data issue, typically addressed using conventional imputation techniques, leads to reduced accuracy and generalizability of AD classification models. This paper introduces ADxClass, a novel deep learning framework that enhances AD classification by leveraging multi-domain attention fusion and data type-based imputation techniques for handling missing heterogeneous tabular data. ADxClass integrates data from various domains, including demographic, cognitive, genetic, and biomarkers obtained from neuroimaging measurements, to improve the robustness and accuracy of AD classification models. The model's efficiency is validated via a 5-fold cross-validation on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, showing significant improvements in classification performance compared to traditional machine learning approaches.

고차원 매핑기법과 딥러닝 네트워크를 통한 정형데이터의 분류 (Classification of Tabular Data using High-Dimensional Mapping and Deep Learning Network)

  • 김경택;장원두
    • 사물인터넷융복합논문지
    • 제9권6호
    • pp.119-124
    • 2023
  • 최근 딥러닝은 다양한 분야에서 전통적인 기계학습에 비해 월등히 높은 성능을 보이고 있으며, 패턴인식을 위한 보편적인 방법으로 자리 잡아 가고 있다. 하지만, 이에 비해 정형데이터를 사용하는 분류 문제에서는 여전히 머신러닝 기법이 주류를 이루고 있다. 본 논문에서는 정형데이터를 고차원 텐서로 변환하는 네트워크 모듈을 제안하며, 이 모듈을 보편적인 딥러닝 네트워크와 함께 구성하여 정형데이터의 분류 문제에 적용하였다. 제안된 방법은 4종의 데이터셋을 활용하여 학습 및 검증되었으며, 제안된 방법은 90.22%의 평균 정확도를 달성하여, 최신 딥러닝 모델인 TabNet에 비해 2.55%p 높은 정확도를 보였다. 제안된 방법은 컴퓨터 비전 분야에서 높은 성능을 보이는 다양한 네트워크 구조를 정형데이터에 활용할 수 있다는 점에서 의미가 있다.

표 기계독해 언어 모형의 의미 검증을 위한 테스트 데이터셋 (Test Dataset for validating the meaning of Table Machine Reading Language Model)

  • 유재민;조상현;권혁철
    • 한국정보통신학회:학술대회논문집
    • 한국정보통신학회 2022년도 추계학술대회
    • pp.164-167
    • 2022
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어 모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 F1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 F1 19.38, EM 4.22가 증가한 성능을 보였다.

Study of oversampling algorithms for soil classifications by field velocity resistivity probe

  • Lee, Jong-Sub;Park, Junghee;Kim, Jongchan;Yoon, Hyung-Koo
    • Geomechanics and Engineering
    • 제30권3호
    • pp.247-258
    • 2022
  • A field velocity resistivity probe (FVRP) can measure compressional waves, shear waves and electrical resistivity in boreholes. The objective of this study is to perform the soil classification through a machine learning technique through elastic wave velocity and electrical resistivity measured by FVRP. Field and laboratory tests are performed, and the measured values are used as input variables to classify silt sand, sand, silty clay, and clay-sand mixture layers. The accuracy of k-nearest neighbors (KNN), naive Bayes (NB), random forest (RF), and support vector machine (SVM), selected to perform classification and optimize the hyperparameters, is evaluated. The accuracies are calculated as 0.76, 0.91, 0.94, and 0.88 for KNN, NB, RF, and SVM algorithms, respectively. To increase the amount of data at each soil layer, the synthetic minority oversampling technique (SMOTE) and conditional tabular generative adversarial network (CTGAN) are applied to overcome imbalance in the dataset. The CTGAN provides improved accuracy in the KNN, NB, RF and SVM algorithms. The results demonstrate that the measured values by FVRP can classify soil layers through three kinds of data with machine learning algorithms.

데이터 구성에 따른 하천 조류 예측 딥러닝 모형 (TabPFN) 성능 비교 (Comparing the Performance of a Deep Learning Model (TabPFN) for Predicting River Algal Blooms with Varying Data Composition)

  • 양현석;박정수
    • 한국습지학회지
    • 제26권3호
    • pp.197-203
    • 2024
  • 하천에서 조류의 과다 발생은 취수원 관리 및 정수 처리에 악영향을 줄 수 있어 지속적인 관리가 필요하다. 본 연구에서는 딥러닝 알고리즘 중 작은 규모의 테이블 데이터에서도 상대적으로 우수한 성능을 보이는 것으로 알려진 tabular prior data fitted networks (TabPFN)을 사용하여 조류 발생 지표 중 하나인 chlorophyll-a (chl-a) 농도를 예측하는 다중 분류 모형을 구축하였다. 모형의 구축을 위해 부여지점 수질자동측정망에서 2014년 1월 1일부터 2022년 12월 31일까지 측정된 일일측정자료를 사용하였으며 입력 자료의 크기가 모형의 성능에 미치는 영향을 확인하기 위해 입력 자료의 평균값을 이용하여 1일, 3일, 6일, 12일의 측정 주기를 가진 입력 자료를 구성하였다. 각 모형의 성능을 비교한 결과 측정 주기가 길어져 입력 자료의 규모가 작은 경우에도 모형이 안정적인 성능을 보이는 것을 확인하였다. 각 모형의 macro average는 precision이 0.77, 0.76, 0.83, 0.84였으며, recall은 0.63, 0.65, 0.66, 0.74 F1-score는 0.67, 0.69, 0.71, 0.78로 분석되었다. Weighted average는 precision이 0.76, 0.77, 0.81, 0.84이며 recall은 0.76, 0.78, 0.81, 0.85 F1-score는 0.74, 0.77, 0.80, 0.84로 분석되었다. 본 연구에서는 TabPFN을 이용하여 구축한 chl-a 예측 모형이 작은 규모의 입력 자료에서도 안정적인 성능을 보이는 것을 확인하여 모형구축에 필요한 입력 자료가 제한적인 현장에서의 적용 가능성을 확인하였다.

금융업의 합성 데이터 유용성 분석: 온라인 P2P 대출연체 분석을 중심으로 (Utility of Synthetic Data in Finances: An Application of Online P2P Lending Loan Default Analysis)

  • 송민채
    • 한국IT서비스학회지
    • 제23권4호
    • pp.55-70
    • 2024
  • In order to promote the AI applications in the financial industry, the financial sector has recently been paying attention to synthetic data technology. Synthetic data generates using a purpose-built mathematical model or algorithm, with the aim of solving a set of data science tasks. This study evaluates the utility of synthetic data by analyzing heterogeneous tabular data that is composed of discrete, categorical and continuous variables and has the feature of unbalanced data, which is commonly found in the financial sector. As a synthetic data generation technique, the TGAN and CTGAN models are applied by considering the feature of tabular data. As a result of evaluating the utility in terms of resemblance and machine learning efficiency, those of TGAN are confirmed to be high, while the quality of CTGAN are relatively poor. This is interpreted to be particularly due to the generation of categorical variables, and it suggests that how those with categorical properties especially are considered in the synthetic data generation model is a major factor in determining the utility of generation synthetic data.

Enhancing Malware Detection with TabNetClassifier: A SMOTE-based Approach

  • Rahimov Faridun;Eul Gyu Im
    • 한국정보처리학회:학술대회논문집
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • pp.294-297
    • 2024
  • Malware detection has become increasingly critical with the proliferation of end devices. To improve detection rates and efficiency, the research focus in malware detection has shifted towards leveraging machine learning and deep learning approaches. This shift is particularly relevant in the context of the widespread adoption of end devices, including smartphones, Internet of Things devices, and personal computers. Machine learning techniques are employed to train models on extensive datasets and evaluate various features, while deep learning algorithms have been extensively utilized to achieve these objectives. In this research, we introduce TabNet, a novel architecture designed for deep learning with tabular data, specifically tailored for enhancing malware detection techniques. Furthermore, the Synthetic Minority Over-Sampling Technique is utilized in this work to counteract the challenges posed by imbalanced datasets in machine learning. SMOTE efficiently balances class distributions, thereby improving model performance and classification accuracy. Our study demonstrates that SMOTE can effectively neutralize class imbalance bias, resulting in more dependable and precise machine learning models.

공공기술 사업화를 위한 CTGAN 기반 데이터 불균형 해소 (Resolving CTGAN-based data imbalance for commercialization of public technology)

  • 황철현
    • 한국정보통신학회논문지
    • 제26권1호
    • pp.64-69
    • 2022
  • 공공기술 사업화는 정부가 주도하는 과학기술의 혁신과 R&D 성과를 민간에 이전하는 것으로 경제 성장을 주도하는 핵심 성과로 인식되고 있다. 따라서 기술 이전을 활성화시키기 위해 성공 요인을 식별하거나 사업화 가능성이 높은 공공기술과 수요기업을 매칭하는 다양한 기계학습의 방법들이 연구되고 있다. 하지만 공공기술 사업화 데이터는 표 형태로 구성되어 있고, 성공-실패 비율이 큰 차이를 보이는 불균형 상태이기 때문에 기계학습 성능이 높지 않는 문제점을 가지고 있다. 이 논문에서는 표 형태로 구성된 공공기술 데이터에서 불균형을 해소하기 위해 CTGAN을 활용하는 방법을 제시한다. 또한 제시된 방법의 효과를 검증하기 위해 실제 공공기술 사업화 데이터를 활용하여 통계적 접근방법인 SMOTE와 비교 실험을 수행하였다. 다수의 실험 사례에서 CTGAN은 공공기술 사업화 성공사례를 안정적으로 예측하는 것을 확인하였다.