A Study on the Efficiency of Imbalanced Data Processing Techniques for Exercise Prediction in COPD Patients

COPD 환자 운동 예측을 위한 불균형 데이터 처리 기법의 효율성에 관한 연구

  • Hyeonseok Jin (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Sehyun Cho (Dept. of Nursing, Chonnam National University) ;
  • Jayun Choi (Dept. of Nursing, Chonnam National University) ;
  • Kyungbaek Kim (Dept. of Artificial Intelligence Convergence, Chonnam National University)
  • 진현석 (전남대학교 인공지능융합학과) ;
  • 조세현 (전남대학교 간호학과) ;
  • 최자윤 (전남대학교 간호학과) ;
  • 김경백 (전남대학교 인공지능융합학과)
  • Published : 2024.05.23

Abstract

COPD(Chronic Obstructive Pulmonary Disease)는 장기간에 걸쳐 기도가 좁아지는 폐질환으로, 규칙적 운동은 호흡을 용이하게 하고 증상을 개선할 수 있는 주요 자가관리 중재법 중 하나이다. 건강정보 데이터와 인공지능을 사용하여 규직적 운동 이행군과 불이행군을 선별하여 자가관리 취약 집단을 파악하는 것은 질병관리 측면에서 비용효과적인 전략이다. 하지만 많은 양의 데이터를 확보하기 어렵고, 규칙적 운동군과 그렇지 않은 환자의 비율이 상이하기 때문에 인공지능 모델의 전체적인 선별 능력을 향상시키기 어렵다는 한계가 있다. 이러한 한계를 극복하기 위해 본 연구에서는 국민건강영양조사 데이터를 사용하여 머신러닝 모델인 XGBoost와 딥러닝 모델인 MLP에 오버샘플링, 언더샘플링, 가중치 부여 등 불균형 데이터 처리 기법을 적용 후 성능을 비교하여 가장 효과적인 불균형 데이터 처리 기법을 제시한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업 연구 결과로 수행되었음(IITP-2023-RS-2023-00256629) 본 연구는 한국연구재단 연구과제로 수행되었습니다. (This work was supported by the Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (NRF-2022R1A2C1010364).)

References

  1. Kim, Sang Hyuk, et al. "Recent prevalence of and factors associated with chronic obstructive pulmonary disease in a rapidly aging society: Korea National Health and Nutrition Examination Survey 2015-2019." Journal of Korean Medical Science 38.14 (2023).
  2. 대한결핵 및 호흡기학회. "COPD 진료지침 2014 개정" (2014): 46-47.
  3. Spruit, Martijn A., et al. "Profiling of patients with COPD for adequate referral to exercise-based care: the Dutch model." Sports Medicine 50 (2020): 1421-1429.
  4. 이태헌, and 이남. "중증 COPD 환자에 대한 포괄적인 운동프로그램의 장기 효과-단일사례연구."대한심장호흡물리치료학회지 8.2 (2020): 1-9.
  5. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
  6. Ishfaq, Haque, Assaf Hoogi, and Daniel Rubin. "TVAE: Triplet-based variational autoencoder using metric learning." arXiv preprint arXiv:1802.04403 (2018).
  7. Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems 27 (2014).
  8. Xu, Lei, et al. "Modeling tabular data using conditional gan." Advances in neural information processing systems 32 (2019).
  9. 질병관리청 국민건강영양조사원시자료, https://knhanes.kdca.go.kr/knhanes/sub03/sub03_02_05.do
  10. 질병관리청. (2013). 2012 Korea national health and nutrition examination survey results. 서울, 대한민국: 보건복지부. https://knhanes.cdc.go.kr/knhanes/index.do
  11. Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.
  12. Patki, Neha, Roy Wedge, and Kalyan Veeramachaneni. "The synthetic data vault." 2016 IEEE international conference on data science and advanced analytics (DSAA). IEEE, 2016.