DOI QR코드

DOI QR Code

Cognitive Impairment Prediction Model Using AutoML and Lifelog

  • Hyunchul Choi (Dept. of Health Services Management, Kyung Hee University) ;
  • Chiho Yoon (Evaluation Institute of Regional Public Corporation) ;
  • Sae Bom Lee (Software Convergence Education Institute, Sahmyook University)
  • 투고 : 2023.09.26
  • 심사 : 2023.10.30
  • 발행 : 2023.11.30

초록

본 연구는 고령층의 치매 예방을 위한 선별검사 수단으로 자동화된 기계학습(AutoML)을 활용하여 인지기능 장애 예측모형을 개발하였다. 연구 데이터는 한국지능정보사회진흥원의 '치매 고위험군 웨어러블 라이프로그 데이터'를 활용하였다. 분석은 구글 코랩 환경에서 PyCaret 3.0.0이 사용하여 우수한 분류성능을 보여주는 5개의 모형을 선정하고 앙상블 학습을 진행하여 모형을 통합한 뒤, 최종 성능평가를 진행하였다. 연구결과, Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, Random Forest Classifier 모형 순으로 높은 예측성능을 보이는 것으로 나타났다. 특히 '수면 중 분당 평균 호흡수'와 '수면 중 분당 평균 심박수'가 가장 중요한 특성변수(feature)로 확인되었다. 본 연구의 결과는 고령층의 인지기능 장애를 보다 효과적으로 관리하고 예방하기 위한 수단으로 기계학습과 라이프로그의 활용 가능성에 대한 고려를 시사한다.

This study developed a cognitive impairment predictive model as one of the screening tests for preventing dementia in the elderly by using Automated Machine Learning(AutoML). We used 'Wearable lifelog data for high-risk dementia patients' of National Information Society Agency, then conducted using PyCaret 3.0.0 in the Google Colaboratory environment. This study analysis steps are as follows; first, selecting five models demonstrating excellent classification performance for the model development and lifelog data analysis. Next, using ensemble learning to integrate these models and assess their performance. It was found that Voting Classifier, Gradient Boosting Classifier, Extreme Gradient Boosting, Light Gradient Boosting Machine, Extra Trees Classifier, and Random Forest Classifier model showed high predictive performance in that order. This study findings, furthermore, emphasized on the the crucial importance of 'Average respiration per minute during sleep' and 'Average heart rate per minute during sleep' as the most critical feature variables for accurate predictions. Finally, these study results suggest that consideration of the possibility of using machine learning and lifelog as a means to more effectively manage and prevent cognitive impairment in the elderly.

키워드

I. Introduction

현재 우리나라는 전체 인구의 17.5%에 해당하는 약 900만 명이 65세 이상으로 구성된 고령사회이며, 급속한 인구 고령화로 인해 2025년에는 초고령사회에 접어들 것으로 전망된다[1]. 급속한 인구 고령화와 함께 노인성 질환에 대한 사회경제적 부담도 가중되고 있다. 대표적인 노인성 질환 중 하나인 알츠하이머성 치매는 2021년 한해 요양급여만 1조 7,693억 원을 기록하였으며, 노인 요양급여 중 가장 높은 비중을 차지하고 있다[2].

치매는 대표적인 퇴행성 질환 중 하나로, 발병 이후에 인지기능 회복이 어려워 조기 검진과 관리가 중요하다. 노화로 인한 인지기능 감퇴는 나이와 성별, 학력, 사회활동 등 다양한 요인에 영향을 받으며[3], 진행 정도와 연속성에 따라 양성노인건망증(benign senescent forgetfulness), 노화로 인한 기억력저하(age-associated memory impairment), 인지기능 저하(age-associated cognitive decline), 치매가 아닌 인지기능 저하(cognitive impairment-no dementia, CIND)로 세분화할 수 있다[4]. 임상적 소견에 따라서는 정상노화와 경도인지장애, 치매로 구분하는 것이 일반적이다. 특히, 정상노화와 치매의 중간단계인 경도인지장애는 치매 예방과 치료를 위한 중요한 단계로 간주하여 이를 조기에 검진하고 관리하는 것이 중요하다[5]. 이는 경도인지 장애가 치매로 진행되는 비율이 매우 높기 때문인데, 실제로 65세 이상의 경도인지장애 환자 중 10~15%가 이른 시일 내 치매로 진행되고 있으며, 6년이 지나면 이들 중의 80%가 치매로 진행되는 것으로 알려져 있다[6]. 그러나, 경도인지 장애와 치매를 구분하기 위한 인지기능 감퇴에 따른 기능적 장애에 대한 확실한 기준이 없으므로, 이 둘을 명확히 구분하거나 정상노화와의 구분하기 어려운 점이 있다[5].

치매 조기 검진에 따른 사회적 편익은 2조 622억 원에 달하지만[7], 치매 환자의 급증으로 인한 사회경제적 부담의 증가 및 인프라 미비로 한계에 직면하고 있다[8]. 2017년 치매 국가책임제가 시행되고 조기 검진 사업이 증가했지만, 이는 양적 목표 달성에 초점을 맞추어 단순 대규모 검진만이 늘어났을 뿐, 실질적인 성과는 제한적이었다[9]. 이러한 현상은 국가적 차원에서 체계적인 치매 관리가 시행되고 난 이후, 치매 선별검사 업무가 지나치게 가중되고 있는 것으로 해석할 수 있다.

이러한 문제를 해결하기 위해, 현재 보건의료 분야에서는 기계학습을 빅데이터에 적용한 분류 및 예측 서비스 제공 연구가 활발하게 진행되고 있다[10]. 기계학습은 금융, 교육, 의료 및 헬스케어 등 다양한 분야에서 효율성을 추구하기 위한 수단으로써 적용되고 있다[11]. 라이프로그(Lifelog) 데이터는 개인의 일상생활에서 생성되는 정보를 실시간으로 수집한 방대한 양의 데이터로, 의료분야에서 활용할 수 있는 대표적인 빅데이터 중 하나이다[12-13]. 라이프로그 데이터는 질병의 원인을 발견하고 변화를 예측하는 중요한 근거자료로 활용되고 있으며, 삶의 질을 관리하는 웰니스(Wellness) 예측케어 서비스의 근간이 된다[14].

본 연구에서는 라이프로그 데이터에 자동화된 기계학습(Automated Machine Learning, AutoML)을 적용하여, 인지기능 고위험군의 정밀검사(진단검사, 감별검사) 및 체계적인 관리가 필요한 인지기능 장애 고위험군을 발견하기 위한 예측모형을 개발하고자 하였다. 이를 위해, 임상적 소견을 기반으로 경도인지장애 및 치매를 진단받은 환자를 인지기능 장애군으로 재정의하고, 인지기능 정상군과 분류하는 모형을 개발하여 선별검사 단계 및 일상에서 손쉽게 활용할 수 있는 예측모형의 일반화 성능과 측정도구로서의 유용성을 확보하고자 하였다. 이로써 노인복지 수요가 급증하는 상황 속에서 사회경제적 비용을 절감하고 치매 예방에 기여할 수 있는 기계학습 예측모형을 실증적으로 검증하는 것이 본 연구의 목적과 의의이다.

II. Theoretical Background

1. Cognitive Impairment

고령층에서 빈번하게 발생하고 있는 주관적 기억장애는 25~50%에 육박하며, 노화가 진행됨에 따라 85세에서는 88%까지 증가한다[15-16]. 기억장애를 호소하는 고령층에서 중증 인지기능 장애인 치매가 발병할 소지는 크지만, 경도인지장애와의 명확한 연관성은 뚜렷하게 밝혀진 바가 없다[5]. 노화로 인한 기억력과 인지기능의 감퇴는 지극히 정상적인 것으로 여겨지고 있지만, 주변인이 알아차릴 수 있는 수준인 경도인지장애까지 진행되면 그 문제가 심각해진다. 경도인지장애는 기억력의 급격한 저하가 나타날 수 있지만, 여전히 일상생활 수행능력은 유지되거나, 방향 감각이나 시공간 기능과 같은 다른 영역에서 인지기능의 저하가 발생할 수도 있다[17]. 무엇보다 경도인지장애는 이른 시일 내에 중증 치매로 진행되어 독립적인 일상생활 및 사회생활이 불가능한 수준에 다다르기 때문에 조기 검진이 매우 중요하다고 할 수 있다. 그러나 경도인지장애는 정상적인 노화에 따른 인지저하와 구분이 어렵고, 중증 치매와의 구분도 어려운 경우가 많다.

인지기능 장애는 고령층이 주관적으로 느끼는 기억장애의 증상이 시초가 되어, 중증에 해당하는 치매까지 전개될 수 있다. 또한, 경증일 때는 노화에 따른 정상적인 인지저하와 구분이 어려워 무심코 지나치는 경우가 빈번하므로 조기 검진을 통한 관리가 까다롭다. 하지만, 경증에서 중증으로 진행되는 속도가 빠르고, 6년 이내에 이들 중 85%가 중증 치매로 진행되기 때문에[6], 조기에 검진하고 관리하는 것이 유일한 대응책이다. 즉, 국가 차원에서의 체계적인 관리도 중요하지만, 개인 스스로 본인이 인지기능 장애 고위험군에 해당하는지를 적극적으로 파악하고 관리하기 위한 노력도 필요하다.

2. Dementia Screening Tools

치매 선별검사 도구는 1960년 Kahn[18]이 개발한 Mental State Questionnaire(MSQ)에서 시작되어 다양한 검사 도구들이 지속적으로 개발되어왔다. 현재까지 세계적으로 가장 널리 쓰이고 있는 검사 도구는 Folstein[19]이 개발한 Mini-Mental Status Examination(MMSE)이다[20]. 우리나라의 치매 선별검사 도구는 해외에서 개발된 도구를 수정·보완하여 사용하고 있다. 이러한 측정도구 중에는 간이정신상태검사-한국판(Korean version of Mini-Mental State Examination, MMSE-K)과 한국형 간이정신상태검사(Korean Mini-Mental State Examination, K-MMSE)가 대표적이다[21-22]. 최근 MMSE가 저작권료를 지급해야 하는 상황에 직면하면서 인지선별검사(Cognitive Impairment Screening Test, CIST)를 국가 치매 검진 사업에 활용하고 있다.

최근 치매 선별검사 도구가 경증 치매 환자에 대해서 민감도와 특이도가 낮고, 검사 대상자의 교육 수준에 의한 영향을 많이 받는다는 한계가 보고되어, 초기 증상을 확인하는 데 부적합하다는 평가를 받고 있다. 이에 따라, 새로운 검사 도구의 필요성도 대두되고 있다[23-25].

3. ML Based Dementia Research Trends

기계학습 기법을 치매에 적용한 연구들은 주로 선별 검진의 자동화 및 정밀검사에서 축적된 의료데이터를 활용하여 병리적 진단을 자동화하는 것에 집중되어 있다. So, Lim[7]은 치매 선별 검진 자동화 시스템 개발을 위해 기본정보, 세부정보, 질병정보, 생활습관, MMSE 점수로 구성된 6,800개의 검사자 데이터를 사용했다. 알고리즘으로는 Naive Bayes, Random Forest, Support Vector Machine, Multilayer Perceptron을 적용하였으며, Support Vector Machine의 성능(Accuracy=0.883, F-Measure= 0.877, AUC=0.880)이 가장 높은 것으로 나타났다. Lee, Oh[11]는 치매 판정 정보가 담긴 뇌 MRI 영상 이미지를 수치화한 데이터를 차원 축소한 뒤, Random Forest, Support Vector Machine, K-Nearest Neighbor, XGBoost, DNN 알고리즘을 적용하였다. 이후에 앙상블 학습을 통해 모형의 성능을 극대화하였으며 결과적으로, 앙상블 학습모형의 성능(Accuracy=0.744)이 가장 높게 나타났다. Mofrad et al.[26]는 뇌 MRI 영상 이미지에서 측두엽에 존재하는 기억 담당 부분인 해마체와 피질, 뇌실, 그리고 신경 심리검사 정보에 앙상블 학습을 적용하였다. 그 결과 77.0%의 정확도를 확보한 앙상블 모형을 확보했다. Syaifullah et al.[27]은 뇌 MRI 데이터에 복셀 기반의 형태 계측법(Voxel Based Morphometry. VBM)을 결합한 Support Vector Machine을 활용하여, 경도인지장애 환자에서 치매 발병을 예측하였고 87.9%의 정확도를 확보했다. Lee, Kang, Moon[28]은 라이프로그 기반의 경도인지장애 분류기를 개발하기 위해 12명의 연구대상자로부터 12주간 활동성과 수면 라이프로그 정보를 수집하였고, 인공신경망을 적용하여 우수한 성능(AUC=0.81)을 확인하였다.

Table 1. Research Trends

CPTSCQ_2023_v28n11_53_t0001.png 이미지

이처럼 기존의 연구들에서는 의료영상 데이터(MRI, PET), 환자정보, 질병정보, 생활습관 정보, MMSE, 라이프 로그 데이터에 연구자가 선택한 기계학습 기반의 분류 알고리즘과 인공신경망, 딥러닝을 적용하여 경도인지장애, 치매를 분류하고 예측했다.

4. AutoML and Ensemble Learning

자동화된 기계학습(이하 AutoML)은 기계학습 모형을 개발하기 위한 기계학습 워크플로우(Workflow)를 자동화하는 방법으로, 기존의 데이터 과학자가 겸비해야 했던 기술적 측면에서의 전문성을 극복하기 위해 고안되었다. AutoML은 현존하는 대부분의 예측 알고리즘을 활용하여 분석하고자 하는 데이터에 가장 적합한 모형을 선택할 수 있고[29], 하이퍼파라미터 튜닝(초매개변수 탐색)이 자동화되어, 모형 최적화에 탁월한 효율성을 보여준다[30].

앙상블 학습(Ensemble Learning)이란, 다수의 예측모형을 통합하여 하나의 예측을 수행하는 것으로, 모형의 예측성능 극대화를 위해 수행된다. 대표적인 앙상블 학습 방법으로는 스태킹(Stacking), 블렌딩(Blending), 그리고 보팅(Voting)이 존재한다. 스태킹은 동일한 알고리즘을 기반으로 수행하는 배깅(Bagging)이나 부스팅(Boosting)과는 다른 계층적 모형의 앙상블 프레임워크로, 다양한 분류자(Classifier)와 회귀자(Regressor)가 결합한 통합모형인 메타러너(Meta Learner)를 생성한다[31-32]. 블렌딩은 일반적으로 스태킹과 동일한 과정을 거치나, 검증방식에서 차이점을 가진다. 스태킹은 K-폴드 교차검증(K-fold Cross Validation)을 사용하는 반면, 블렌딩은 홀드아웃 교차검증(Hold-out Cross Validation)을 사용함으로써, 기본모형을 결합시키는 과정인 메타러너 생성시간이 빠르지만, 과적합 발생의 여지가 존재한다[33]. 마지막으로 보팅은 서로 다른 각각의 기계학습 알고리즘이 도출한 결과를 종합, 최종 투표하는 방식으로 결과를 도출하는 방식이며, 가장 많은 선택을 받은 결과를 최종 결과물로 반환하는 방식인 하드보팅(Hard Voting)과 각각의 알고리즘이 예측한 확률값에 기반하여 최종 결과물을 반환하는 소프트보팅(Soft Voting)으로 나뉜다[34].

본 연구에서는 검증용 데이터셋에 대한 과적합 위험이 있는 블렌딩을 제외하고 스태킹과 소프트보팅을 통한 앙상블 학습을 진행하였다.

III. Research Design

1. Research Data

본 연구에서 활용한 데이터는 한국지능정보사회진흥원 AI-Hub(https://aihub.or.kr/)에서 제공하는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터이다. 이는 전문의의 병리적 진단을 통해 정상인지군(Cognitive Normal, CN), 경도인지장애군(Mild Cognitive Impairment, MCI), 그리고 치매(Dementia)를 판정받은 55세 이상의 300명을 대상으로 2020년 10월부터 12월까지 12주 동안 웨어러블 기기를 통해 수집된 일일 라이프로그 데이터이다. 데이터 1건은 연구대상자 1인의 하루 라이프로그 정보이며, 수집 과정에서 개인정보 비식별 처리를 거친 상태로 공개된 원천데이터는 나이, 성별, 학업, 소득, 거주지 등은 제외되어 일반 사용이 허용된 데이터이다. 데이터셋의 구성은 활동성, 수면, 병리진단 라벨링 값과 MMSE-K 조사 결과로 구성된다. 본 연구에 사용된 데이터는 174명의 대상자로부터 얻은 12,183건의 일일 라이프로그 정보로, 활동성 변수 22개와 수면변수 25개를 기계학습을 위한 특성변수(feature)로 사용하였다. 목표변수(target)인 진단 라벨링은 연구의 목적에 따라, 인지기능 정상군(CN)과 인지기능 장애군(MCI, Dementia)으로 재정의하였다.

2. Research Workflow

기계학습 모형 개발과 성능평가를 위해 구글 코랩(Google Colaboratory) 개발환경에서 Python 오픈소스 라이브러리인 PyCaret 3.0.0버전을 사용하였다.

본 연구의 절차는 크게 데이터 준비와 기계학습 모형개발, 성능 평가단계로 구성된다. 데이터 준비단계에서는 탐색적 데이터 분석에 따른 데이터 전처리, 인코딩(Encoding) 및 스케일링(Scaling) 작업을 진행한 후, 기계 학습을 진행하기 위해 7:3의 비율로 학습용과 평가용 데이터를 분리하였다. 모형개발 단계는 학습용 데이터를 기반으로 기계학습을 진행하였으며, 10-폴드 교차검증을 통해 높은 성능을 보여주는 모형 5개를 선정한 뒤, 하이퍼파라미터 튜닝을 진행하였다. 다음으로 앙상블 학습을 통해 통합모형을 생성하였다. 마지막으로, 성능 평가단계에서는 최종 개발된 기계학습 모형을 활용하여 평가용 데이터를 예측하고 각 모형의 성능을 비교하였다.

CPTSCQ_2023_v28n11_53_f0001.png 이미지

Fig. 1. Research Workflow

3. Evaluation

본 연구의 목적은 병리적 진단을 받은 연구대상자들의 일일 라이프로그 데이터를 활용하여 인지기능 장애를 분류하는 기계학습 기반의 이진 분류 모형개발이다. 의료분야와 이진 분류 문제를 다루는 기계학습 모형의 성능평가는 ROC(Receiver Operating Characteristic)곡선의 하단 면적에 해당하는 AUC(Area Under the Curve)와 정밀도(Precision)와 재현율(Recall)의 조화평균을 이용한 F1-Score가 사용된다. 전반적인 연구결과를 제시하는 Table에는 정확도(Accuracy)와 AUC, F1-Score를 표기하고, 결과 기술에서는 본 연구의 목적에 부합하는 평가지표인 AUC와 F1-Score를 중점적으로 기술한다.

IV. Results

1. EDA

라이프로그 데이터의 특성을 파악하기 위해 탐색적 데이터 분석(Exploratory Data Analysis, EDA)을 수행하였다. 본 연구에서 사용한 12,183건의 일일 라이프로그 데이터는 인지기능 정상군이 7,737건, 인지기능 장애군이 4,446건이었으며, 결측치는 존재하지 않았다. 특성변수의 형태(Type)를 확인한 결과, 모두 수치형 데이터로 구성되어있어 별도의 인코딩은 적용하지 않았고 대신 스케일링으로 Z-score 정규화(Normalize)를 진행하였다.

활동성 특성변수 22개의 일반적 특성을 확인한 결과, 이동거리, 걸음 수, 활동 칼로리, 총 사용 칼로리, 저강도 활동시간, 중강도 활동시간, 그리고 휴식 시간은 인지기능 장애군이 높은 경향을 보였지만, 고강도 활동시간, 고강도 활동 신진대사 해당치, 활동 목표 달성 점수, 운동 강도 점수에서는 인지기능 정상군이 높은 경향을 보였다.

Table 2. Characteristics of Activity Features

CPTSCQ_2023_v28n11_53_t0002.png 이미지

*Metabolic Equivalent of Task

수면 특성변수 25개의 일반적 특성을 확인한 결과. 깊은 수면 시간, 램수면 시간은 인지기능 정상군이 높은 경향을 보였지만, 수면 중 깬 시간, 가벼운 수면 시간, 수면 중간점 시간, 뒤척임 비율은 인지기능 장애군이 높은 경향을 보였다.

Table 3. Characteristics of Sleep Features

CPTSCQ_2023_v28n11_53_t0003.png 이미지

*Per minutes

**Root Mean Square of the Successive Differences

2. Machine Learning

PyCaret 3.0.0에서 지원하는 Scikit-learn을 활용하여 학습용 데이터 8,528건에 대한 기계학습을 진행하고 10-폴드로 교차 검증하였다.

분석 결과, 높은 분류성능을 보여주는 5개의 모형으로 Extreme Gradient Boosting(이하 XGB), Light Gradient Boosting Machine(이하 LGBM), Random Forest Classifier(이하 RF), Extra Trees Classifier(이하 ET), Gradient Boosting Classifier(이하 GBC)가 선정되었다.

Table 4. Classification Results (10-fold CV)

CPTSCQ_2023_v28n11_53_t0004.png 이미지

Model*

XGB : Extreme Gradient Boosting

LGBM :Light Gradient Boosting Machine

ET : Extra Trees Classifier

RF :Random Forest Classifier

GBC :Gradient Boosting Classifier

ADA : Ada Boost Classifier

LDA : Linear Discriminant Analysis

QDA : Quadratic Discriminant Analysis

DT : Decision Tree Classifier

LR : Linear Regression

KNN : K-Neighbors Classifier

NB : Naive Bayes

선정된 5개의 분류모형의 성능 최적화를 위해 PyCaret 3.0.0의 Random Grid Search 방법으로 하이퍼파라미터 튜닝을 진행하였다. 하이퍼파라미터 튜닝 모형의 선정 여부를 결정하는 성능평가지표는 AUC, 검증 방법으로는 10-폴드 교차검증을 사용하였다. 초기모형과 하이퍼파라미터 튜닝을 진행한 모형의 AUC를 비교한 결과, XGB(AUC = 0.8932 → 0.9129)와 GBC(AUC = 0.7986 → 0.9061)에서 분류성능이 향상되었으며, LGBM(AUC = 0.8873 → 0.8846), RF(AUC = 0.8718 → 0.7317), ET(AUC = 0.8804 → 0.7740)에서는 초기모형의 분류성능이 우수한 것으로 확인되었다.

결과적으로, 본 연구에서 최종 선정된 5개의 기본 기계 학습 분류모형은 하이퍼파라미터 튜닝을 진행한 XGB, GBC 그리고 초기모형을 유지한 LGBM, RF, ET이다.

Table 5. Hyperparameter Tuning Results

CPTSCQ_2023_v28n11_53_t0005.png 이미지

*Hyperparameter tuning model

3. Ensemble Learning and Prediction

앞서 선정된 5개의 기본 기계학습 분류모형을 활용하여 앙상블 학습을 진행, Stacking Classifier와 Voting Classifier를 생성하였다. 이렇게 구축된 7개의 모형(기본 모형 5개, 앙상블 모형 2개)을 사용하여 평가용 데이터 3,655건에 대해 예측을 수행하였고, 성능평가는 AUC와 F1-Score를 중심으로 진행하였다.

분석 결과, Voting Classifier(AUC = 0.9193, F1 = 0.7833)가 가장 우수한 예측성능을 보였으며, GBC(AUC = 0.9161, F1 = 0.7525), XGB(AUC = 0.9132, F1 = 0.7654), LGBM(AUC = 0.8971, F1 = 0.7144), ET(AUC = 0.8877, F1 = 0.6189), RF(AUC = 0.8781, F1 = 0.6391), Stacking Classifier(AUC = 0.6539, F1 = 0.3398)순으로 예측성능이 확인되었다.

Table 6. Prediction Results

CPTSCQ_2023_v28n11_53_t0006.png 이미지

*Voting classifier(ensemble model)

**Stacking classifier(ensemble model)

CPTSCQ_2023_v28n11_53_f0002.png 이미지

Fig. 2. ROC Curve(Voting Classifier and GBC)

4. Feature Importance

기계학습 모형을 활용하여 인지기능 장애를 예측하는 과정에서 47개의 특성변수 중에서 상대적인 중요도가 높은 10개의 특성변수를 확인하기 위해 예측성능이 우수했던 GBC 모형을 활용하여 특성 중요도(Feature Importance)를 확인했다.

분석 결과, 수면 관련 특성변수 7개, 활동성 관련 특성 변수 3개가 확인되었다. 먼저, 수면과 관련된 특성변수의 중요도는 분당 평균 호흡수(0.088), 분당 평균 심박수(0.059), 수면 중간지점 델타값(0.056), 심박수 변이(0.055), 분당 최저 심박수(0.049), 뒤척임 비율(0.035) 및 가벼운 수면 시간(0.032)순으로 나타났다. 활동성과 관련된 특성변수는 총 사용 칼로리(0.032), 운동강도 점수(0.029) 및 활동점수(0.029)순으로 중요도가 확인되었다.

Table 7. Feature Importance

CPTSCQ_2023_v28n11_53_t0007.png 이미지

*Sleep feature

**Activity feature

V. Conclusions

1. Discussion

본 연구에서는 ‘치매 고위험군 웨어러블 라이프로그’ 데이터의 활동성과 수면 관련 특성을 활용하여 인지기능 장애를 예측하기 위해 AutoML을 사용하여 기계학습 모형을 개발하였다. 먼저 가장 우수한 분류성능을 보여주었던 5개의 모형을 선정하고 최적화한 뒤, 앙상블 학습을 통해 통합모형을 생성하여 예측성능을 평가하였다. 마지막으로 특성변수의 중요도를 확인함으로써, 실무적인 시사점을 제공하고자 하였다.

AutoML을 통해 최초에 우수한 분류모형 5개를 확인한 결과, Extreme Gradient Boosting(XGB), Light Gradient Boosting Machine(LGBM), Random Forest Classifier(RF), Extra Trees Classifier(ET) 및 Gradient Boosting Classifier(GBC)가 선정되었다. 학습용 데이터를 10-폴드 교차 검증한 결과, GBC(AUC = 0.7986)를 제외하면 AUC 값이 모두 0.80 이상으로 나타났다.

모형의 최적화를 위한 하이퍼파라미터 튜닝 과정에서 XGB와 GBC에서 유의미한 성능 향상을 확인하였고, 다른 모형에서는 성능이 하락하는 모습이 나타났다. 하이퍼파라미터 튜닝을 진행한 XGB와 GBC, 그리고 초기모형을 유지한 LGBM, RF, ET 모형을 활용하여 앙상블 학습을 진행하였다. 이 과정에서 Stacking Classifier와 Voting Classifier를 생성하였다. 최종적으로 구축된 7개의 모형으로 평가용 데이터를 예측한 결과, Voting Classifier의 AUC가 0.9193으로 가장 우수한 예측성능을 나타냈다. 이는 기존 연구들과 비교했을 때 뇌 MRI 영상을 기반으로 한 연구에서 우수한 예측성능(Accuracy=0.744)을 보였던 Lee, Oh[11]의 연구를 일부 지지하는 결과이며, 정형화된 측정 데이터에 SVM 모형을 적용했을 때 예측성능(AUC=0.880)이 우수하게 나타났던 So, Lim[7]의 연구, 라이프로그 데이터에 인공신경망을 적용했을 때 예측성능(AUC=0.810)이 우수했던 Lee, Kang, Moon[28]의 연구보다 더 좋은 성능을 보여주고 있다.

반면, 뇌 MRI 데이터에 VBM-SVM 모형을 적용하여 87.9%의 정확도를 확보한 Syaifullah et al.[27]의 연구보다는 정확도 측면에서 소폭 낮은 성능을 보였다. 이는 뇌 MRI와 라이프로그 데이터는 서로 다른 데이터의 유형이며, 이들 간의 예측성능 비교는 어려운 일이다. 뇌 MRI는 치매를 진단하는 3단계의 감별검사에 해당하는 정보를 제공하고, 라이프로그 데이터는 일상 환경에서 수집된 데이터로 선별검사, 진단검사 단계에서 구축된 데이터가 아니며, 병리적 진단이 반영되지 않기 때문에 뇌 MRI 데이터보다 질적인 측면이 떨어지는 면이 있다. 뇌 MRI 데이터가 질적인 측면에서 우수했던 점과 복셀 기반의 형태 계측법(VBM)에 기계학습 모형을 결합했던 점 등에 따라서 본 연구의 결과 보다 우수했던 것으로 사료된다. 나머지 모형인 GBC(AUC = 0.9161), XGB(AUC = 0.9132), LGBM(AUC = 0.8971), ET(AUC = 0.8877), RF(AUC = 0.8781)순으로 예측성능이 우수하였으나, Stacking Classifier의 AUC는 0.6539로 나타나 예측성능이 낮았다.

다음으로 GBC모형을 활용하여 특성 중요도 상위 10개를 확인한 결과, 분당 평균 호흡수(0.088), 분당 평균 심박수(0.059), 수면 중간지점 델타값(0.056), 심박수 변이(0.055), 분당 최저 심박수(0.049), 뒤척임 비율(0.035), 가벼운 수면 시간(0.032), 하루 총 사용 칼로리(0.032), 운동강도 점수(0.029), 활동점수(0.029)순으로 나타났다. 이는 이러한 특성변수들이 인지기능 장애와 수면이 밀접한 연관성을 가지고 있음을 나타낸다. 경도인지장애 환자에게서 수면 문제는 가장 흔한 정신행동 증상으로 알려져 있으며[35], 선행연구에 따르면, 인지기능 장애를 겪고 있는 노인 대다수는 수면의 불편감을 경험하여 삶의 질에 부정적인 영향을 받고 있다[36]. Lim et al.[37]의 실증 연구에서는 경도인지장애 환자 39.7%가 수면 문제를 보이는 것으로 보고된 바 있다. 임상적 연구에 따르면, 수면 문제에 따른 수면 박탈은 뇌척수액의 아밀로이드 증가를 동반함과 동시에, 비용해성 타우 단백질을 증가시켜 신경 퇴행이 진행된다[38]. 본 연구의 결과에서도 활동성 특성변수보다 수면 특성변수가 인지기능 장애를 예측함에 있어서 중요하게 나타나, 선행 연구결과를 지지하고 있음을 파악할 수 있었다. 구체적으로 살펴보면, 수면 중 분당 평균 호흡수가 0.088로 가장 높았다. 이는 수면무호흡증 환자에서 신경 인지기능 장애가 빈번하게 발생하고, 기억력이나 집중력과 같은 인지기능의 저하를 동반하고 있는 것[39]에 기인하는 결과로 판단된다. 수면 중 심박수와 관련된 분당 평균 심박수, 심박수 변이, 분당 최저 심박수도 중요한 특성변수로 나타났다. 심박변이는 수면의 질이 좋지 않을 때 유의미하게 증가하는 것으로 보고된 바 있고[40], 본 연구의 탐색적 데이터 분석에서도 인지기능 장애군에서 뒤척임 비율이 높고 가벼운 수면 시간이 길었던 것으로 볼 때, 인지기능 장애군은 수면의 질이 좋지 못한 것으로 예상할 수 있다. 활동성의 경우, 총 사용 칼로리, 운동강도점수, 활동점수가 중요한 특성변수로 나타났다. 이는 인지기능 장애가 일상생활의 기능적인 한계까지 동반하는 것을 재확인한 것이다. 또한, 본 연구에서는 경도인지장애와 치매를 하나의 인지기능 장애군으로 재정의하였기 때문에, 일상생활 수행능력은 보존된 연구대상과 일상생활이 불가능한 연구대상이 혼재되어 있다. 이로 인해, 활동성 특성변수 중에서도 인지기능 정상군과 인지기능 장애군의 분류가 보다 용이할 것으로 판단되는 전반적인 활동성과 관련된 특성변수들이 중요하게 나타난 것으로 판단된다.

2. Implication and Limitation

본 연구는 기존의 연구들과는 달리, 라이프로그 데이터에 AutoML을 적용하여 인지기능 장애 예측모형을 개발하였다. 분석 도구로 AutoML을 사용하여 다양한 기계학습 알고리즘을 학습용 데이터에 탐색적으로 적용하고 검증하면서 가장 우수한 기계학습 알고리즘을 효과적으로 선정할 수 있었다. 나아가, 앙상블 학습을 통해 기계학습 모형을 통합하였으며 그 결과, Voting Classifier가 가장 우수한 예측성능(AUC=0.9193, F1=0.7833)을 보여, 상당한 성능 향상을 달성했다고 볼 수 있다. 이는 임상에서 유용한 선별도구로 판단하는 기준치(AUC=0.80)를 상회하기 때문에 실무적으로도 유의미한 결과일 것이다.

특성 중요도를 확인한 결과에서는 인지기능 장애 예측시 수면이 중요하게 작용함을 알 수 있었다. 이는 인지기능저하를 동반하는 수면무호흡증과도 밀접한 관련이 있을 것으로 사료되며, 본 연구대상 중의 인지기능 장애군의 수면의 질이 대체로 좋지 못했던 것과 관련이 있을 것으로 판단할 수 있다. 본 연구에서는 실시간으로 측정되는 라이프로그 데이터를 활용하였기 때문에, 기존의 연구들에서 발견하지 못하였던 통찰을 제공할 수 있을 것으로 기대하였으나, 대체로 선행연구 결과와 일치하고 있음을 알 수 있었다. 이는 인지기능 장애를 예측하는 과정에서 라이프로그 데이터의 사용 가능성도 고려해볼 수 있다는 시사점을 제공함과 동시에 후속 연구를 통해 측정된 라이프로그 특성변수 각각의 연관성, 인과관계 등을 자세히 살펴볼 필요가 있음을 시사한다.

본 연구가 제시하는 시사점을 요약하면 다음과 같다. 첫째, 구조화된 측정도구와 의료영상(MRI, PET) 데이터 대신 라이프로그 데이터를 활용하여 의미 있는 결과를 도출하였다. 이러한 관점은 기존 연구와는 차별화되며, 라이프로그 데이터의 활용 가능성을 제안한다. 둘째, 분석 도구로 AutoML을 활용함으로써, 다양한 기계학습 알고리즘을 데이터에 적용하고 검증하는 과정에서 효율성을 높일 수 있었다. 이를 통해 가장 우수한 알고리즘을 보다 효과적으로 식별하고 최적화할 수 있었다. 마지막으로, 앙상블 학습을 통해 모형의 성능을 극대화하였으며, 이로써 유의미한 성능 향상을 확인하였다. 종합적으로, AutoML과 라이프로그 데이터를 활용하여 인지기능 장애를 예측할 수 있었고, 그 과정에서 수면이 중요한 특성변수로 작용함을 확인하였다. 이러한 연구결과는 고령층에서 빈번하게 발생하는 인지기능 장애를 초기에 검진하고 예측하는데 유용한 근거자료로 활용될 수 있다. 앞으로 더 나아가, 지속적인 데이터 수집과 모형의 개선, 그리고 구체적인 배포전략 수립 등을 통해, 개인이 자신의 인지기능 장애의 위험을 판단하고, 적절한 조치를 취할 기회를 제공할 수 있을 것으로 기대한다.

본 연구는 다음과 같은 한계점을 가진다. 첫째, 분석에 사용된 데이터는 12,183건의 일일 라이프로그 데이터지만, 실제 측정된 연구대상은 174명에 불과하여 표본의 크기가 제한적이기에 대표성 확보의 한계점이 존재할 수 있다. 둘째, 인지기능 장애가 경증에서 중증으로 진행되는 시기 등을 고려했을 때, 라이프로그 데이터를 보다 장기적으로 수집하고 분석할 필요가 있다. 마지막으로, 기계학습 모형의 예측 결과는 인과관계를 확립하지 않기 때문에, 인과관계를 확인하고 설명할 수 있는 후속 연구가 필요하다.

ACKNOWLEDGEMENT

This research was supported by the MIST(Ministry of Science, ICT), Korea, under the National Program for Excellence in SW), supervised by the IITP(Institute of Information & communications Technology Planing & Evaluation) in 2021(2021-0-01440)

This research used datasets from 'The Open AI Dataset Project (AI-Hub, S. Korea)'. All data information can be accessed through 'AI-Hub (www.aihub.or.kr)’

참고문헌

  1. Statistics Korea, 2022 Statistics of the aged, Statistics Korea Press, https://kostat.go.kr/board.es?mid=a10301010000&bid=10820&tag=&act=view&list_no=420896&ref_bid
  2. Health Insurance Review & Assessment Service, 2021 Statistics index of the medical care cost, https://www.hira.or.kr/
  3. W. Baek, and D. R. Kim, "Factors Affecting Cognitive Function in the Elderly Using Aging Panel Data: Focusing on Demographics, Psycho-social, Physical, and Health-related Behavioral Characteristics," Journal of The Korean Data Analysis Society, Vol. 24, No. 5, pp. 1893-1906, October 2022. DOI: https://doi.org/10.37727/jkdas.2022.24.5.1893
  4. D. Park, G. R. Lee, and H. Yang, "Risk Factors Associated with Transition to Dementia in Patients with Mild Cognitive Impairment," Journal of Health Informatics and Statistics, Vol. 47, No. 4, pp. 307-311, November 2022. DOI: http://doi.org/10.21032/jhis.2022.47.4.307
  5. E. Oh, and A. Y. Lee, "Mild Cognitive Impairment," Journal of Korean Neurological Association, Vol. 34, No. 3, pp. 167-175, March 2016. DOI: https://doi.org/10.17340/jkna.2016.3.1
  6. R. C. Petersen, "Mild cognitive impairment," CONTINUUM: Lifelong Learning in Neurology, Vol. 10, No. 1, pp. 9-28, February 2004. DOI: 10.1212/01.CON.0000293545.39683.cc
  7. A. So, and H. S. Lim, "Analysis for Development of The Dementia Sorting System using Machine Learning Techniques," The Korean Association Of Computer Education Academic Conference Papers, Vol. 19, No. 1, pp. 137-140, January 2015.
  8. K. O. Chang, Y. S. Cho, and M. J. Kim, "Effects of Perception and Fear of Dementia Attitude among Local Public Officials," Journal of The Korean Data Analysis Society, Vol. 24, No. 2, pp. 873-886, April 2022. DOI: https://doi.org/10.37727/jkdas.2022.24.2.873
  9. H. Choi, S. H. Kim, J. H. Lee, Y. A. Lee, K. W. Park, E. A Lee, S. H Choi, D. L. Na, and J. H. Jeong, "National Responsibility Policy for Dementia Care: Current and Future," Journal of the Korean Neurological Association, Vol. 36, No. 3, pp. 152-158, July 2018. DOI: https://doi.org/10.17340/jkna.2018.3.3
  10. T. H. Kim, H. J. Jeong, J. Y. Song, N. Kim, and E. M Lee, "Analysis of Influencing Factors of Suicide Ideation Using Random Forest Model : Focusing on the National Health and Nutrition Examination Survey," Journal of The Korean Data Analysis Society, Vol. 25, No. 3, pp. 1121-1132, June 2023. DOI: http://doi.org/10.37727/jkdas.2023.25.3.1121
  11. T. Lee, and H. Oh, "Dementia Prediction Model based on Gradient Boosting," Journal of the Korea Institute of Information and Communication Engineering, Vol. 25, No. 12, pp. 1729-1738, December 2021. DOI: http://doi.org/10.6109/jkiice.2021.25.12.1729
  12. S. Kwon, and S. Lee, "Relational Database Model for Collecting Lifelog from Heterogeneous Smart Watches," Journal of Korean Institute of Information Technology, Vol. 16, No. 9, pp. 13-21, September 2018. DOI: http://dx.doi.org/10.14801/jkiit.2018.16.9.13
  13. G. Han, and S. Jin, "Introduction to Big Data and the Case Study of Its Applications," Journal of The Korean Data Analysis Society, Vol. 16, No. 3, pp. 1337-1351, 2014. DOI: G704-000930.2014.16.3.002
  14. W. Jo, S. Yang, S. Choi, J. Paek, M. Min, Y. Lee, K. Park, and K. Lee, "Lifelog big data-based lifestyle (life pattern) analysis and wellness predictive care service system using IoT," The Journal of The Korean Institute of Communication Sciences, Vol. 31, No. 12, pp. 17-24, 2014.
  15. C. Jonker, M. I. Geerlings, and B. Schmand, "Are memory complaints predictive for dementia? A review of clinical and population-based studies," International journal of geriatric psychiatry, Vol. 15, No. 11, pp. 983-991, November 2000. DOI: https://doi.org/10.1002/1099-1166(200011)15:11<983::AID-GPS238>3.0.CO;2-5
  16. G. J. Larrabee, and T. H. Crook, "Estimated prevalence of age-associated memory impairment derived from standardized tests of memory function," International psychogeriatrics, Vol. 6, No. 1, 95-104, January 2005. DOI: https://doi.org/10.1017/S1041610294001663
  17. Korean Dementia Association, 99 Stories of dementia, March 2012. https://www.dementia.or.kr/general/bbs/?code=story
  18. R. L. Kahn, A. I. Goldfarb, M. Pollack, A. Peck, "Brief objective measures for the determination of mental status in the aged," American journal of Psychiatry, Vol. 117, No. 4, pp. 326-328, October 1960. DOI: https://doi.org/10.1176/ajp.117.4.326
  19. M. F. Folstein, S. E. Folstein, and P. R. McHugh, "Mini-mental state: a practical method for grading the cognitive state of patients for the clinician," Journal of psychiatric research, Vol. 12, No. 3, pp. 189-198, 1975 https://doi.org/10.1016/0022-3956(75)90026-6
  20. S. Y. Lee, J. M. Kim, J. A. Yoo, and I. S. Shin, "Screening Instruments for Dementia," J Korean Soc Biol Ther Psych, Vol. 12, No. 2, pp. 131-139, 2006.
  21. J. H. Park, Y. C. Kwon, "Modification of the mini-mental state examination for use in the elderly in a non-western society. Part 1. Development of korean version of mini-mental state examination," International Journal of Geriatric Psychiatry, Vol. 5, No. 6, pp. 381-387, December 1990. DOI: https://doi.org/10.1002/gps.930050606
  22. Y. Kang, D. L. Na, and S. Hann, "A Validity Study on the Korean Mini-Mental State Examination(K-MMSE) in Dementia Patients," J Korean Neurol Assoc, Vol. 15, No. 2, pp. 300-308, 1997.
  23. S. H. Choi, D. L. Na, K. M. Oh, and B. J. Park, "A Short form of the Samsung Dementia Questionnaire (S-SDQ): development and cross-validation," J Korean Neurol Assoc, Vol. 17, No. 2, pp. 253-258, 1999.
  24. D. Galasko, M. R. Klauber, C. R. Hofstetter, D. P. Salmon, B. Lasker, and L. J Thal, "The Mini-Mental State Examination in the early diagnosis of Alzheimer's disease," Archives of neurology, Vol. 47, Nol. 1, pp. 49-52, January 1990. DOI: http://doi.org/10.1001/archneur.1990.00530010061020
  25. C. M. Clark, L. Sheppard, G. G. Fillenbaum, D. Galasko, J. C. Morris, E. Koss, R. Mohs, A. Heyman, and Cerad Investigators, "Variability in annual Mini-Mental State Examination score in patients with probable Alzheimer disease: a clinical perspective of data from the Consortium to Establish a Registry for Alzheimer's Disease," Archives of neurology, Vol. 56, No. 7, pp. 857-862, July 1999. DOI: http://doi.org/10.1001/archneur.56.7.857
  26. S. A. Mofrad, A. J. Lundervold, A. Vik, and A. S. Lundervold "Cognitive and MRI trajectories for prediction of Alzheimer's disease," Scientific Reports. 11:2122. 123AD, January 2021. DOI: https://doi.org/10.1038/s41598-020-78095-7
  27. A. H. Syaifullah, A. Shiino, H. Kitahara, R. Ito, M. Ishida, and K. Tanigaki, "Machine learning for diagnosis of AD and prediction of MCI progression from brain MRI using brain anatomical analysis using diffeomorphic deformation," Frontiers in Neurology, Vol. 11, pp. 1-13, February 2021. DOI: http://doi.org/10.3389/fneur.2020.576029
  28. S. H. Lee, W. S. Kang, C. Moon, Lifelog-based classification of mild cognitive impairment using artificial neural networks. In 2018 International Conference on Electronics, Information, and Communication (ICEIC) pp. 1-2. IEEE. January 2018. DOI: 10.23919/ELINFOCOM.2018.8330611
  29. T. Nagarajah, and G. Poravi, A review on automated machine learning (AutoML) systems, IEEE, pp. 1-6, Bombay, India, March 2019. DOI: http://doi.org/10.1109/I2CT45611.2019.9033810
  30. K. H. Nam, M. I. Kim, O. I. Kwon, W. Fawu, and G. C. Jeong, "Prediction of Landslides and Determination of Its Variable Importance Using AutoML," The Journal of Engineering Geology, Vol. 30, Nol. 3, pp. 315-325, September, 2020. DOI: https://doi.org/10.9720/kseg.2020.3.315
  31. M. Graczyk, T. Lasota, B. Trawinski, and K. Trawinski, Comparison of bagging, boosting and stacking ensembles applied to real estate appraisal, In Intelligent Information and Database Systems: Second International Conference, ACIIDS, Springer Berlin Heidelberg, Proceedings, Part II 2, pp. 340-350, Hue City, Vietnam, March 24-26, 2010.
  32. A. A. Aburomman, and M. B. I. Reaz, "A novel SVM-kNN-PSO ensemble method for intrusion detection system," Applied Soft Computing, Vol. 38, pp. 360-372, October 2016. DOI: http://dx.doi.org/10.1016/j.asoc.2015.10.011
  33. T. Wu, W. Zhang, X. Jiao, W. Guo, and Y. A. Hamoud, "Evaluation of stacking and blending ensemble learning methods for estimating daily reference evapotranspiration," Computers and Electronics in Agriculture, Vol. 184, 106039, May 2021. DOI: https://doi.org/10.1016/j.compag.2021.106039
  34. S. Kumari, D. Kumar, and M. Mittal. An ensemble approach for classification and prediction of diabetes mellitus using soft voting classifier. International Journal of Cognitive Computing in Engineering, Vol. 2, pp. 40-46. June 2021. DOI: https://doi.org/10.1016/j.ijcce.2021.01.001
  35. W. Muangpaisan, S. Intalapaporn, and P. Assantachai, "Neuropsychiatric symptoms in the community based patients with mild cognitive impairment and the influence of demographic factors," International Journal of Geriatric Psychiatry, Vol. 23, No. 7, pp. 699-703, January 2008. DOI: http://doi.org/10.1002/gps.1963
  36. S. Y. Jeoung, E. K. Kim, H. Park, "Related Factors to Sleep Quality in Older Adults with Mild Cognitive Impairment at Long Term Care Hospitals in South Korea: A Cross-Sectional Study", Journal of Korean Gerontological Nursing, Vol. 24, No. 2, pp. 210-217, May 2022. DOI: 10.17079/jkgn.2022.24.2.210
  37. C. Y. Lim, I. S. Shin, H. Y. Shin, J. M. Kim, S. W. Kim, and J. S. Yoon, "Relationship between Sleep Disturbance and Cognitive Dysfunction in Patients with Mild Cognitive Impairment," Journal of the Korean Society of Biological Therapies in Psychiatry, Vol. 22, No. 3, pp. 187-195, September 2016.
  38. K. H. Lee, H. C. Kim, "Relationship Between Sleep and Alzheimer's Dementia", Sleep Medicine ans Psychophysiology, Vol 29, No 1, pp. 1-3, June 2022. DOI: 10.14401/KASMED.2022.29.1.1
  39. B. H. Choi, L. Kim, and K. Y. Suh, "Neurocognitive Function in Obstructive Sleep Apnea Patients. Sleep Medicine and Psychophysiology," Sleep Med Psychophysiol, Vol. 3, No. 1, pp. 38-46, Jun 1996.
  40. T. Kageyama, N. Nishikido, T. Kobayashi, Y. Kurokawa, T. Kaneko, and M. Kabuto, "Self-reported sleep quality, job stress, and daytime autonomic activities assessed in terms of short-term heart rate variability among male white-collar workers," Industrial health, Vol. 36, No. 3, pp. 263-272, April 1998. DOI: https://doi.org/10.2486/indhealth.36.263