I. Introduction
전 세계의 다양한 의료 시스템에서 전자의무기록(Electronic Medical Record; EMR) 시스템이 증가하고 있다[1,2]. 이러한 추세에 따라 EMR 데이터를 인공지능과 접목하는 연구가 현재 빠르게 늘어나고 있다. 큰 잠재력과 관심에도 불구하고, 효과적이고 신뢰할 수 있는 인공지능 모델을 개발하는 데는 커다란 장벽이 있다. 주요 문제 중 하나는 대규모 EMR 데이터에 대한 접근이다. 개인 정보 보호와 각 병원에서 사용하는 EMR 시스템 간 호환성에 대한 문제와 대규모 EMR 데이터의 정제[3,4] 및 가공[5,6,7]을 위해 공학 지식과 의료 지식을 모두 필요로 한다는 점이 주요 과제로 남아있다.
EMR 연동을 통해 환자의 상태를 모니터링하고 의료진에게 경보를 해야 하는 대표적인 질환은 욕창이다. 욕창은 신체 부위에 지속적인 압박이 가해져 혈액순환 장애가 일어나 산소 및 영양 공급이 원활하지 못해 발생한다. 적절한 치료를 받지 않을 경우, 피부괴사가 시작되고 패혈증 등의 합병증으로 발전할 수 있기에 예방이 중요하다[8]. 특히 중 환자는 의식이 없거나 거동이 불편한 환자가 많아 병동 내 간호사가 주기적으로 체위 변경 등의 처치를 하거나 특수 침대를 사용하여 예방하지만 한정된 의료 자원으로 많은 환자의 욕창 발생을 방지하는 것은 매우 어려운 일이다. 기존 연구들은 일반적인 기계학습 방법을 적용하여 시계열로 저장되는 EMR 데이터의 특성을 활용하지 않았다[9,10]. 본 연구에서는 시계열 데이터를 그대로 활용하는 효과적인 EMR 데이터 가공 방법을 제안한다. 또한 본 연구에서는 제안한 방법으로 추출한 데이터를 활용한 욕창 조기경보가 가능한 학습 방법을 제안하고 실험 결과를 통해 욕창이 발생하기 전에 의료진에게 위험성을 알려 효율적인 의료 자원 배분이 가능함을 보이고자 한다.
II. Related works
2.1 Machine learning models
최근 EMR 데이터를 활용한 연구는 의사결정모델, 로지스틱 회귀모델 등의 통상적인 기계학습 방법을 사용한 연구가 주를 이루고 있다. 대부분의 기계학습 방법들은 통계적인 방법을 통해 구한 대푯값을 사용하여 예측 시점의 사건 발생 여부를 출력한다. 하지만 이러한 기계학습 방법들은 데이터의 시간적 역학을 포착하지 못하기 때문에 시계열 데이터를 사용하기에 부적합하다. 중환자실 내의 한정된 의료자원을 효과적으로 배분하기 위해서는 새로운 환자 데이터 취득과 동시에 환자의 상태 변화를 인지하고 이를 통해 환자 예후를 예측할 수 있어야 한다.
일반적인 중환자실에서는 SAPS(Simplified Acute Physiology Score), APACHE(Acute Physiology and Chronic Health Evaluation), SOFA(Sequential Organ Failure Assesment) 와 같은 분석 도구를 통해 환자의 위험도를 확인한다[11,12]. 욕창 발생 위험도를 사정하는 도구로는 Braden Scale, Norton Scale, WaterlowScale, Cubbin & Jackson Scale, Gosnell Scale[8,13,14] 등을 사용하지만 이 도구들은 사정하는 간호사의 주관적인 견해가 섞이게 되어 일관성 문제가 발생하게 된다. 본 논문에서는 이러한 값들을 직접적인 위험성 분석이 아닌 적절한 데이터 가공을 통해 학습 데이터로 사용한다.
2.2 MIMIC-IV Dataset
MIMIC-IV는 2008년부터 2019년까지 미국 보스턴의 Beth Israel Deaconess Medical Center에서 취득한 데이터이다. 주요 환자 정보를 비식별화하여 개인정보 문제를 해결하였고 현재 의료 영역에서 표준 공개 데이터로 중요한 역할을 하고 있다. 해당 데이터에는 환자의 활력징후, 실험실 측정, 투여 약물 등을 포함하여 실제 병원에서 취득할 수 있는 대부분의 정보를 포함하고 있다.
최근 MIMIC-III[3,4]의 성공적인 수집 방법을 기반으로 오류를 수정하고 MIMIC-IV 2.0[15] 데이터를 공개하였다. 315,460명의 개별 환자에 대한 데이터로 구성되어 있으며, 454,324건의 병원 입원기록과 76,943건의 중환자실입실 기록을 취득한 데이터를 구분하여 제공한다. Figure 1은 환자 1명의 병원, 중환자실 입/퇴실 기록을 표현한다.
Fig. 1. Patient admission history
하지만 데이터 가공 방법의 기준이 명확하지 않아 서로 다른 연구 결과의 비교 및 해당 연구의 재현이 어렵다는 문제를 가지고 있다. Purushotham, S 등[5]은 이러한 문제를 제시하며 데이터 추출 파이프라인[6,7]과 함께 베이스라인 모델을 제안하였지만, EMR 데이터에서 사용할 수 있는 모든 변수를 포함하지는 않았다는 한계를 가지고 있다. 제안한 방법에서는 수치 데이터가 주를 이루고 있으며, 환자에게 행한 처치 등의 변수에 대한 기준이 정의하지 않았다. 본 논문에서는 처치 관련된 변수를 최대한 사용하기 위해 관련 값을 이진 데이터로 변환한다.
III. The Proposed Scheme
본 장에서는 MIMIC 데이터에서 욕창 발생 환자 코호트를 정의하고, 추출 데이터의 형태와 변수목록 그리고 오류 데이터의 정제 방법을 설명한다. Figure 3은 데이터 가공 흐름을 도식화하였다.
3.1 Pressure Ulcer cohort selection
중환자실에 입실한 만 18세 이상의 성인을 대상으로 선정하였으며, 욕창이 발생한 환자의 재발 가능성을 고려해 최초 발생 전과 후를 구분하였다. 욕창 발생 여부는 환자에게 부여한 진단 코드를 통해 확인해야 하지만 실제 중환자실 데이터의 욕창 발생 여부와 서로 값이 상충하여 전체 환자에 대해 설명이 불가능한 문제가 있다. 이를 해결하고자 욕창이 발생한 시점을 가늠할 수 있는 두 가지 변수인 욕창 발생 보고 여부와 부위별 욕창 등급을 이용하여 욕창 환자를 구분하였다. Figure 2와 같이 현재 입실의 발생 여부 및 과거 입실에서의 발생 여부를 통해 4가지 경우의 수를 두고, 과거 욕창 발생 기록이 있는 환자군 {-1, -2}과 과거 욕창 발생 기록이 없는 환자군 {1, 0}을 구분하여 학습, 평가 데이터셋을 구분하였다. 이를 Figure 1의 환자에게 적용하면 6번의 입실 순서대로 {0, 1, -2, -1}의 데이터셋으로 구분하게 된다.
Fig. 2. Pressure Ulcer cohort selection
Fig. 3. Data process flow chart
3.2 Data extraction
환자마다 중환자실 입실 기간 및 환자의 상태에 따라 수집 빈도의 차이가 존재하여 시계열 데이터양이 차이가 나며, 사건이 기록되는 시간차의 일관성이 떨어진다. 일괄적인 데이터 수집을 위해 본 논문에서는 LoE (Length of Event)를 입실 시점(tadmit)부터 사건기록 시점(tchart)까지 경과한 시간 길이로 정의하고, 1시간 단위로 샘플링하여 사용한다.
loechart = (tchart - tadmit)/60/60 ∈ Z (1)
샘플링한 1시간 내에 데이터가 여러 번 기록된 경우 겹치는 데이터가 생기는데 이러한 겹치는 데이터에 대해 수치, 범주형, 이진 데이터의 경우로 구분하여 처리한다. Figure 4는 데이터의 종류별 원시데이터와 가공 후 모습을 보여준다. 기본적으로 수치형 데이터는 원시 데이터의 경향을 최대한 보전하기 위해 평균값을 사용하여 처리한다. 범주형 데이터의 경우 환자의 예후가 상대적으로 부정적인 값을 사용한다. 일 예로, 간호사가 기록하는 Braden scale 욕창사정도구는 환자 부위를 10가지로 구분하여 각각 측정하는데, 기록시 이를 명확히 분류하지 않아 부위에 관계없이 발생 확률을 예측하기 위해 가장 부정적인 값을 사용하여 환자별 가장 취약한 부위의 욕창 발생 확률을 예측하도록 한다. 약물주입, 처치와 관련된 변수는 시작시간과 종료시간, 그 양에 대한 정보를 확인할 수 있지만, 세부 약품명에 따라 투여량이 변경될 수 있는 문제가 있어 약품 명의 구분 없이 근육이완제, 진정제, 혈압상승제로 구분하고 사용여부로 이진화하여 사용한다.
Fig. 4. Raw data and processed data
환자의 진정 단계를 평가하는 RASS(Richmond Agitation-Sedation Scale) 점수와 SAS(Riker Sedation-Agitation Scale) 점수는 환자마다 적용한 평가방식에 차이가 있어 Table 1을 기준으로 10단계로 구분하는 RASS 점수를 7단계로 구분하는 SAS 점수로 치환하여 하나의 변수로 사용한다.
Table 1. RASS to SAS replacement
추출 변수는 환자 기본정보, 활력징후, 혈액검사 데이터 및 의학적으로 욕창 발생과 관계가 있는 변수를 의료전문가를 통해 52개를 선정하였으며 Figure 5는 추출한 변수의 세부 내역을 보이고 있다.
Fig. 5. Feature selection
최종적으로 추출한 환자별 데이터의 크기(Dpat)는 loedisch개의 행과 더불어 52개 변수와 중환자실 입실번호, LoE, 욕창 발생 여부를 포함한 55개의 열을 가지게 된다.
Dpat = Rloedisch × (3 + 52) (2)
3.3 Data cleaning
EMR 데이터의 수집 환경은 측정기기가 상시 모니터링하고 측정데이터를 데이터베이스에 업로드 하거나 사람이 수기로 작성하여 서버에 업로드 하는 방식이 많아 노이즈, 결측, 이상, 중복, 기록오류 등으로 발생 되는 다량의 무작위적인 오류 데이터 및 결측 데이터가 존재한다. 이러한 오류 데이터와 결측값은 데이터 분석을 어렵게 하고 학습의 성능을 저해시키는 요인이 되므로 데이터 정제와 결측값 보간이 매우 중요하다. 본 연구에서는 다음과 같은 가정을 기반으로 데이터 정제와 결측값 보간을 진행하여 학습 데이터를 생성한다.
⦁ 중환자 데이터 수집은 환자 상태를 의료 전문가의 판단을 통해 이루어진다.
⦁ 결측값은 환자 상태를 고려하여 의도적으로 측정하지 않은 것으로 가정하고 직전에 취득한 데이터를 사용한다.
⦁ 짧은 기간 동안 데이터의 변화 폭이 크더라도 오류 데이터로 구분하지 않는다.
활력징후와 혈액검사 결과와 같은 수치 데이터는 환자를 정상상태로 분류할 수 있는 수치 범위는 정의할 수 있지만 중환자의 경우 해당 수치를 오류로 판단하기에 어려움이 있어 명확한 측정범위가 존재하지 않는 값에 대해 IQR(Interquantile Range) 방법을 적용하여 이상치를 제거하였다.
3.4 Label manipulation
일반적으로 시계열 데이터를 이용해 학습을 위한 정답값으로 실제 욕창이 발생한 시간을 기점으로 1의 값을 부여하여 사용한다. 하지만 이렇게 학습한 모델이 출력하는 값은 실제 발생한 시점을 기준으로 예측하게 된다. 기계학습 모델이 조기경보가 가능한지 확인하기 위해 Figure 6과 같이 실제 욕창 발생 시간(Time Zero; tz)을 기준으로 조정시간(Tm ) 이전에 발생한 것으로 정답 값을 부여한다.
Fig. 6. Label manipulation
IV. Experiment
4.1 Model
통상적으로 사용하는 기계학습 모델에는 로지스틱 회귀, Decision Tree, Random Forest, XGBoost 등이 있다. 이러한 기계학습 방법들은 시계열 데이터를 통한 학습에는 부적합하다. 시간 정보를 활용하고 실시간으로 욕창의 발생확률을 예측하기 위해 본 논문에서는 시계열 데이터를 효과적으로 다룰 수 있는 RNN 모델을 사용하여 실험을 진행하였다. RNN 모델은 ht = f(xt, ht-1)의 관계로 정의되며, 이전 상태 ht-1을 입력으로 받아 다음 입력으로 사용하기에 데이터의 시간적 역학을 포착할 수 있다.
일반적인 RNN 모델은 기울기 소실 문제가 있어 장기간의 시간 역학을 포착하는데 어려움이 있다. 이러한 기울기 소실 문제를 게이트 메커니즘을 추가해 해결한 모델로는 LSTM과 GRU 모델이 있으며, 본 실험에서는 RNN, LSTM, GRU를 이용하여 실험을 진행하였다.
4.2 Implementation details
실제 욕창 발생 시간을 기준으로 이전 0, 12, 24, 48시간에 발생한 것으로 정답 값을 부여함으로써 모델이 조기 경보가 가능한지 실험을 진행하였다. 학습에는 입실 기간 48시간 이상인 환자만을 사용하였으며, 연속된 48시간 데이터를 임의로 샘플링하여 사용하였다. 기계학습 모델은 시계열 데이터를 사용하지 못해 전체 데이터를 합치고 각 데이터를 하나의 샘플로 가정하고 실험을 진행하였다. 조기경보를 위한 정답 값 조정은 동일하게 적용하였다. 변수의 최솟값 및 최댓값을 {-1, 1} 범위로 정규화하여 입력으로 사용하였고 욕창 코호트에서 설정한 환자 구분을 통해 학습, 평가 데이터를 설정하였다.
⦁ 학습 및 평가 모두 이전 입실 욕창 발생 환자 제외
⦁ 평가에만 이전 입실 욕창 발생 환자 사용
⦁ 학습에만 이전 입실 욕창 발생 환자 사용
⦁ 학습과 평가 모두 이전 입실 욕창 발생 환자 사용
4.3 Result
효율적인 의료자원 배분 시스템을 구축하려면 실제 욕창이 발생하기 전에 의료진에게 위험한 환자 정보를 알리는 것이 매우 중요하다. 모델이 시간적 역학을 학습했다면 실제 욕창 발생 시간에 근접할수록 높은 확률을 출력해야 한다. 전 모델이 조정시간(Tm ) 값이 작을수록 성능이 상승하는 경향을 보였다. 특히 0시간과 12시간의 성능 차이가 미미하여 욕창이 발생하기 최소 12시간 이전에 조기경보가 가능하다는 것을 확인하였다.
학습과 평가 모두 이전 입실에서의 욕창 발생 환자 데이터를 사용하였을 때, GRU 모델이 AUROC 지표를 기준으로 욕창 발생 전 12시간이 0.831, 24시간이 0.822로 가장 좋은 성능을 보였다. LSTM 모델의 경우 Table 2-1, Table 2-3과 같이 학습데이터 수가 늘어나는 사례에서는 GRU 모델의 성능에 근접하는 것을 확인할 수 있다. 이를 통해 LSTM 모델의 게이트를 학습하기 위해서는 충분한 데이터가 확보되어야 한다고 볼 수 있다. 반면, GRU 모델은 데이터 수와 관계없이 일관적으로 다른 베이스라인 모델보다 높은 성능을 보이는 것을 확인하였다. 일반적으로 데이터 수가 부족한 의료 데이터에 적용하는 것은 GRU 모델이 적합하다고 보인다. LSTM 모델은 RNN보다는 좋은 성능을 보였으나 LSTM의 게이트를 학습하기에는 데이터 수가 적음에 따라 RNN 모델 대비 성능 향상이 적은 것을 확인하였다. 반면 GRU 모델은 일관적으로 다른 베이스라인 모델보다 높은 성능을 보인다. 이를 통해 GRU 모델이 실시간 정보 및 과거의 정보를 통해 특정 환자의 위험도를 평가하는데 가장 적합한 것으로 보인다.
Table 2-1. Exclude PU patients on previous admission for both set
Table 2-2. Include PU patients on previous admission for test set
Table 2-3. Include PU patients on previous admission for train set
Table 2-4. Include PU patients on previous admission for both set
V. Conclusions
EMR 데이터는 데이터 취득 시 자동으로 서버에 저장되기에 환자의 상태 변화를 수시로 예측하여 중환자 의사결정 및 대처에 효과적이다. 본 연구에서는 공학 분야와 의료분야 융합이 필수적인 EMR 데이터의 정제 및 가공 방법을 제안하고, 시계열 데이터 처리에 두루 사용되는 RNN 계열 모델의 성능을 비교하여 기존 통상적으로 사용하는 기계학습 모델보다 더욱 우수함을 확인하였다. GRU 모델 및 LSTM 모델 모두 장기적인 시계열 데이터 학습에 적절함을 보였다. 하지만 학습 데이터 수가 부족한 경우가 많은 의료 데이터의 특성으로 인해 많은 학습 데이터가 필요한 LSTM보다는 GRU 모델이 현장에서는 적절하다는 것을 실험 결과를 통해 확인하였다. 본 논문에서는 학습 데이터의 정답 값을 조절하여 원하는 시간의 환자 예후 예측이 가능하다는 것을 확인하였다. 조기경보가 가능한 모델을 EMR 시스템과 연동하면 의료진의 중환자 의사결정에 큰 도움이 될 것으로 보인다.
추후 연구에서는 모델의 예측 성능을 크게 저하시키는 주 요인인 데이터 내 결측값을 처리하는 다양한 보간 방법을 적용하고 개선 모델을 적용할 예정이다.
References
- In Sook Cho, H A Park, E J Chung, H S Lee, "Formative Evaluation of Standard Terminology-based Electronic Nursing Record System in Clinical Setting", Journal of Korean Socirety of Medical Informatics, 9(4), pp.413-421, December 2003, DOI: https://doi.org/10.4258/jksmi.2003.9.4.413
- Chung Hee Lee, Young Hee Sung, Yeon Yi Jung and Jeong Lim Lee. "A Study on the Effects of EMR on Nursing Documentation", Journal of Korean Society of Medical Informatics, volume 6(4), pp.87-97, December 2000, DOI: https://doi.org/10.4258/jksmi.2000.6.4.87
- Johnson, A., Pollard, T., Shen, L. et al. "MIMIC-III, a freely accessible critical care database", Sci Data 3, 160035, May 2016, DOI: https://doi.org/10.1038/sdata.2016.35
- Alistair E W Johnson, David J Stone, Leo A Celi, Tom J Pollard, "The MIMIC Code Repository: enabling reproducibility in critical care research", Journal of the American Medical Informatics Association, 25(1) 32-39, January 2018, DOI: https://doi.org/10.1093/jamia/ocx084
- Sanjay Purushotham, Chuizheng Meng, Zhengping Che, Yan Liu, "Benchmarking deep learning models on large healthcare datasets", Journal of Biomedical Informatics, volume 83, pp.112-134, June 2018, DOI: https://doi.org/10.1016/j.jbi.2018.04.007.
- Shirly Wang, Matthew B. A. McDermott, Geeticka Chauhan, Marzyeh Ghassemi, Michael C. Hughes, and Tristan Naumann. "MIMIC-Extract: a data extraction, preprocessing, and representation pipeline for MIMIC-III", Association for Computing Machinery, CHIL '20, pp.222-235, April 2020, DOI: https://doi.org/10.1145/3368555.3384469
- Shengpu Tang, Parmida Davarmanesh, Yanmeng Song, Danai Koutra, Michael W Sjoding, Jenna Wiens, "Democratizing EHR analyses with FIDDLE: a flexible data-driven preprocessing pipeline for structured clinical data", Journal of the American Medical Informatics Association, volume 27(12), December 2020, pp.1921-1934, DOI: https://doi.org/10.1093/jamia/ocaa139
- Seul Ki Park, Hyeoun-Ae Park, Hee Hwang, "Development and Evaluation of Electronic Health Record Data-Drived Predictive Models for Pressure Ulcers", J Korean Acad Nurs, volume 49(5), pp.575-585, January 2019, DOI: https://doi.org/10.4040/jkan.2019.49.5.575
- Walther, F., Heinrich, L., Schmitt, J. et al. "Prediction of inpatient pressure ulcers based on routine healthcare data using machine learning methodology". Sci Rep volume 12(5044), March 2022, DOI: https://doi.org/10.1038/s41598-022-09050-x
- Cramer EM, Seneviratne MG, Sharifi H, Ozturk A, Hernandez-Boussard T., "Predicting the Incidence of Pressure Ulcers in the Intensive Care Unit Using Machine Learning", EGEMS, volume 7(1), pp.49, September 2019, DOI: 10.5334/egems.307
- Knaus WA, Draper EA, Wagner DP, Zimmerman JE., "APACHE II: a severity of disease classification system", Critical Care Medicine, 13(10), pp.818-829, October 1985, PMID: 3928249 https://doi.org/10.1097/00003246-198510000-00009
- Nassar, A.P., Malbouisson, L.S. & Moreno R., "Evaluation of simplified acute physiology score 3 performance: a systematic review of external validation studies", Crit Care 18, R117, June 2014, DOI: https://doi.org/10.1186/cc13911
- Simon Lebech Cichosz, Anne-Birgitte Voelsang, Lise Tarnow, John Michael Hasenkam, and Jesper Fleischer, "Prediction of In-Hospital Pressure Ulcer Development", Advances in Wound Care, 8(1), pp.1-6, January 2019, DOI: http://doi.org/10.1089/wound.2018.0803
- In Sook Cho, Ho Yeoun Yoon, Park Sang Im, Lee Hyun Sook, "Availability of Nursing Data in an Electronic Nursing Tecord System for a Development of a Risk Assessment Tool for Pressure ulcers", Journal of Korean Socirety of Medical Informatics, 14(2), pp.161-168, June 2008, DOI: https://doi.org/10.4258/jksmi.2008.14.2.161
- Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P.C., Mark, R., Mietus, J.E., Moody, G.B., Peng, C.K. and Stanley, H.E., MIMIC-IV (version 2.0), PhysioNet, DOI: https://doi.org/10.13026/7vcr-e114