DOI QR코드

DOI QR Code

보건행정 연구자를 위한 질병 네트워크의 구축과 응용 고찰

Review of the Development and Application of Disease Network

  • 이경민 (연세대학교 일반대학원 보건행정학과) ;
  • 남지웅 (연세대학교 일반대학원 보건행정학과) ;
  • 정예원 (연세대학교 일반대학원 보건행정학과) ;
  • 이태식 (연세대학교 원주의과대학 가정의학교실) ;
  • 유기봉 (연세대학교 일반대학원 보건행정학과)
  • Kyungmin Lee (Department of Health Administration, Yonsei University Graduate School) ;
  • Ji-Woong Nam (Department of Health Administration, Yonsei University Graduate School) ;
  • Yewon Jung (Department of Health Administration, Yonsei University Graduate School) ;
  • Tae Sic Lee (Department of Family Medicine, Yonsei University Wonju College of Medicine) ;
  • Ki-Bong Yoo (Department of Health Administration, Yonsei University Graduate School)
  • 투고 : 2024.07.11
  • 심사 : 2024.08.24
  • 발행 : 2024.09.30

초록

이 연구는 다양한 질병 간의 관계를 파악하고, 보건의료 데이터를 활용하여 질병 간의 위험, 경로, 진행패턴을 분석하는 질병 네트워크를 고찰하는 데 중점을 두고 있다. 질병 네트워크 모델을 활용하여 시간에 따른 질병의 진행 경로를 시각화하고, 기존에 발견되지 않은 질병 간의 잠재적 관계를 포착함으로써 새로운 통찰력을 제공한다. 이 연구는 그래프 이론과 네트워크 모델을 기반으로 국내·외 다양한 보건의료 데이터를 활용한 질병 네트워크 연구사례를 소개하고, 질병 네트워크를 구축하는 방법론과 활용방법을 고찰하며, 건강보험 빅데이터에서의 적용 가능성을 제시한다. 또한 질병 네트워크 연구가 가지는 한계점에 대한 논의를 통해 향후 연구의 방향성을 제시하고자 한다.

This paper reviewed on understanding the disease network model which represents the relationships, such as risks, pathways, and progression trajectories, among various diseases. By utilizing the disease network models, it visualized the trajectories paths of diseases over time and captured potential relationships between diseases that were previously undiscovered, thereby providing novel insights. This study introduced research cases of disease networks using various domestic and international healthcare data based on graph theory and network models, reviewed the methodologies and applications for constructing disease networks, and suggested the potential for their application in health insurance big data. The paper also discussed the limitations of disease network research and proposed future research directions.

키워드

서 론

  의학의 발전과 임상자료의 증가에 따라, 연구자들은 질병의 연관성이나 위험요인을 파악하기 위해 시험연구 또는 관찰연구를 활용하고 있다. 기존 연구는 특정 질병과 질병 간의 관계를 파악하는 데 목적으로 연구가 이루어졌으나, 모든 질병 간의 총체적인 관계를 이해하는데는 한계가 있으며, 이는 여러 질병 간 복잡한 상호작용과 근본적인 메커니즘을 이해하기 위해 보다 포괄적으로 접근할 방법이 필요한 실정이다. 모든 질병 간의 복잡한 관계를 총체적으로 표현하기 위한 여러 방법 중, 그래프 이론을 바탕으로 한 네트워크 모델은 유용한 방법 중 하나로 자리매김하였다[1,2]. 이 접근법은 서로 연결된 다수의 질병들을 통해 네트워크 구조를 형성하는데, 이 구조를 질병 네트워크(disease net- work)라고 부른다. 네트워크 모델을 활용함으로써, 질병의 발달이나 진행에 관여하는 새로운 경로를 발견하고, 그 근본원인에 대한 통찰력을 제공할 수 있다[3].
  초기에는 생물학적 데이터베이스를 활용한 질병 네트워크가 구축되었으며[4,5], 특히 공유 유전자 정보를 기반으로 한 인간 질병 네트워크(human disease network) [4]와 유전자 및 단백질 상호작용(protein-protein interactions) 정보를 이용한 표현형 질병 네트워크 구축(phenotype disease network)에 주목하고 있었다[5]. 이와 같은 연구는 유전자와 단백질의 상호작용을 통해 병리학적 요인이 질병에 미치는 영향을 분자 수준에서 이해할 수 있는 기반을 마련하고 있다. 그러나 이러한 생물학적 자료를 기반으로 한 네트워크 모델은 여전히 몇가지 한계를 가지고 있다. 분자 수준의 이해를 위해서는 생물학적 이론의 적용이 필 수적이지만, 이 과정에서 시간 및 인구통계학적 요인과 같은 핵심적인 요소를 고려하지 않는 경우가 많았다. 이는 질병 간의 관 계를 설명함에 있어 중요한 요인이 제외될 수 있으며, 따라서 보건학에는 네트워크 모델의 해석과 활용에 있어서의 제약으로 작용할 수 있다.
  최근 몇 년간 질병 네트워크 구축에 보건의료 자료의 활용이 활발히 이루어지고 있다[6-15]. 특히 병원 입‧퇴원 기록 및 청구 자료 등을 이용하여 시간과 위험요인을 고려한 네트워크 모델링 연구가 활발히 진행되고 있으며, 이러한 접근방식은 환자가 시 간에 따라 발달하는 질병들을 순차적으로 연결하고(Figure 1A, B), 질병 간의 상호작용을 가중치로 계산하여 통계적으로 유의한 질병 네트워크를 구축하였으며(Figure 1C), 또한 질병 간의 위험, 다른 질병으로의 발달 가능성을 나타내는 질병 궤적(disease trajectory) (Figure 1D), 질병에 대한 차수1), 중심성2) 등과 같은 네트워크가 가지는 위상적 특성과 네트워크 커뮤니티 탐지3)를 수행하여 질병 간의 관련 군집을 탐색함으로써(Figure 1E), 질병의 전이구조와 잠재적인 관계에 대한 이해를 심화하였다[6-15].
  질병 네트워크는 다양하게 발전하고 있고, 보건행정, 보건정책 및 관리 분야에서도 활용가치가 높다. 질병 네트워크의 활용을 촉진하기 위해 배경과 선행연구들을 면밀히 검토하고자 하며, 이에 이번 논문에서의 연구목적은 다음과 같다. 보건의료 자료를 활용한 질병 네트워크 연구사례 및 구축방법론, 구축된 질병 네트워크의 활용사례를 소개하며, 국내 건강보험 빅데이터에서의 적용 가능성에 대해 논의한다. 또한 현재 연구들이 직면하고 있는 한계점에 대해 논의하고, 이에 대한 개선방안을 모색함으로써 보건의료 분야에서의 빅데이터 활용과 질병 네트워크 모델링의 이해를 도모하고자 한다.
  보건의료 빅데이터의 활용이 증가하고 있는 현 상황에서, 질병 간의 복잡한 연관성을 파악하고 예측하는 데 있어 중요한 도구로서의 질병 네트워크 모델의 역할과 가치를 조명하고자 한다. 이번 논문에서 소개하는 질병 네트워크는 건강보험 빅데이터를 다 루는 보건의료 연구자들에게 새로운 데이터 활용방법에 대한 유용한 정보와 통찰력을 제공할 것으로 기대한다.

네트워크 과학

1. 그래프 이론

  그래프 이론은 레온하르트 오일러(Leonhard Euler)의 쾨니히스베르크의 다리 건너기 문제를 해결함으로써 위상수학의 기초 이론으로 자리잡게 되었다[16]. 그래프는 개체들을 노드(node) 또는 정점(vertex)으로 정의하고, 개체 간의 관계를 간선(edge) 또는 링크(link)로 나타내는 방식을 통해, 복잡한 구조를 가진 시스템을 수학적으로 모델링하는 데 사용된다. 각 노드는 속성을 가지며, 이러한 노드들이 서로 연결되어 전체적인 그래프 구조를 형성한다. 예를 들어, 세 개의 개체 a, b, c가 있을 때, a, b, c 각 각은 노드로 나타내며, a와 b 그리고 b와 c 사이에 관계가 존재한다면, 이들은 간선으로 연결되어 하나의 그래프를 형성하게 된다(Figure 2A). 또한 노드 간의 간선은 방향성이 있을 수도 있고 없을 수도 있다. Figure 2B는 노드 간에 방향성이 없거나 양방향성 을 가지는 것을 나타내며, 이는 방향이 없는 그래프(undirected graph) 불린다. 반면에 Figure 2C는 간선에 방향성이 있는 단방향 그래프(directed graph)를 보여준다.
  초기에 수학, 물리학, 생물학과 같은 기초과학 분야에서 주로 활용된 그래프 이론은 2000년대에 들어서면서 공학, 통계학, 사회과학, 의학 분야까지 응용범위를 확장하였다. 특히 복잡계 네트워크(complex network)라고 불리는 이론을 중심으로 한 응용 연구가 활발히 이루어지고 있는데, 이는 소자, 인간, 질병 등 다양한 요소들 간의 복잡한 관계를 모델링하고 분석함으로써, 그 구조와 동작원리를 이해하려는 시도에서 비롯된 것이다[17].

2. 네트워크 모델

  형성된 그래프를 활용한 연구가 제안되면서, 이례적 특성을 지닌 그래프에서 파생되는 잠재적인 결과에 대한 탐구가 활발히 이루어져 왔다[1,2]. 특히 개개인의 성향과 행동양식뿐만 아니라, 보다 광범위한 사회적 맥락에서의 인간 행동 패턴을 분석하는데 있어서, 사회연결망(social network)에서 중요한 역할을 하는 특정 개체가 관계의 구조를 현저하게 좁히는 현상이 관찰되었다. 이러한 현상은 “좁은 세상 문제(the small world problem)”라고 불리게 되었으며, 소규모의 세계적 현상을 통해 네트워크 내에서 짧은 경로가 존재함을 설명하였다[18].
  이 개념은 다양한 학문 분야에 응용될 수 있으며, 특히 질병 중심의 네트워크 모델 구축에 있어서 중요한 의의를 지닐 수 있는데, 예를 들어 질병 네트워크 모델에서는 질병을 노드로 정의하고, 한 질병이 다른 질병으로 발전할 경우 이들 간의 연결을 간선 으로 표현하여 질병 쌍을 형성할 수 있다. 이후, 이러한 연결된 질병 쌍들을 통합함으로써 네트워크의 구조를 완성하게 된다. 구축된 질병 네트워크의 예시는 Figure 3을 통해 확인할 수 있다. 이처럼 통합된 전체 그림 자체에서 어떠한 정보를 얻기보다는, 구 축된 질병 네트워크로부터 세부 질병 사례와 노드 간 간선의 정보를 활용하여 질병 간의 복잡한 관계와 상호작용을 이해하는데 중요한 도구가 된다. 또한 이를 통해 질병의 경로, 동시 발병 패턴, 질병 간의 영향력을 분석할 수 있으며, 이는 예방 및 관리전략 수립에 있어 근거 기반의 접근을 가능하게 한다.

보건의료 자료 기반 질병 네트워크 연구

1. 질병 네트워크에서 보건의료 자료 활용

  보건의료 자료를 활용한 질병 네트워크 구축의 선구적인 연구로서, 덴마크에서 수행된 질병 네트워크 연구는 덴마크 국립 환자 등록부(Danish National Patient Registry, DNPR)의 대규모 자료를 활용하고 있으며[6,10,12,19,20], 이는 1990년대 초부터 2010년 중반까지의 약 700만 명 이상의 환자 및 1억 건 이상의 병원 방문기록을 포함하고 있다. 덴마크의 경우, 1970년대 초반 대부분의 비정신과 병원에서 전산화된 환자관리시스템(patient administrative systems)을 도입하였으며[21], 이러한 시스템 은 개별 병원들이 수집한 정보를 바탕으로 하여 1976년부터 모든 덴마크 지역 병원의 퇴원기록을 중앙 국립병원 등록부에 제출하도록 하였다[22]. 이는 DNPR의 기반이 되었으며, 장기간에 걸친 추적관찰 데이터를 활용한 후향적 코호트 연구의 활발한 진행 을 가능하게 하였다. 오스트리아의 경우 오스트리아 모든 병원의 입원기록을 이용하였고[23], 미국의 사례의 경우 미국 보훈부 (Veteran Affairs) 병원의 자료를 이용하거나[15], 러시아에서는 개별 병원의 전자건강기록(electronic health record, EHR) 자료를 이용하였다[24].
  국내 연구에는 건강보험심사평가원(Health Insurance Re- view and Assessment Service, HIRA), 국민건강보험공단(Na-tional Health Insurance Service, NHIS) 청구자료를 이용한 질병 네트워크 구축 연구도 이루어지고 있다. 청구자료는 개인정보, 진료내역, 건강검진 결과 등 전 국민의 의료이용 내용을 포함하고 있으며, 2006년부터 의료급여 수급권자의 진료내역 정보가 NHIS 시스템으로 통합되었다. 국내 연구에서는 단일 연도의 자료를 이용한 연구[7] 또는 2006년을 기점으로 하는 2010–2013 년 기간의 자료를 이용한 연구[8,9]를 기반으로 하고 있다. 청구 자료는 장기간 추적이 가능하며, 연령, 성별, 수술 여부, 동반질환 등과 같은 위험요인을 포함하여 선택편향과 교란요인의 보정이 가능하다는 점에서 네트워크 모델 구축에 매우 적합하다[25].

2. 연구사례

  Jensen 등[6]은 덴마크 국립 환자 등록부에 기록된 전체 덴마크 인구의 병원 입‧퇴원 자료를 활용하여 연대순으로 발생하는 선행 질병과 후행 질병 간 연결을 정의하였으며, 선행 질병-후행 질병 간의 상대위험도(relative risk, RR) 및 방향성(directional- ity)을 추정하여, 이를 통해 통계적으로 유의한 다수의 질병 쌍을 연결하고, 이들 간의 가중치 및 방향성을 갖는 질병 네트워크를 구축하여 시각적으로 표현하였다. 또한 질병 간의 위험 비교, 다른 질병으로의 발달 가능성을 나타내는 질병 궤적(disease trajectory), 질병 네트워크에서의 커뮤니티 탐지(community detection)를 수행하여 전립선질환, 만성폐쇄성 폐질환, 뇌혈관 질환, 심혈관질환, 당뇨병질환 관련 군집을 생성하였으며, 이를 통해 각 군집 내 질병 간의 위, 특정 질병 또는 사망에 이르는 궤적을 식별하였다[6].
  Kim 등[7]은 2011년도 건강보험심사평가원 환자표본자료(HIRA-National Patients Sample)를 활용하여 1,375,842명의 개인 청구자료를 분석했다. 모든 질병-질병의 조합에 대한 오즈비(odds ratio, OR)를 추정하여 통계적으로 유의한 질병 쌍을 도출하고, (1) 두 질병이 유전적 돌연변이나 비정상적인 대사과정과 같은 공통 병인 또는 공통 위험요인을 공유하는 경우, (2) 한 질병이 다른 질병의 원인이 되거나 위험요인으로 작용하는 경우, (3) 한 질병이 다른 질병의 치료결과로 발생할 수 있는 경우, (4) 한국의 급여제도와 같은 문화적 및 사회적 요인에 의해 청구 데이터에서 두 질병 또는 질병 코드의 동시 발생이 영향을 받는 경우인 네 가지의 범주로 분류하여 이를 통해 질병 간의 연관성을 조사 하였다. 또한 질병의 분포와 집단 간의 관계를 네트워크로 형성 하여 시각적으로 표현하였으며, 높은 차수를 가진 질병 노드 또는 질병 집단 간의 연결 역할을 해주는 허브 질병 노드를 식별하였다. 예를 들어, 급성 신부전, 패혈증 질병이 여러 질병에 영향을 미치는 흔한 합병증이며 질병 네트워크에서 허브 노드를 보여주었다. 이로써 질병 간의 상호작용을 보다 직관적으로 이해할 수 있는 기반을 마련하였다[7].
  Jeong 등[8]과 Ko 등[9]은 2006년 1월부터 2013년 12월까지 국민건강보험공단 표본코호트(NHIS-National Sample Cohort)를 이용하여, 질병 간의 RR을 계산하고 통계적으로 유의한 질병 쌍을 추출하여 네트워크를 구축하였다. Jeong 등[8]은 RR이 높은 질병 쌍을 식별한 후, 차수가 높은 질병과 낮은 질병에 대한 집단을 생성하여 해당 질병의 성별 비율과 평균 연령을 비교하였고 [8], Ko 등[9]은 특정 질병으로부터 발생하거나 특정 질병으로 이어지는 질병 간의 RR을 계산하여 이를 합산 및 평균을 구해 질병 노드의 강도(strength)라는 새로운 네트워크 특성을 추출하고, 하나의 질병이 갖는 강도를 통해 여러 질병과 비교하였다[9]. 더불어, 네트워크 커뮤니티 탐지를 통해 만성 쇠약, 여성 질환, 혈액종양, 감염병 등 군집을 도출하고, 각 군집에 따른 성별 비율과 평균 연령의 결과를 비교하였다[9].
  Do Valle 등[15]은 900만 명의 미국 참전용사의 EHR 자료를 활용하여 질병 간의 상호 연관성과 환자의 질병 진행경로를 심층적으로 분석하였다. 네트워크 모델을 통해 질병들 간의 복잡한 연관성을 체계적으로 분석하였으며, 환자들이 다양한 질병 간을 어떻게 이동하는지를 상세히 파악하였고, 특히 당뇨병과 심혈관 질환 사이의 경로를 네트워크상에서 시각화하여, 질병 진행의 주요 패턴을 명확히 규명함으로써 기존의 진단 및 치료체계에서 간과될 수 있었던 잠재적인 동반질환을 새롭게 식별할 수 있었다 [15].
  성별, 연령, 특정 질병을 가진 인구집단에 초점을 맞춘 질병 진행패턴 조사연구도 있었다[10,11,13,19,26,27]. 이러한 연구들은 질병 발생률과 첫 진단의 연령에 있어 성별 간 차이를 밝혀내고, 질병 궤적 분석을 통해 두 질병 사이의 방향성이 성별에 따라 다를 수 있음을 제시하였는데, 특히 남성과 여성 간에 발견되는 질병 궤적의 차이는 성별이 질병 발생 추정 시 강력한 위험요인이 될 수 있음을 시사하였다[10]. Paik 등[11]은 미국 캘리포니아 주 내 350개 병원의 입원기록 자료를 이용하여 질병 네트워크를 구축하고, 그 중 조현병과 횡문근융해증 간의 관계를 조사하였는데, 이는 문헌조사에서는 발견되지 않았던 새로운 연관성을 밝혀내고, 추가적인 사례 검토를 통해 두 질병 간의 연관성을 검증 하였다. 이는 네트워크 분석이 질병 간의 잠재적 위험을 발견하는 데 얼마나 중요할 수 있는지를 보여준다. Jeong 등[26]은 제2형 당뇨병 진단 후 발병하는 동반상병의 진행패턴을 조사하기 위해 질병 선형 궤적을 구축하고, 제2형 당뇨병에서 시작하여 여러 합병증으로 진행할 수 있는 잠재적인 순차적 관계를 탐색하였다.
  이 연구는 성별과 연령별 인구집단 간의 질병 진행패턴에 차이가 있음을 보여주었으며, 이는 향후 제2형 당뇨병 관리 및 예방전략 수립에 있어 중요한 시사점을 제공하였다[26]. Dervic 등[23]은 오스트리아의 입원 전수자료를 이용해서 나이가 들어감에 따라 질병의 진행상태를 확인하는 질병 네트워크를 구축하였고, 이를 궤적화하였다.

보건의료 자료 기반 질병 네트워크 구축방법

  이 장에서는 앞서 소개된 연구사례를 바탕으로 질병 네트워크 구축을 위한 방법론을 상세히 설명하고자 한다. 질병 네트워크를 구축하기 위해 수행된 핵심 연구[6-8,12,15,23]의 방법론을 체계적으로 요약한 내용은 Table 1에 제시되어 있다.

1. 변수 구성

  질병 네트워크 모델 구축을 위한 연구에서는 환자의 모든 의료이용에 대한 시간 순으로 나열된 종단적 기록을 기반으로 하는 것이 필수적이다. 이 과정에서 필요한 변수로는 환자의 연령, 성별, 진료일자(또는 병원 방문일자), 진단코드(상병코드)가 공통 적으로 사용된다. 연령과 성별은 인구학적 특성을 나타내며, 모든 연구에서 반드시 고려되어야 하는 필수 위험요인이다. 추가로, “병원 방문유형” 변수는 입원(병원 입원 1일 이상), 외래(병원 입원 1일 미만), 응급실로 분류되어 네트워크 모델에 포함되었다 [6,10,12,20,26].

2. 진단코드 정의

  진단코드의 경우, 사용 효율성 및 분석의 명확성을 고려하여 드물게 사용되거나 전혀 이용되지 않은 진단 그리고 진단의 중복과 세부 분류를 최소화하기 위해 삼단 코드로 축약하여 사용된다. 또한 모호한 결과를 초래할 수 있는 불분명한 진단용어를 포 함하는 코드는 연구에서 제외되었다(예: “임신, 출산 및 산후기 [O00-O99],” “달리 분류되지 않은 증상, 징후와 임상 및 검사의 이상소견[R00-R99],” “특수목적 코드[U00-U99],” “질병이환 및 사망의 외인[V01-Y98],” “건강상태 및 보건서비스 접촉에 영향 을 주는 요인[Z00-Z99]”) [8,26]. 주진단과 부진단에 관련하여, 기존 연구에서는 재입원에 따른 동일 질병의 중복을 방지하기 위해 주진단만을 고려하거나[11], 보다 포괄적인 질병패턴을 파악 하기 위해 주진단코드와 부진단코드를 함께 사용하는 방법을 채 택하였다[6,12]. 또한 “사망 여부”와 “사망일자”라는 변수를 활용하여 네트워크 모델을 통한 사망률 분석의 중요성을 조사하였는데, 이러한 분석을 통해, 특정 선행 질병으로부터 사망에 이르는 경로를 파악할 수 있다[11,12,27-29].

3. 질병과 질병 간의 연결

  종단적 자료를 활용하여 시간순서에 따라 나타나는 선행 및 후행진단을 연결하여 진단 쌍을 생성하였다. 예를 들어, 한 환자가 a, b, c 순으로 진단을 받았다면, 이는 순열에 따라 a→b, a→c, b→c의 형태로 진단 쌍을 구성한다. 여기서 중요한 점은 선행진단에서 후행진단으로의 발병기간을 고려한다는 것이고, 이 기간은 연구자가 질병의 특성이나 데이터의 특성을 고려하여 1년에 서 5년 사이로 설정할 수 있으며(Figure 1A), 오직 설정된 기간 내에 발병한 경우에 한해 진단 쌍이 연결되도록 정의하였다. 동시에, 모든 가능한 진단코드 조합을 통해 질병 쌍을 생성하는 방법도 적용하였다. 순열과 조합의 구분이 명확히 드러내는데, 순열은 시간순서를 기준으로 하여 진단코드가 나타나는 순서대로 진단 쌍을 배열하는 방식으로 진단이 발생하는 시점의 순서가 중요하다. 반면, 조합은 시간의 흐름과 무관하게 가능한 모든 진단 코드의 조합을 나열하는 방식으로, 진단코드 간의 시간적 순서를 고려하지 않는다. 이러한 구분은 질병의 시간적 배열이 중요한 연구에서 순열이, 질병 간의 동반질환 관계만을 고려할 때는 조합이 유용함을 시사한다.
 

4. 요인 보정

  성별, 연령과 같은 위험요인을 보정하기 위해 여러 방법 중에서 샘플링 후 매칭한 방법이 사용되었다[6]. 선행진단 D 을 제외하고 질병 발병에 영향을 미칠 수 있는 여러 요인(환자의 성별, 연령, 방문유형, 진료일자와 동일한 주 또는 월 등)을 고려하여, 선 행진단 D1을 진단받은 환자들을 사례군으로, D1을 제외한 다른 진단을 받은 환자들 중 샘플링을 하고 연령, 성별, 방문유형, 진 료일자와 동일 시기 네 가지 기준을 만족하는 1 대 N 매칭방식을 통해 사례군과 대조군 간의 비교연구를 진행하였다. 이러한 매 칭 절차를 통해, 연구자들은 사례군 환자 한 명당 10명에서 최대 10,000명에 이르는 대조군 환자를 표본 추출하는 방법을 사용했다.

5. 질병과 질병 간 가중치 계산

  기존 연구에서는 OR 또는 RR을 사용하였다. Kim 등[7]은 OR을 추정하여 모든 질병-질병의 조합을 생성하여 질병 간의 연관성을 도출하였다. 선행진단 D 을 진단받은 사례군에서 후행진단 D2 발병의 OR(즉 후행진단 D2의 비발병 확률 대비 발병 확률의 비율)을 D1을 진단받지 않은 대조군의 후행진단 D2 발병의 OR과 비교하여 계산한다.
제목 없음.png 이미지
  질병 발생빈도가 낮은 경우 RR과 OR 사이에는 큰 차이가 없을 수 있지만, 질병 발생빈도가 높은 경우 OR이 RR을 과대평가하거나 과소평가할 수 있으므로, 따라서 연구의 설계와 목적에 따라 적절한 지표를 선택하는 것이 중요하다[30]. 질병 네트워크를 이용하여 보건학적으로 활용하고 여러 알고리즘을 적용하기 위해서는 RR뿐만 아니고 기여위험도(attributable risk)도 필요하다.

질병 네트워크 활용

  최근 연구에서 Siggaard 등[12]은 덴마크 전체 인구 720만 명의 병원 입‧퇴원 기록 자료를 기반으로 한 웹 애플리케이션인 질병 궤적 네트워크 브라우저(Danish Disease Trajectory Net- work Browser; http://dtb.cpr.ku.dk/)를 개발하였다. 이 도구는 질병 간의 경로를 네트워크 형태로 시각화하여 질병 탐색을 가능하게 할 뿐만 아니라, 질병 또는 질병 간 관계에 대한 정의, 참고문헌 등의 정보를 제공함으로써 사용자가 쉽게 접근하고 이해할 수 있는 유용한 기능을 제공한다.
  차수(degree), 중심성 지표, 커뮤니티 탐지와 네트워크 강건성(robustness)4) 등의 네트워크 특성 및 이론을 이용하여 보건정책 수립에 근거 자료를 제공할 수 있다. 예를 들어 네트워크상에서 간암 발생에 대한 누적 기여위험도 계산하고 질병 중심의 예방정책 적용 시 간암의 발생 가능성이 얼마나 낮아질지를 일정 부분 산출 가능하다(Figure 4).
  특정 질병으로부터 시작하여 최종적으로 도달할 수 있는 질병 또는 사망까지의 연속적인 진행을 선형 궤적 형태로 구축하는 연구도 발간되고 있다. 예를 들어, Jensen 등[6], Siggaard 등 [12], Han 등[27]은 D1→D2와 D2→D3가 통계적으로 유의한 경우 이들을 연결하여 D1→D2→D3인 길이가 3 이상인 선형 궤적을 형성하는 방식을 제안하였다. 또한 Jensen 등[6], Jeong 등[26]은 D1→D2의 진단 쌍이 통계적으로 유의하면, D1→D2을 갖는 환자에 대한 이후 D3발병에 대해 RR(D1D2→D3) 을 계산하고 궤적으로 구성하였다.
  Hossain 등[31]은 병원 관리 자료를 활용하여 구축된 네트워크를 통해 동반상병 네트워크를 분석하였는데, 동반상병의 유병률, 전이패턴, 군집계수와 같은 세 가지 주요 네트워크 특성을 추출함으로써, 기계학습을 기반으로 한 심혈관질환 환자의 제2형 당뇨병 위험을 예측하여 79%–88%의 정확도를 가진 모델을 구축하였다. Zhou 등[32]은 허혈성 심질환 환자를 대상으로 질병 네트워크를 구축하였고, 인구학적 특성과 노드 및 간선의 유사성 점수, 페이지 랭크 알고리즘을 활용한 노드의 순위점수를 계산하 고, 이를 통해 추출된 네트워크 특성을 사용해서 스태킹 앙상블 학습모델(stacking ensemble learning)5)을 적용한 심부전의 발 병위험을 예측하였다. 이들의 연구는 질병 네트워크와 기계학습 모델의 결합을 통해서 질병 예측의 정확성을 향상시키는 새로운 방법론을 제시하였다.
  Lu와 Uddin [33]은 커먼웰스건강협회(Commonwealth Bank Health Society) 자료를 기반으로 환자와 질병 간의 이분 그래프 를 투영하여 가중치를 부여한 환자 네트워크(weighted patient network)를 구축하였고, 이 네트워크에서 도출된 특성을 활용해 그래프 신경망(graph neural network)6) 모델을 통해 심혈관질환과 만성폐쇄성 폐질환 발병 예측에 있어 각각 93.49%, 89.15% 의 높은 정확도를 달성하였다.

건강보험 청구자료 적용 가능성 및 제한점

  건강보험 빅데이터에서는 여러 진단코드, 행위코드 등이 있지만, 대부분의 연구자들은 이러한 변수를 전체적으로 활용하기보다는 몇몇 변수들만 선별하여 이항(binary) 변수로 사용되고 있으며, 총체적인 질병력(曆)을 반영하여 분석하고 있지 않다 [34,35]. 기계학습, 심층 신경망 등의 인공지능 활용 시, 총체적인 질병력을 변수화, 즉 특성(feature)을 추출하기 위해 임베딩(em- bedding) 등의 자연어 처리방법에서 사용하는 분석방법을 사용하는데[36-41], 이는 구조적으로 자연어 관점의 접근이기에 질병 코드에 적용하는데 한계가 있다. 따라서 진단코드로부터 특성을 추출하기 위해 질병 간 구조도를 파악할 필요가 있으며, 이는 그래프 기반의 네트워크 관점으로 접근이 가능하다.
  질병 네트워크를 이용하여 청구자료에 있는 다양한 진단코드로부터 특징 추출, 사망, 질병 발병, 인구집단 분류와 같은 결과 (outcome)에 대한 독립변수로 사용할 수 있으며, 기존보다 더 정확한 결과를 도출할 수 있다. 건강보험 빅데이터를 이용한 딥러 닝 시 하나의 레이어로 활용이 가능하다(Figure 5). 또한 성향점수 또는 멘델리안 무작위 배정기법(Mendelian randomization) 등의 인과효과 분석 시 변수 선택에 근거 자료로 활용이 가능하다. 유병 질병으로부터 다음 질병 발생 확률을 결합확률분포 또는 마콥모델을 활용하여 용이하게 산출할 수 있다[42]. 더불어 현재 단순 점수로 계산하는 동반상병지수도 개선할 수 있다. 기존 동반상병지수는 사망을 종속변수로 하여 각 질환을 독립적으로 hazard ratio 등으로 위험도를 계산하고 점수를 부여한 방식이다. 이를 질병 네트워크로 치환하면 유병 질병을 기준으로 사망에 대한 경로를 계산하고, 이 경로를 기준으로 위험도 산출, 동반 상병지수로 개인의 건강상태를 보정할 수 있다[43,44]. 이는 질 병의 기존 이력을 활용하는 것으로 더욱 정교한 개인의 전반적인 건강상태를 보정하는 데 도움을 줄 수 있다.
  보건의료 자료의 수집과 진단코드를 통한 질병 네트워크 구축과정에서는 오진단의 가능성[8,15,19]과 질병의 중복 발병을 고려하지 않는 접근으로 인한 한계가 존재한다[6,11,12,28]. 일부 연구에서는 방향성 검정이 단방향으로 제한됨으로써 발생할 수 있는 급성 또는 만성 질병 쌍의 양방향 전이 가능성을 고려하지 못하는 절단 문제를 안고 있다[6,10-12,14,28]. 자료 기반으로 거의 단변량 분석으로 접근하여 교란 편향(confounding by indication bias) [45], 충돌 편향(collider bias) [46] 등이 생길 수 있기 때문에 구축 후 장기적으로 각 간선을 검토하여 수정 및 보완할 필요가 있다.
  세부적으로 국내에서 이루어진 연구를 살펴보면 Kim 등[7]의 연구는 국내에서 질병 네트워크 관점에서 초기에 접근했다는 의의가 있지만 환자표본자료를 이용하였기에 질병 정보의 대표성에 한계가 있으며, 질병 쌍 구성 시 단년도로 살펴보았기 때문에 질병의 발생과 장기적인 관계를 추출하지 못하였다는 한계가 있다. Jeong 등[8]의 연구의 경우 2002–2013년 인구 100만 명의 표본코호트를 사용하였기에 질병의 발생을 고려하고 장기적인 관계를 살펴보았으나 희귀질환과 마스킹된 질병에서 대표성의 문제가 있다. RR을 계산하기 위한 질병 쌍을 구성하는 데 있어 개별 의료이용의 모든 후속 진단코드를 쌍으로 생성하였다. 질병 쌍을 정의하는 기간이 고정되지 않고 가변적이게 되는데, 이 경우 편향을 일으킬 수 있다. Jeong 등[8]과 같은 연구팀에서 수행 된 후속연구[9]에서는 이에 대한 편향을 고려하여 질병 쌍 정의 기간을 고정으로 하였다. 이외에는 동일한 자료와 분석방법으로 진행하였기에 대표성 부분과 교란 편향 부분에 대해서는 향후 연구가 필요하다.

제목 없음.png 이미지

제목 없음.png 이미지

제목 없음.png 이미지

제목 없음.png 이미지

제목 없음.png 이미지

제목 없음.png 이미지

결 론

  질병 네트워크 모델은 현대의학 및 보건의료 연구에서 점차 그 중요성이 증대되고 있다. 이러한 모델은 그래프 이론과 네트워크 모델을 기반으로 하여 보건의료 자료 내 질병 간의 관계를 확인 및 활용하는 데 중점을 둔다. 본 고찰에서는 보건의료 자료를 기 반으로 한 질병 네트워크 연구사례, 질병 네트워크 모델의 개발 과정을 소개하고, 이를 활용한 연구사례 및 국내 건강보험 빅데 이터의 적용 가능성을 탐구하였다.
  네트워크의 가중치(예: OR, RR)는 질병 간 연결의 강도를 나타내며, 가중치에 대한 통계적 유의성 검정을 통해 실제 유의한 연결만을 네트워크에 포함시키게 된다. 이후 질병들을 연결하여 선형 궤적을 구성한다. 이러한 과정을 통해 구축된 네트워크는 다 양한 네트워크 특성을 추출하여 네트워크가 갖는 잠재적 특성에 대한 이해를 가능하게 한다.
  Zhang 등[47]은 DNA-RNA 관계성을 분석하여 베이지안 네트워크를 통해 네트워크 노드 간의 인과관계를 규명하였고, Ko- plev 등[48]은 심장대사 및 관상동맥질환에서 조직인자(tissue factor)를 사전 지식으로 설정하고 랜덤 포레스트 모델을 사용하여 질병 간의 인과관계를 규명하였다. 또한 Liu 등[49]은 멘델리안 무작위 알고리즘을 통해 혈중 대사체와 장내 미생물군 사이의 인과관계를 규명하였다. 이러한 네트워크를 활용한 접근법들은 복잡한 생물학적 시스템에서 중요한 인과관계를 이해하는 데 기여하며, 보건의료 연구 측면에서도 높은 활용 가능성을 보인다.
몇몇 제한점에도 불구하고, 질병 네트워크 모델은 질병 인식, 진단, 치료에서의 한계점을 파악하기 위한 체계적 분석 및 정책 개발을 할 수 있는 가능성을 제시한다[6]. 또한 질병-질병 간의 연구되지 않은 잠재적 연관성을 조사할 수 있다는 점에서 중요한 가치를 갖는다[8,9,11]. 보건의료 자료를 이용한 질병 네트워크의 개발방법론에서는 추가적인 통계적 방법론의 적용, 질병 발병과 연결의 정의, 다변량 분석을 통한 위험요인 보정 및 인과효과 추론, 질병 간의 방향성 등에 대한 추가적인 연구 및 논의가 필요하다. 이를 통해 질병 네트워크 모델의 정확성과 신뢰성을 높이고, 보건의료 연구의 기여도를 극대화할 수 있을 것으로 기대된다. 보다 완전한 질병 네트워크가 완성된다면 향후 인공지능 모델 개발 및 설명, 건강상태 보정에 기여할 수 있을 것이며, 보건행정 분야에서 정책효과 평가 및 현상 확인에 많은 도움이 될 것으로 기대한다.

이해상충

  이 연구에 영향을 미칠 수 있는 기관이나 이해당사자로부터 재정적, 인적 지원을 포함한 일체의 지원을 받은 바 없으며, 연구윤리와 관련된 제반 이해상충이 없음을 선언한다.

감사의 글

  이 논문은 2024년 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 수행된 연구이다(no., 2022R1F1A1074383).

ORCID

Kyungmin Lee: https://orcid.org/0009-0005-6314-0590
Ji-Woong Nam: https://orcid.org/0000-0001-9149-6918
Yewon Jung: https://orcid.org/0009-0008-3949-4913
Tae Sic Lee: https://orcid.org/0000-0002-0706-167X
Ki-Bong Yoo: https://orcid.org/0000-0002-2955-6948

 

참고문헌

  1. Borgatti SP, Halgin DS. On network theory. Organ Sci 2011;22(5):1168-1181. DOI: https://doi.org/10.1287/orsc.1100.0641
  2. Liu W, Sidhu A, Beacom AM, Valente TW. Social network theory. In: Rossler P, Hoffner CA, van Zoonen L, editors. The international encyclopedia of media effects. Chichester: John Wiley & Sons Inc.; 2017. pp. 1-12. DOI: https://doi.org/10.1002/9781118783764.wbieme0092
  3. Barabasi AL, Gulbahce N, Loscalzo J. Network medicine: a network-based approach to human disease. Nat Rev Genet 2011;12(1):56-68. DOI: https://doi.org/10.1038/nrg2918
  4. Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabasi AL. The human disease network. Proc Natl Acad Sci U S A 2007;104(21):8685-8690. DOI: https://doi.org/10.1073/pnas.0701361104
  5. Menche J, Sharma A, Kitsak M, Ghiassian SD, Vidal M, Loscalzo J, et al. Disease networks: uncovering disease-disease relationships through the incomplete interactome. Science 2015;347(6224):1257601. DOI: https://doi.org/10.1126/science.1257601
  6. Jensen AB, Moseley PL, Oprea TI, Ellesoe SG, Eriksson R, Schmock H, et al. Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Nat Commun 2014;5:4022. DOI: https://doi.org/10.1038/ncomms5022
  7. Kim JH, Son KY, Shin DW, Kim SH, Yun JW, Shin JH, et al. Network analysis of human diseases using Korean nationwide claims data. J Biomed Inform 2016;61:276-282. DOI: https://doi.org/10.1016/j.jbi.2016.05.002
  8. Jeong E, Ko K, Oh S, Han HW. Network-based analysis of diagnosis progression patterns using claims data. Sci Rep 2017;7(1):15561. DOI: https://doi.org/10.1038/s41598-017-15647-4
  9. Ko K, Lee CW, Nam S, Ahn SV, Bae JH, Ban CY, et al. Epidemiological characterization of a directed and weighted disease network using data from a cohort of one million patients: network analysis. J Med Internet Res 2020;22(4):e15196. DOI: https://doi.org/10.2196/15196
  10. Westergaard D, Moseley P, Sorup FK, Baldi P, Brunak S. Population-wide analysis of differences in disease progression patterns in men and women. Nat Commun 2019;10(1):666. DOI: https://doi.org/10.1038/s41467-019-08475-9
  11. Paik H, Kan MJ, Rappoport N, Hadley D, Sirota M, Chen B, et al. Tracing diagnosis trajectories over millions of patients reveal an unexpected risk in schizophrenia. Sci Data 2019;6(1):201. DOI: https://doi.org/10.1038/s41597-019-0220-5
  12. Siggaard T, Reguant R, Jorgensen IF, Haue AD, Lademann M, Aguayo-Orozco A, et al. Disease trajectory browser for exploring temporal, population-wide disease progression patterns in 7.2 million Danish patients. Nat Commun 2020;11(1):4952. DOI: https://doi.org/10.1038/s41467-020-18682-4
  13. Wang L, Qiu H, Luo L, Zhou L. Age- and sex-specific differences in multimorbidity patterns and temporal trends on assessing hospital discharge records in Southwest China: network-based study. J Med Internet Res 2022;24(2):e27146. DOI: https://doi.org/10.2196/27146
  14. Giannoula A, Gutierrez-Sacristan A, Bravo A, Sanz F, Furlong LI. Identifying temporal patterns in patient disease trajectories using dynamic time warping: a population-based study. Sci Rep 2018;8(1):4216. DOI: https://doi.org/10.1038/s41598-018-22578-1
  15. do Valle IF, Ferolito B, Gerlovin H, Costa L, Demissie S, Linares F, et al. Network-medicine framework for studying disease trajectories in U.S. veterans. Sci Rep 2022;12(1):12018. DOI: https://doi.org/10.1038/s41598-022-15764-9
  16. Euler L. The solution of a problem relating to the geometry of position. Comment Acad Sci Petrop [Internet] 1741 [cited 2024 Aug 10];8:128-140. Available from: https://scholarlycommons.pacific.edu/euler-works/53
  17. Strogatz SH. Exploring complex networks. Nature 2001;410(6825):268-276. DOI: https://doi.org/10.1038/35065725
  18. Milgram S. The small world problem. Psychol Today [Internet] 1967 [cited 2024 Aug 10];2(1):60-67. Available from: https://snap.stanford.edu/class/cs224w-readings/milgram67smallworld.pdf
  19. Jorgensen IF, Aguayo-Orozco A, Lademann M, Brunak S. Agestratified longitudinal study of Alzheimer's and vascular dementia patients. Alzheimers Dement 2020;16(6):908-917. DOI: https://doi.org/10.1002/alz.12091
  20. Lademann M, Lademann M, Boeck Jensen A, Brunak S. Incorporating symptom data in longitudinal disease trajectories for more detailed patient stratification. Int J Med Inform 2019;129:107-113. DOI: https://doi.org/10.1016/j.ijmedinf.2019.06.003
  21. Sorensen HT. Regional administrative health registries as a resource in clinical epidemiology: a study of options, strengths, limitations and data quality provided with examples of use. Int J Risk Saf Med 1997;10(1):1-22. DOI: https://doi.org/10.3233/JRS-1997-10101
  22. Schmidt M, Schmidt SA, Sandegaard JL, Ehrenstein V, Pedersen L, Sorensen HT. The Danish National Patient Registry: a review of content, data quality, and research potential. Clin Epidemiol 2015;7:449-490. DOI: https://doi.org/10.2147/CLEP.S91125
  23. Dervic E, Sorger J, Yang L, Leutner M, Kautzky A, Thurner S, et al. Unraveling cradle-to-grave disease trajectories from multilayer comorbidity networks. NPJ Digit Med 2024;7(1):56. DOI: https://doi.org/10.1038/s41746-024-01015-w
  24. Nagamine T, Gillette B, Kahoun J, Burghaus R, Lippert J, Saxena M. Data-driven identification of heart failure disease states and progression pathways using electronic health records. Sci Rep 2022;12(1):17871. DOI: https://doi.org/10.1038/s41598-022-22398-4
  25. Kim KH. Comorbidity adjustment in health insurance claim database. Health Policy Manag 2016;26(1):71-78. DOI: https://doi.org/10.4332/KJHPA.2016.26.1.71
  26. Jeong E, Park N, Kim Y, Jeon JY, Chung WY, Yoon D. Temporal trajectories of accompanying comorbidities in patients with type 2 diabetes: a Korean nationwide observational study. Sci Rep 2020;10(1):5535. DOI: https://doi.org/10.1038/s41598-020-62482-1
  27. Han X, Hou C, Yang H, Chen W, Ying Z, Hu Y, et al. Disease trajectories and mortality among individuals diagnosed with depression: a community-based cohort study in UK Biobank. Mol Psychiatry 2021;26(11):6736-6746. DOI: https://doi.org/10.1038/s41380-021-01170-6
  28. Paik H, Kim J. Condensed trajectory of the temporal correlation of diseases and mortality extracted from over 300,000 patients in hospitals. PLoS One 2021;16(10):e0257894. DOI: https://doi.org/10.1371/journal.pone.0257894
  29. Yang H, Pawitan Y, He W, Eriksson L, Holowko N, Hall P, et al. Disease trajectories and mortality among women diagnosed with breast cancer. Breast Cancer Res 2019;21(1):95. DOI: https://doi.org/10.1186/s13058-019-1181-5
  30. Andrade C. Understanding relative risk, odds ratio, and related terms: as simple as it can get. J Clin Psychiatry 2015;76(7):e857-e861. DOI: https://doi.org/10.4088/JCP.15f10150
  31. Hossain ME, Uddin S, Khan A. Network analytics and machine learning for predictive risk modelling of cardiovascular disease in patients with type 2 diabetes. Expert Syst Appl 2021;164:113918. DOI: https://doi.org/10.1016/j.eswa.2020.113918
  32. Zhou D, Qiu H, Wang L, Shen M. Risk prediction of heart failure in patients with ischemic heart disease using network analytics and stacking ensemble learning. BMC Med Inform Decis Mak 2023;23(1):99. DOI: https://doi.org/10.1186/s12911-023-02196-2
  33. Lu H, Uddin S. A weighted patient network-based framework for predicting chronic diseases using graph neural networks. Sci Rep 2021;11(1):22607. DOI: https://doi.org/10.1038/s41598-021-01964-2
  34. Charlson ME, Carrozzino D, Guidi J, Patierno C. Charlson comorbidity index: a critical review of clinimetric properties. Psychother Psychosom 2022;91(1):8-35. DOI: https://doi.org/10.1159/000521288
  35. Lee JB, Woo H. Determinants of length of stay in ischemic heart disease patients. J Health Info Stat 2020;45(1):52-59. DOI: https://doi.org/10.21032/jhis.2020.45.1.52
  36. Kim H, Chung Y. A study on the application of natural language processing in health care big data: focusing on word embedding methods. Health Policy Manag 2020;30(1):15-25. DOI: https://doi.org/10.4332/KJHPA.2020.30.1.15
  37. Nagata M, Takai K, Yasuda K, Heracleous P, Yoneyama A. Prediction models for risk of type-2 diabetes using health claims. Proceedings of the BioNLP 2018 Workshop; 2018 Jul 19; Melbourne, Australia. Kerrville (TX): Association for Computational Linguistics; 2018. pp. 172-176. DOI: https://doi.org/10.18653/v1/W18-2322
  38. Jin B, Che C, Liu Z, Zhang S, Yin X, Wei X. Predicting the risk of heart failure with EHR sequential data modeling. IEEE Access 2018;6:9256-9261. DOI: https://doi.org/10.1109/ACCESS.2017.2789324
  39. Pham T, Tran T, Phung D, Venkatesh S. Predicting healthcare trajectories from medical records: a deep learning approach. J Biomed Inform 2017;69:218-229. DOI: https://doi.org/10.1016/j.jbi.2017.04.001
  40. Che Z, Cheng Y, Sun Z, Liu Y. Exploiting convolutional neural network for risk prediction with medical feature embedding. arXiv [Preprint] 2017 Jan 25. DOI: https://doi.org/10.48550/arXiv.1701.07474
  41. Placido D, Yuan B, Hjaltelin JX, Zheng C, Haue AD, Chmura PJ, et al. A deep learning algorithm to predict risk of pancreatic cancer from disease trajectories. Nat Med 2023;29(5):1113-1122. DOI: https://doi.org/10.1038/s41591-023-02332-5
  42. Marzouki F, Bouattane O. Defining and analysis of multimorbidity pattern of diseases using Markov random field approach: a comparative analysis. Commun Math Biol Neurosci 2022;2022:53. DOI: https://doi.org/10.28919/cmbn/7504
  43. Lee DG, Kim M, Shin H. Inference on chains of disease progression based on disease networks. PLoS One 2019;14(6):e0218871. DOI: https://doi.org/10.1371/journal.pone.0218871
  44. Ghulam A, Lei X, Guo M, Bian C. Disease-pathway association prediction based on random walks with restart and PageRank. IEEE Access 2020;8:72021-72038. DOI: https://doi.org/10.1109/ACCESS.2020.2987071
  45. Kyriacou DN, Lewis RJ. Confounding by indication in clinical research. JAMA 2016;316(17):1818-1819. DOI: https://doi.org/10.1001/jama.2016.16435
  46. Shrier I, Platt RW. Reducing bias through directed acyclic graphs. BMC Med Res Methodol 2008;8:70. DOI: https://doi.org/10.1186/1471-2288-8-70
  47. Zhang B, Gaiteri C, Bodea LG, Wang Z, McElwee J, Podtelezhnikov AA, et al. Integrated systems approach identifies genetic nodes and networks in late-onset Alzheimer's disease. Cell 2013;153(3):707-720. DOI: https://doi.org/10.1016/j.cell.2013.03.030
  48. Koplev S, Seldin M, Sukhavasi K, Ermel R, Pang S, Zeng L, et al. A mechanistic framework for cardiometabolic and coronary artery diseases. Nat Cardiovasc Res 2022;1(1):85-100. DOI: https://doi.org/10.1038/s44161-021-00009-1
  49. Liu X, Tong X, Zou Y, Lin X, Zhao H, Tian L, et al. Mendelian randomization analyses support causal relationships between blood metabolites and the gut microbiome. Nat Genet 2022;54(1):52-61. DOI: https://doi.org/10.1038/s41588-021-00968-y