A label induction method in the conditional random fields expressing long distance transition between separate entities in clinical narratives

임상 문서에서 서로 떨어진 개체명 간 전이 관계 표현을 위한 조건부무작위장 내 라벨 유도 기법 연구

  • Lee, Wangjin (Interdisciplinary Program in Bioengineering, Graduate School, Seoul National University) ;
  • Choi, Jinwook (Interdisciplinary Program in Bioengineering, Graduate School, Seoul National University)
  • 이왕진 (서울대학교 대학원 협동과정 바이오엔지니어링전공) ;
  • 최진욱 (서울대학교 대학원 협동과정 바이오엔지니어링전공)
  • Published : 2018.10.12

Abstract

환자의 병력을 서술하는 임상문서에서 임상 개체명들은 그들 사이에 개체명이 아닌 단어들이 위치하기 때문에 거리상으로 서로 떨어져 있고, 임상 개체명인식에 많이 사용되는 조건부무작위장(conditional random fields; CRF) 모델은 Markov 속성을 따르기 때문에 서로 떨어져 있는 개체명 라벨 간의 전이 정보는 모델의 계산에서 무시된다. 본 논문에서는 라벨링 모델에 서로 떨어진 개체명 간 전이 관계를 표현하기 위하여 CRF 모델의 구조를 변경하는 방법론을 소개한다. 제안된 CRF 모델 디자인에서는 모델의 계산효율성을 빠르게 유지하기 위하여 Markov 속성을 유지하는 1차 모델 구조를 유지한다. 모델은 선행하는 개체명의 라벨 정보를 후행하는 개체명 엔터티에게 전달하기 위하여 선행 개체명의 라벨을 뒤 따르는 비개체명 라벨에 전이시키고 이를 통해 후행하는 개체명은 선행하는 개체명의 라벨 정보를 알 수 있게 된다. 라벨의 고차 전이 정보를 전달함에도 모델의 구조는 1차 전이 구조를 유지함으로 n차 구조의 모델보다 빠른 계산 속도를 유지할 수 있게 된다. 모델의 성능 평가를 위하여 서울대학교병원 류머티즘내과에서 퇴원한 환자들의 퇴원요약지에 병력과 관련된 엔터티가 태깅된 평가 데이터와 i2b2 2012/VA 임상자연어처리 shared task의 임상 개체명 추출 데이터를 사용하였고 기본 CRF 모델들(1차, 2차)과 비교하였다. 피처 조합에 따라 모델들을 평가한 결과 제안한 모델이 거의 모든 경우에서 기본 모델들에 비하여 F1-score의 성능을 향상시킴을 관찰할 수 있었다.

Keywords