의료 문서의 특성을 고려한 단어 모호성 해소 연구

Word Sense Disambiguation for Coarse-grained Medical Corpus

  • 송사광 (한국전자통신연구원 바이오인포매틱스팀) ;
  • 장재원 (한국전자통신연구원 바이오인포매틱스팀) ;
  • 임명은 (한국전자통신연구원 바이오인포매틱스팀) ;
  • 맹성현 ;
  • 박수준 (한국전자통신연구원 바이오인포매틱스팀)
  • 발행 : 2007.02.05

초록

진료 기록 문서(CDA)가 의사들에 의해 작성되기 때문에 많은 전문용어, 약어, 숫자, 기호 등을 포함하고 있다. 본 논문에서는 이러한 특성을 고려하여 문서 내에서 여러 의미로 해석될 수 있는 약어, 중의어 등의 단어 모호성을 해소하고자 의미적 등가 부류를 이용하여 모호성을 해소하였다. 특히 의료문서가 많은 비율의 숫자, 기호를 사용하고 있고 문서 내에서 많은 의미적 유의성을 포함하고 있기 때문에 이들을 불용어로 처리하지 않고 의미적 등가 부류에 포함시킴으로써 진료문서 특성을 반영하였다.

키워드