Biological Language Resource Construction and Named Entity Recognition System using UMLS

ULMS를 이용한 언어자원 구축 및 생물학적 개체명 인식 시스템

  • Lee, Hyun-Sook (Bioinformatics Research Team, Electronics and Telecommunications Research Institute) ;
  • Kim, Tae-Hyun (Bioinformatics Research Team, Electronics and Telecommunications Research Institute) ;
  • Jang, Hyun-Chul (Bioinformatics Research Team, Electronics and Telecommunications Research Institute) ;
  • Park, Soo-Jun (Bioinformatics Research Team, Electronics and Telecommunications Research Institute) ;
  • Park, Seon-Hee (Bioinformatics Research Team, Electronics and Telecommunications Research Institute)
  • 이현숙 (한국전자통신연구원 바이오정보연구팀) ;
  • 김태현 (한국전자통신연구원 바이오정보연구팀) ;
  • 장현철 (한국전자통신연구원 바이오정보연구팀) ;
  • 박수준 (한국전자통신연구원 바이오정보연구팀) ;
  • 박선희 (한국전자통신연구원 바이오정보연구팀)
  • Published : 2003.11.14

Abstract

본 논문에서는 생물학적 문헌으로부터 유의미한 정보를 추출하는 바이오 텍스트 마이닝의 기본 단계인 생물학적 개체명 인식 모델을 제안하였다. 기존의 생물학적 개체명 인식은 규칙 혹은 코퍼스 구축뿐만 아니라 개체명 인식에 요구되는 기본 자원을 구축하는데만도 많은 시간과 비용이 요구되므로 한정된 도메인을 대상으로 연구가 진행되어 왔다. 본 논문에서 제안하는 개체명 인식 방법은 이러한 비용 문제 및 새로운 도메인으로의 이식성 문제를 극복하기 위해 UMLS 로부터 통계적인 방법으로 정보를 추출해 기본적인 언어자원을 구축하고 이를 이용해 규칙을 생성함으로써 개체명인식을 수행한다. 본 연구에서 제안하는 방법은 바이오 텍스트 마이닝 연구의 도메인 한정적인 문제를 해결하는데 기여할 수 있을 것으로 기대된다.

Keywords