Feature Selection for Bio Named Entity Recognition from Biological Literature

바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출

  • Kim, Tae-Wook (Database and Bioinformatics Laboratory, Chungbuk national university) ;
  • Li, Meijing (Database and Bioinformatics Laboratory, Chungbuk national university) ;
  • Tsendsuren, Munkhdalai (Database and Bioinformatics Laboratory, Chungbuk national university) ;
  • Ryu, Keun-Ho (Database and Bioinformatics Laboratory, Chungbuk national university)
  • 김태욱 (충북대학교 데이터베이스 및 바이오인포메틱스 연구실) ;
  • 이미정 (충북대학교 데이터베이스 및 바이오인포메틱스 연구실) ;
  • ;
  • 류근호 (충북대학교 데이터베이스 및 바이오인포메틱스 연구실)
  • Published : 2012.06.22

Abstract

바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

Keywords

Acknowledgement

Supported by : 질병관리본부, 한국연구재단