A Study on Construction and Management Tools for Biological Named Entity Dictionary

생물학적 개체명 사전을 위한 구축 및 관리 도구에 관한 연구

  • Jang, Hyun-Chul (Bioinformatics Research Team, Computer System Research Dept., Electronics and Telecommunications Research Institute) ;
  • Kim, Tae-Hyun (Bioinformatics Research Team, Computer System Research Dept., Electronics and Telecommunications Research Institute) ;
  • Lee, Hyun-Sook (Bioinformatics Research Team, Computer System Research Dept., Electronics and Telecommunications Research Institute) ;
  • Park, Soo-Jun (Bioinformatics Research Team, Computer System Research Dept., Electronics and Telecommunications Research Institute) ;
  • Park, Seon-Hee (Bioinformatics Research Team, Computer System Research Dept., Electronics and Telecommunications Research Institute)
  • 장현철 (한국전자통신연구원 컴퓨터시스템연구부 바이오정보연구팀) ;
  • 김태현 (한국전자통신연구원 컴퓨터시스템연구부 바이오정보연구팀) ;
  • 이현숙 (한국전자통신연구원 컴퓨터시스템연구부 바이오정보연구팀) ;
  • 박수준 (한국전자통신연구원 컴퓨터시스템연구부 바이오정보연구팀) ;
  • 박선희 (한국전자통신연구원 컴퓨터시스템연구부 바이오정보연구팀)
  • Published : 2003.11.14

Abstract

바이오 텍스트 마이닝을 위한 정보 추출의 첫 단계는 생물학적 문헌으로부터의 유전자, 단백질, 세포조직 등과 같은 생물학적 개체명의 인식이다. 생물학적 개체명의 명명법상 특징이 매우 다양하고 저자의 개성에 의해 쉽게 좌우되어 단순히 규칙이나 학습 방법 만으로는 쉽게 개체명들을 인식할 수 없다. 또한, 생물학 관련 문헌에 나오는 가능한 모든 개체명과 이들의 모든 변형을 수록하는 것은 현실적으로 불가능하므로 이를 해결하기 위해 이미 알려진 개체명에 대해서 기본적으로 사전을 탐색하고 알려지지 않은 용어들을 규칙과 통계 기반 방법을 통하여 인식하는 것이 효과적이다. 그러나 만족할 만한 수준의 양질의 사전을 구축하는 것은 쉽지 않을 뿐만 아니라 많은 비용이 소요되며, 어느 순간 만족할 만한 성능을 낼 수 있는 사전을 구축했다. 할지라도 유지 관리 하는 것이 결코 쉬운 일이 아니며 마찬가지로 많은 비용을 필요로 하게 된다. 따라서, 잘 구축된 자원으로부터 필요한 정보를 추출하여 적절한 사전을 자동으로 구축하여 활용하는 방법을 사용할 경우, 사전 구축 및 관리에 드는 많은 비용을 줄이면서도 상당히 효과적인 성능을 얻을 수 있을 것이다. 본 연구에서는 바이오 텍스트 마이닝 엔진을 위한 생물학적 개체명 사전을 자동으로 구축하고 이를 쉽게 관리하도록 하는 도구를 개발하였다.

Keywords