DOI QR코드

DOI QR Code

Comparative analysis of Biomedical Databases and Text mining Technologies

바이오메디컬 데이터베이스 및 텍스트마이닝 기술의 비교 분석 및 전망

  • Joh, Taewon (College of Information and Communications, Korea University) ;
  • Lee, Kyubum (College of Information and Communications, Korea University) ;
  • Kang, Jaewoo (College of Information and Communications, Korea University)
  • 조태원 (고려대학교 정보통신대학) ;
  • 이규범 (고려대학교 정보통신대학) ;
  • 강재우 (고려대학교 정보통신대학)
  • Published : 2010.11.12

Abstract

분자 생물학을 통한 연구가 심화되면서, 생물학 정보는 기하급수적으로 늘어나고 있다. 그에 따라 바이오메디컬(생물학, 의학) 관련 논문들의 출판 및 등록 건수도 해마다 증가하고 있다. 그러나 바이오메디컬 문서들에서 유용한 정보를 추출하는 기술은 이러한 분야의 전문가 큐레이터(curator)에 의존한 경우가 많아서, 그 작업의 속도와 양적인 면에서 한계를 가지고 있다. 이러한 이유 때문에 바이오메디컬 문서를 기계학습을 통하여 분석하는 기법이 도입되기 시작하였다. 아직까지는 기계학습을 이용하여 구축된 데이터베이스가 소수에 불과하지만, 점차 증가하는 추세에 있다. 이러한 현 추이를 분석하고 향후의 추세를 예측하고자 텍스트마이닝 기술이 생물학과 의학 분야에서 어떻게 사용되며, 그 정보들이 어떻게 관리되는지 연구, 조사 하게 되었다. 현재 바이오메디컬 관련 데이터베이스들이 여러 기관 및 단체에 의해 구축 및 관리되고 있으며, 국가적인 프로젝트로서 이러한 데이터베이스들을 통합하는 과정을 진행하고 있다. 이처럼 국가기관의 주도하에 데이터베이스를 통합하여 관리하고자 하는 노력들이 계속되고 있어, 앞으로는 바이오메디컬 자료들을 검색하기가 보다 용이해질 것으로 생각된다. 텍스트마이닝을 이용하여 바이오메디컬 정보들을 추출하는 기술은 초기에는 공동 발생(co-occurence)과 같이 단순한 통계적 방법을 이용하였지만, 최근에는 다른 문서에서 추출된 정보와 기존의 정보들을 연계하여 새로운 정보를 추출해 내는 기법이 확산되고 있음을 알 수 있었다.

Keywords