DOI QR코드

DOI QR Code

A Comparative Study on Deep Learning Topology for Event Extraction from Biomedical Literature

생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구

  • 김선우 (경기대학교 일반대학원 문헌정보학과) ;
  • 유석종 (한국과학기술정보연구원 생명의료융합기술연구실) ;
  • 이민호 (한국과학기술정보연구원 생명의료HPC연구센터) ;
  • 최성필 (경기대학교 문헌정보학과)
  • Received : 2017.10.16
  • Accepted : 2017.11.13
  • Published : 2017.11.30

Abstract

A recent sharp increase of the biomedical literature causes researchers to struggle to grasp the current research trends and conduct creative studies based on the previous results. In order to alleviate their difficulties in keeping up with the latest scholarly trends, numerous attempts have been made to develop specialized analytic services that can provide direct, intuitive and formalized scholarly information by using various text mining technologies such as information extraction and event detection. This paper introduces and evaluates total 8 Convolutional Neural Network (CNN) models for extracting biomedical events from academic abstracts by applying various feature utilization approaches. Also, this paper conducts performance comparison evaluation for the proposed models. As a result of the comparison, we confirmed that the Entity-Type-Fully-Connected model, one of the introduced models in the paper, showed the most promising performance (72.09% in F-score) in the event classification task while it achieved a relatively low but comparable result (21.81%) in the entire event extraction process due to the imbalance problem of the training collections and event identify model's low performance.

최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.

Keywords

References

  1. 김정균, 조혜진, 이현주. 2015. 생의학 문헌에서 질병 관련 정보를 추출하기 위한 텍스트 마이닝 기법. 정보과학회지, 33(4): 13-19. (Kim, Jeong kyun, Jo, Hye Jin and Lee, Hyeon Ju. 2015. "Text Mining Approaches to Extract Disease Information from Biomedical Articles." Communications of the Korean Institute of Information Scientists and Engineers, 33(4): 13-19.)
  2. 김태현 외. 2002. 정보 추출을 위한 이벤트 문장 추출. 한국정보과학회 언어공학연구회 학술발표 논문집, 2002년 10월 11-12일, 청주: 충북대학교: 325-331. (Kim, Tae-Hyun. et al. 2002. Event Sentence Extraction for Information Extraction. In Proceedings of the 14th Annual Conference on Human and Cognitive Language Technology, October 11-12, 2002, Cheongju: Chungbuk National University: 325-331.)
  3. 이기헌, 허고은, 송민. 2015. 생의학 텍스트 마이닝: 새로운 생의학 지식 발견 방법 연구 동향. 정보과학회지, 33(4): 30-38. (Lee, Keeheon, Heo, Go Eun and Song, Min. 2015. Biomedical Text Mining: A Trend in Biomedical Knowledge Discovery Based on Text Mining. Communications of the Korean Institute of Information Scientists and Engineers, 33(4): 30-38.)
  4. Choi, S. 2016. "Extraction of Protein-Protein Interactions(PPIs) from the Literature by Deep Convolutional Neural Networks with Various Feature Embeddings." Sage Journal.
  5. Huang, C. and Lu, Z. 2016. "Community Challenges in Biomedical Text Mining over 10 Years: Success, Failure and the Future." Briefings in Bioinformatics, 17(1): 132-144. https://doi.org/10.1093/bib/bbv024
  6. Kim, J. D., Wang, Y. and Yasunori, Y. 2013. "The Genia Event Extraction Shared Task, 2013 Edition-Overview." In Proceedings of the BioNLP Shared Task 2013 Workshop, 8-15.
  7. Kim, J. D. et al. 2011. "Overview of Genia Event Task in BioNLP Shared Task 2011." In Proceedings of the BioNLP Shared Task 2011 Workshop, 7-15.
  8. Li, C., Rao, Z. and Zhang, X. 2016. "LitWay, Discriminative Extraction for Different Bio-Events." In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 32-41.
  9. Li, C. et al. 2015. "Using Word Embedding for Bio-event Extraction." ACL-IJCNLP, 2015: 121-126.
  10. Li, F. et al. 2015. "Mapping Publication Trends and Identifying Hot Spots of Research on Internet Health Information Seeking Behavior: A Quantitative and Co-Word Biclustering Analysis." J Med Internet Res, 17(3).
  11. Liu, X., Bordes, A., and Grandvalet, Y. 2015. "Extracting Biomedical Events from Pairs of Text Entities." BMC Bioinformatics, 16(10): 45-49. https://doi.org/10.1186/s12859-015-0453-z
  12. Panyam N. C. et al. 2016. "SeeDev Binary Event Extraction using SVMs and a Rich Feature Set." In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 82-87.
  13. Collobert, R. et al. 2011. "Natural Language Processing (Almost) from Scratch." Journal of Machine Learning Research, 12: 2493-2537.
  14. Xia, J., Fang, A. C. and Zhang, X. 2014. "A Novel Feature Selection Strategy for Enhanced Biomedical Event Extraction Using the Turku System." BioMed Research International, 2014.
  15. Stanford CS231n. 2017. Convolutional Neural Networks for Visual Recognition. Stanford University CS Class. [online] [cited 2017. 10. 9.]
  16. GENIA. 2017. The 4th BioNLP Shared Task 2016. The BioNLP Shared Task. [online] [cited 2017. 10. 9.]