DOI QR코드

DOI QR Code

Development of a Framework for Semi-automatic Building Test Collection Specialized in Evaluating Relation Extraction between Technical Terminologies

기술용어 간 관계추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발

  • 정창후 (한국과학기술정보연구원 정보기술연구실) ;
  • 최성필 (한국과학기술정보연구원 정보기술연구실) ;
  • 이민호 (한국과학기술정보연구원 정보기술연구실) ;
  • 최윤수 (한국과학기술정보연구원 정보기술연구실)
  • Published : 2010.02.28

Abstract

Due to the increase of the attention on relation extraction systems, the construction of test collections for assessing their performance has emerged as an important task. In this paper, we propose semi-automatic framework capable of constructing test collections for relation extraction on a large scale. Based on this framework, we develop a test collection which can assess the performance of various approaches to extracting relations between technical terminologies in scientific literatures. This framework can minimize the cost of constructing this kind of collections and reduce the intrinsic fluctuations which may come from the diversity in characteristics of collection developers. Furthermore, we can construct balanced and objective collections by means of controlling the selection process of seed documents and terminologies using the proposed framework.

관계 추출 시스템의 중요성이 날로 부각되면서 이러한 시스템을 평가하기 위한 테스트 컬렉션의 구축이 중요한 과제로 떠오르고 있다. 본 논문에서는 반자동화된 처리 과정을 거쳐서 규모 있는 관계 추출용 테스트 컬렉션을 구축하는 프레임워크를 제안한다. 그리고 개발된 프레임워크를 이용하여 실제적으로 과학기술 문헌에 존재하는 기술용어 간 연관관계 추출 시스템의 성능 평가를 위한 테스트 컬렉션을 구축하고(관계유무 파악 및 관계분류 식별을 검사할 수 있는 1,707건의 문장 규모) 결과를 분석한다. 제안된 방법론은 정형화되고 시간이 많이 소요되는 문서분석 작업을 처리과정별로 자동화함으로써 구축에 들어가는 비용을 최소화할 수 있고, 시스템의 알고리즘을 기반으로 동작하기 때문에 구축자의 성향에 따른 편차를 줄이고 일관된 결과물을 얻을 수 있다. 또한 문헌 집합(과학기술 전 분야에 걸친 30,858,830건의 학술 데이터베이스) 및 용어 사전(16개 분야 253,603건 규모의 전문용어) 선정 시 특정 분야에 편중되지 않도록 노력함으로써 균형 잡히고 객관화된 테스트 컬렉션을 생성할 수 있다.

Keywords

References

  1. 맹성현, 이석훈, 이준호, 이응봉, 송사광, "정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축", 정보관리학회지, Vol.16, No.2, pp.135-148, 1999.
  2. L. Jimmy and K. Boris, "Building a Reusable Test Collection for Question Answering," Journal of the American Society for Information Science and Technology, Vol.57, No.7, pp.851-861, 2006. https://doi.org/10.1002/asi.20348
  3. K. Gabriella, L. Mounia, and R. Jane, "Construction of a Test Collection for the Focussed Retrieval of Structured Documents," ECIR 2003, pp.88-103, 2003.
  4. 이경순, 김재호, 최기선, "질의응답시스템의 성능 평가를 위한 테스트컬렉션 구축", 한글 및 한국어 정보처리 학술대회, pp.190-197, 2000.
  5. 이준호, 최광남, 한현숙, 김종원, 남성원, "정보 검색 연구를 위한 KRIST 테스트 컬렉션의 개발", 정보관리학회지, Vol.12, No.2, pp.225-232, 1995.
  6. 김지영, 장동현, 맹성현, 이석훈, 서정현, 김현, "한국어 테스트 컬렉션 HANTEC의 확장 및 보완", 한글 및 한국어 정보처리 학술대회, pp.210-215, 2000.
  7. 김성혁, 서은경, 이원규, 김명철, 김영환, 김재군, " 자동색인기 성능시험을 위한 Test Set 개발", 정보관리학회지, Vol.11, No.1, pp.81-102, 1994.
  8. http://ldc.upenn.edu/Projects/ACE
  9. http://www-nlpir.nist.gov/related_projects/muc
  10. http://www.ldc.upenn.edu
  11. K. Fundel, R. Kuffner, and R. Zimmer, "RelEx - Relation extraction using dependency parse trees," Bioinformatics, Vol.23, pp.365-371, 2007.
  12. J. Ding, D. Berleant, D. Nettleton, and E. Wurtele, "Mining MEDLINE: abstracts, sentences, or phrases?," Proceedings of PSB'02, pp.326-337, 2002.
  13. C. Nedellec, "Learning language in logic - genic interaction extraction challenge," Proceedings of LLL'05, pp.31-37, 2005.
  14. A. M. George, "WordNet: A Lexical Database for English," COMMUNICATIONS OF THE ACM, Vol.38, No.11, pp.39-41, 1995. https://doi.org/10.1145/219717.219748
  15. 배영준, 김재훈, 옥철영, 최윤수, "CRF를 이용한 생물/의학 전문용어 인식", 제21회 한글 및 한국어 정보처리 학술대회, pp.87-91, 2009.
  16. 김형철, 김재훈, 최윤수, "접사 정보를 이용한 영어 미등록어의 품사부착 성능개선", 제21회 한글 및 한국어 정보처리 학술대회, pp.186-190, 2009.
  17. 김형철, 서형원, 김재훈, 최윤수, "CRF를 이용한 대명사 참조해소 시스템", 제21회 한글 및 한국어 정보처리 학술대회, pp.197-201. 2009.