커널 기반의 '단백질-단백질 작용' 의미 포함 문장 분류

Kernel-based sentence classification for protein-protein interaction

  • 김성환 (서울대학교 컴퓨터공학부) ;
  • 엄재홍 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Kim Seong-Hwan (School of Computer Science and Engineering, Seoul National University) ;
  • Eom Jae-Hong (School of Computer Science and Engineering, Seoul National University) ;
  • Zhang Byoung-Tak (School of Computer Science and Engineering, Seoul National University)
  • 발행 : 2005.11.01

초록

본 논문에서는 tree kernel을 이용 '단백질-단백질 작용' 내용 포함 문장의 추출 방법을 제시한다. Tree kernel은 convolution kernel의 하나로서, 이를 이용하여 파싱 트리(parsing tree)로 표현된 문장을 데이터로 하여 '단백질-단백질 작용' 내용을 포함하고 있는 문장을 그렇지 않은 문장으로부터 분류할 수 있다. 문장 전체를 데이터로 사용하는 것보다 관련 영역을 서브트리(sub-tree)로 추출하여 사용한 것이 더 효과적임을 확인할 수 있었고, kernel계산에 있어 파싱 트리의 태그 내용이 중요한 역할을 하기 때문에 이를 '단백질-단백질 작용'의 의미를 반영할 수 있도록 semantic하게 변환한 효과 및 트리의 길이에 따른 영향도 실험해 보았다. 문제에 사용된 데이터의 양이 다소 적었지만, 데이터 표현 방식에 따라 파싱이나 패턴기법을 이용한 기존의 방법과 비교해 좋은 성능을 보일 수 있다는 가능성을 확인할 수 있었다.

키워드