A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology

기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구

  • Kim, Hongki (R&D Center, Korea Institute of Patent Information) ;
  • Lee, Hayoung (R&D Center, Korea Institute of Patent Information) ;
  • Park, Jinwoo (R&D Center, Korea Institute of Patent Information)
  • 김홍기 (한국특허정보원 R&D센터) ;
  • 이하영 (한국특허정보원 R&D센터) ;
  • 박진우 (한국특허정보원 R&D센터)
  • Published : 2019.07.10

Abstract

본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

Keywords