"지휘통제 지능정보 플랫폼" 기반 Vision-LLM을 활용한 병합 셀 테이블의 HTML 변환에 관한 연구

A Study on HTML Conversion of Merged Cell Tables Using Vision-LLM Based on the "Command and Control Intelligence Information Platform"

  • 발행 : 2024.10.31


문서의 디지털화 수요가 급증함에 따라, 정보 추출 및 구조화 연구의 중요성이 커지고 있다. 본 연구는 병합 셀이 포함된 테이블 이미지를 HTML 코드로 변환하기 위해 Vision Language Model의 파인튜닝 학습과 실험을 지휘통제 지능정보 플랫폼 기반에서 진행하였다. 베이스 모델은 MiniCPM-V 2.6을 사용하였으며, 학습 데이터는 TNCR과 PubTables-1M 데이터셋 일부를 수정하여 표 이미지-HTML 코드 쌍으로 구성하였다. 성능 평가는 TEDS 지표를 사용하였으며, 파인튜닝 모델은 100개의 테스트 데이터에 대해 93.15%의 TEDS 점수를 기록하여 베이스 모델(78.63%)보다 향상된 성능을 보였다. 본 연구는 병합 셀이 포함된 테이블 구조 인식 분야 연구에서 파인튜닝을 통해 Vision-LLM의 성능을 향상시킬 수 있음을 보여주는 사례로, 다양한 문서 디지털화 작업에 실제적인 기여를 할 수 있을 것으로 기대된다.



본 연구는 국방신속획득기술연구원의 지원으로 수행된 연구임 (No. UC200019D).


