DOI QR코드

DOI QR Code

"지휘통제 지능정보 플랫폼" 기반 Vision-LLM을 활용한 병합 셀 테이블의 HTML 변환에 관한 연구

A Study on HTML Conversion of Merged Cell Tables Using Vision-LLM Based on the "Command and Control Intelligence Information Platform"

  • 박병훈 (티쓰리큐(주)) ;
  • 민지윤 (티쓰리큐(주)) ;
  • 김예지 (티쓰리큐(주)) ;
  • 황영준 (티쓰리큐(주)) ;
  • 이종호 (티쓰리큐(주)) ;
  • 김기환 (티쓰리큐(주))
  • Byeong-Hoon Park (T3Q(주)) ;
  • Ji-Yun Min (T3Q(주)) ;
  • Ye-Ji Kim (T3Q(주)) ;
  • Yeong-Jun Hwang (T3Q(주)) ;
  • Jong-Ho Lee (T3Q(주)) ;
  • Ki-Hwan Kim (T3Q(주))
  • 발행 : 2024.10.31

초록

문서의 디지털화 수요가 급증함에 따라, 정보 추출 및 구조화 연구의 중요성이 커지고 있다. 본 연구는 병합 셀이 포함된 테이블 이미지를 HTML 코드로 변환하기 위해 Vision Language Model의 파인튜닝 학습과 실험을 지휘통제 지능정보 플랫폼 기반에서 진행하였다. 베이스 모델은 MiniCPM-V 2.6을 사용하였으며, 학습 데이터는 TNCR과 PubTables-1M 데이터셋 일부를 수정하여 표 이미지-HTML 코드 쌍으로 구성하였다. 성능 평가는 TEDS 지표를 사용하였으며, 파인튜닝 모델은 100개의 테스트 데이터에 대해 93.15%의 TEDS 점수를 기록하여 베이스 모델(78.63%)보다 향상된 성능을 보였다. 본 연구는 병합 셀이 포함된 테이블 구조 인식 분야 연구에서 파인튜닝을 통해 Vision-LLM의 성능을 향상시킬 수 있음을 보여주는 사례로, 다양한 문서 디지털화 작업에 실제적인 기여를 할 수 있을 것으로 기대된다.

키워드

과제정보

본 연구는 국방신속획득기술연구원의 지원으로 수행된 연구임 (No. UC200019D).

참고문헌

  1. Itonori, K, "Table structure recognition based on textblock arrangement and ruled line position," Proceedings of 2nd International Conference on Document Analysis and Recognition (ICDAR93), IEEE, 1993, pp. 765-768.
  2. Kieninger, T., & Dengel, A., "The t-recs table recognition and analysis system." Document Analysis Systems: Theory and Practice: Third IAP R Workshop, DAS'98 Nagano, Japan, November 4-6, 1998 Selected Papers 3(pp. 255-270). Springer Berlin Heidelberg, 1999.
  3. Schreiber, S., Agne, S., Wolf, I., Dengel, A., & Ahmed, S., "DeepDeSRT: Deep learning for detection and structure recognition of tables in document images," in 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Vol. 1, pp. 1162-1167, 2017.
  4. Anand, Avinash, et al, "TC-OCR: TableCraft OCR for Efficient Detection &Recognition of Table Structure & Content," Proceedings of the 1st International Workshop on Deep Multimodal Learning for Information Retrieval., 2023, pp.11-18.
  5. Yao, Yuan, et al., "MiniCPM-V: A GPT-4V Level MLLM on Your Phone," arXiv preprint arXiv:2408.01800, 2024.
  6. Abdallah, A., Berendeyev, A., Nuradin, I., & Nurseitov, D., "TNCR: Table Net Detection and Classification Dataset," Neurocomputing, vol. 473, pp. 79-97, 2022.
  7. Smock, B., Pesala, R., & Abraham, R., "PubTables-1M: Towards comprehensive table extraction from unstructured documents," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 4634-4642.
  8. Hu, Edward J., et al., "LoRA: Low-Rank Adaptation of Large Language Models," arXiv preprint arXiv:2106.09685, 2021.
  9. Zhong, X., ShafieiBavani, E., & Jimeno Yepes, A. "Image-based table recognition: data, model, and evaluation," European conference on computer vision, Cham: Springer International Publishing, 2020, pp. 564-580.
  10. Pawlik, M., & Augsten, N., "Tree edit distance: Robust and memory efficient," Information Systems, vol. 56, pp. 157-173, 2016.