Data Augmentation and Preprocessing to Improve Automated Essay Scoring Model

에세이 자동 평가 모델 성능 향상을 위한 데이터 증강과 전처리

  • Published : 2023.10.12

Abstract

데이터의 품질과 다양성은 모델 성능에 지대한 영향을 끼친다. 본 연구에서는 Topic을 활용한 데이터 전처리와 BERT 기반 MLM, T5, Random Masking을 이용한 증강으로 데이터의 품질과 다양성을 높이고자 했으며, 이를 KoBERT 기반 에세이 자동 평가 모델에 적용했다. 데이터 전처리만 진행했을 때, Quadratic Weighted Kappa Score(QWK)를 기준으로 모델이 에세이의 모든 평가 항목에 대해 베이스라인보다 더욱 높은 일치도를 보였으며 평가항목별 일치도의 평균을 기준으로 0.5368029에서 0.5483064(+0.0115035)로 상승했다. 여기에 제안하는 증강 방식을 추가 할 경우 MLM, T5, Random Masking 모두 성능 향상 효과를 보였다. 특히, MLM 데이터 증강 방식을 추가로 적용하였을 때 최종적으로 0.5483064에서 0.55151645(+0.00321005)으로 상승해 가장 높은 일치도를 보였으며, 에세이 총점으로 QWK를 기준으로 성능을 평가하면 베이스라인 대비 0.4110809에서 0.4380132(+0.0269323)로의 성능 개선이 있었다.

Keywords

Acknowledgement

이 논문은 2023년도 인하대학교의 지원, 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. RS-2022-00155915, 인공지능융합혁신인재양성 (인하대학교)) 및 2023년 대한민국 교육부와 한국연구재단의 지원(NRF-2023S1A5A2A21085373)을 받아 수행된 연구임