DOI QR코드

DOI QR Code

An Empirical Study on Data Augmentation Techniques for Improving the Performance of Automatic Issue Report Labeling

이슈 리포트 자동 레이블링 성능 개선을 위한 데이터 증강 기법의 실증적 연구

  • Jeong-Wu Kim (Dept. of Energy and Resources Engineering, Chonnam University) ;
  • Misoo-Soo Kim (Dept. of Artificial Intelligence Convergence, Chonnam University)
  • 김정우 (전남대학교 에너지자원공학과 ) ;
  • 김미수 (전남대학교 인공지능융합학과)
  • Published : 2024.10.31

Abstract

이슈 리포트 자동 레이블링은 효율적인 소프트웨어 유지보수를 위해 필수적인 작업이다. 그러나 이슈 리포트 데이터 셋은 롱테일 레이블 분포를 가지고 있어, 성능 저하를 초래할 수 있는 불균형 문제가 존재한다. 본 연구에서는 Easy Data Augmentation을 적용하여 롱테일 레이블의 성능을 개선할 수 있는지 실증적으로 검토하였다. 그 결과, 가장 희소한 "good-first-issue" 레이블에서 성능이 크게 개선된 것을 확인하였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 소프트웨어중심대학사업(2021-0-01409)과 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업(IITP-2023-RS-2023-00256629), 대학ICT연구센터사업(IITP-2024-RS-2024-00437718)의 연구 결과로 수행되었음

References

  1. Wang, Jun, et al. "Personalizing label prediction for GitHub issues." Information and Software Technology, vol. 145, 2022, p. 106845.
  2. Wei, Jason, and Kai Zou. "Eda: Easy data augmentation techniques for boosting performance on text classification tasks." Proceedings of the EMNLP-IJCNLP 2019, Hong Kong, 2019, pp. 6382-6388.
  3. Heo, Jueun, and Seonah Lee. "An empirical study on the performance of individual issue label prediction." Proceedings of the 2023 IEEE/ACM 20th International Conference on Mining Software Repositories (MSR), Melbourne, Australia, 2023, pp. 228-233.
  4. Fang, Sen, et al. "RepresentThemAll: A universal learning representation of bug reports." Proceedings of the 2023 IEEE/ACM 45th International Conference on Software Engineering (ICSE), Melbourne, Australia, 2023.