DOI QR코드

DOI QR Code

Research on supplementing unlabeled data through pseudo-labeling.

의사 레이블링을 통한 레이블이 없는 데이터 보완 연구

  • Min-Hee Yoo (Graduate School of Computer & Information Technology, Korea University) ;
  • Heon-Chang Yu (Graduate School of Computer & Information Technology, Korea University)
  • 유민희 (고려대학교 컴퓨터정보통신대학원) ;
  • 유헌창 (고려대학교 컴퓨터정보통신대학원)
  • Published : 2023.11.02

Abstract

레이블링 작업은 데이터 분석 시 필요한 사전 작업중 하나이다. 모든 데이터들에 대해 레이블링 작업은 시간/인적 자원을 필요로 하기에, 해당 작업을 보완할 방법이 존재한다면 요구되는 리소스를 줄여 효율성을 크게 향상시킬 수 있다. 본 논문에서는 통신회사에서 적재된 데이터 셋에 대하여 레이블이 없는 데이터(Unlabeled-data)에 대해 의사 레이블링(Pseudo-labeling), SMOTE 를 통한 데이터 증강을 활용하여 기존에 활용되지 못한 데이터를 추가하여 모델에 학습시킨다. 실험을 통해 의사 레이블을 통한 모델 학습 방법이 기존 도메인 지식의 레이블 방법보다 효율적이고 성능이 우수함을 확인하였다.

Keywords