DOI QR코드

DOI QR Code

A New Dataset for Korean Toxic Comment Detection

비윤리적 한국어 발언 검출을 위한 새 데이터 세트

  • Published : 2021.11.04

Abstract

최근 한국에서도 이루다의 윤리 이슈를 기점으로 딥러닝 모델의 윤리적 언어학습 필요성이 대두되었다. 그럼에도 불구하고 영어 데이터에 비해 한국어 데이터는 Korean Hate Speech Detection Dataset 이 유일하다. 이번 연구에서는 기존 데이터 세트의 유연성이 떨어지고 세부 라벨이 제한적이라는 문제를 개선한 새로운 데이터 세트를 제안하고, 해당 데이터 세트에 대하여 다양한 신경망 분류 모델을 적용한 벤치마크 결과를 공개한다.

Keywords

Acknowledgement

이 논문은 과학기술정보통신부가 주최하고 과학기술정보통신부의 정보통신진흥기금으로 정보통신산업진흥원이 지원하는 개방형 경진대회 플랫폼 구축 사업의 '2021 년 인공지능 온라인 경진대회 우수 성과 기업 사업화' 사업지원을 받아 수행된 결과임 [과제번호: R-20210726-011600]