A New Dataset for Korean Toxic Comment Detection

Park, Jin Won;Na, Young-Yun;Park, Kyubyong;

doi:10.3745/PKIPS.y2021m11a.606

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2021.11a
/
Pages.606-609
/
2021
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

A New Dataset for Korean Toxic Comment Detection

비윤리적 한국어 발언 검출을 위한 새 데이터 세트

Park, Jin Won (Dept. of Communication, Seoul National University) ;
Na, Young-Yun (TUNiB) ;
Park, Kyubyong (TUNiB)

박진원 (서울대학교 언론정보학과) ;
나영윤 (튜닙) ;
박규병 (튜닙)

Published : 2021.11.04

https://doi.org/10.3745/PKIPS.y2021m11a.606 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최근 한국에서도 이루다의 윤리 이슈를 기점으로 딥러닝 모델의 윤리적 언어학습 필요성이 대두되었다. 그럼에도 불구하고 영어 데이터에 비해 한국어 데이터는 Korean Hate Speech Detection Dataset 이 유일하다. 이번 연구에서는 기존 데이터 세트의 유연성이 떨어지고 세부 라벨이 제한적이라는 문제를 개선한 새로운 데이터 세트를 제안하고, 해당 데이터 세트에 대하여 다양한 신경망 분류 모델을 적용한 벤치마크 결과를 공개한다.

Keywords

Acknowledgement

이 논문은 과학기술정보통신부가 주최하고 과학기술정보통신부의 정보통신진흥기금으로 정보통신산업진흥원이 지원하는 개방형 경진대회 플랫폼 구축 사업의 '2021 년 인공지능 온라인 경진대회 우수 성과 기업 사업화' 사업지원을 받아 수행된 결과임 [과제번호: R-20210726-011600]

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

A New Dataset for Korean Toxic Comment Detection

비윤리적 한국어 발언 검출을 위한 새 데이터 세트

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)