Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset

개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지

  • Yejee Kang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Li Fei (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Yeonji Jang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Seoyoon Park (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Hansaem Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)
  • 강예지 (연세대학교 언어정보학협동과정 ) ;
  • 비립 (연세대학교 언어정보학협동과정 ) ;
  • 장연지 (연세대학교 언어정보학협동과정 ) ;
  • 박서윤 (연세대학교 언어정보학협동과정 ) ;
  • 김한샘 (연세대학교 언어정보학협동과정 )
  • Published : 2023.10.12

Abstract

본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

Keywords

Acknowledgement

본 연구는 2022 년도 정부(개인정보보호위원회)의 재원으로 한국인터넷진흥원의 지원을 받아 수행된 연구임(No. 1781000017, 대화형 텍스트 데이터에서 AI 기반 개인정보 탐지 및 비식별화 기술 개발)