A Study on the Construction of Specialized NER Dataset for Personal Information Detection

Hyerin Kang;Li Fei;Yejee kang;Seoyoon Park;Yeseul Cho;Hyeonmin Seong;Sungsoon Jang;Hansaem Kim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2022.10a
/
Pages.185-191
/
2022
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

A Study on the Construction of Specialized NER Dataset for Personal Information Detection

개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험

Hyerin Kang (Institute of Language and Information Studies, Yonsei University) ;
Li Fei (Institute of Language and Information Studies, Yonsei University) ;
Yejee kang (Institute of Language and Information Studies, Yonsei University) ;
Seoyoon Park (Institute of Language and Information Studies, Yonsei University) ;
Yeseul Cho (WorldVertex) ;
Hyeonmin Seong (WorldVertex) ;
Sungsoon Jang (WorldVertex) ;
Hansaem Kim (Institute of Language and Information Studies, Yonsei University)

강혜린 (연세대학교 언어정보연구원) ;
비립 (연세대학교 언어정보연구원) ;
강예지 (연세대학교 언어정보연구원) ;
박서윤 (연세대학교 언어정보연구원) ;
조예슬 (월드버텍) ;
성현민 (월드버텍) ;
장성순 (월드버텍) ;
김한샘 (연세대학교 언어정보연구원)

발행 : 2022.10.18

PDF

Download PDF

⟨ Previous Next ⟩

초록

개인정보에 대한 경각심 및 중요성 증대에 따라 텍스트 내 개인정보를 탐지하는 태스크가 주목받고 있다. 본 연구에서는 개인정보 탐지 및 비식별화를 위한 개인정보 특화 개체명 태그셋 7개를 고안하는 한편 이를 바탕으로 비식별화된 원천 데이터에 가상의 데이터를 대치하고 개체명을 주석함으로써 개인정보 특화 개체명 데이터셋을 구축하였다. 개인정보 분류 실험에는 KR-ELECTRA를 사용하였으며, 실험 결과 일반 개체명 및 정규식 바탕의 규칙 기반 개인정보 탐지 성능과 비교하여 특화 개체명을 활용한 딥러닝 기반의 개인정보 탐지가 더 높은 성능을 보임을 확인하였다.

키워드

과제정보

본 연구는 2022년도 정부(개인정보보호위원회)의 재원으로 한국인터넷진흥원의 지원을 받아 수행된 연구임(No. 1781000006, 대화형 텍스트 데이터에서 AI 기반 개인정보 탐지 및 비식별화 기술 개발)

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

A Study on the Construction of Specialized NER Dataset for Personal Information Detection

개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)