Detecting Errors in Dependency Treebank through XGBoost and Cross Validation

Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2020.10a
/
Pages.103-107
/
2020
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation

XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지

Choi, Min-Seok (Korea Maritime and Ocean University) ;
Kim, Chang-Hyun (Electronics and Telecommunications Research Institute) ;
Cheon, Min-Ah (Korea Maritime and Ocean University) ;
Park, Hyuk-Ro (Chonnam National University) ;
Kim, Jae-Hoon (Korea Maritime and Ocean University)

최민석 (한국해양대학교) ;
김창현 (한국전자통신연구원) ;
천민아 (한국해양대학교) ;
박혁로 (전남대학교) ;
김재훈 (한국해양대학교)

Published : 2020.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

Keywords

XGBoost

Acknowledgement

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(R7119-16-1001, 지식증강형 실시간 동시통역 원천기술 개발)과 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017M3C4A7068187, 한국어 정보처리 원천 기술 연구 개발).

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation

XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)