Detecting errors on Korean POS tagged corpus using GMM

Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
/
Pages.246-251
/
2019
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

GMM을 이용한 품사 부착 말뭉치의 오류 탐지

Detecting errors on Korean POS tagged corpus using GMM

최민석 (한국해양대학교) ;
김창현 (한국전자통신연구원) ;
천민아 (한국해양대학교) ;
박호민 (한국해양대학교) ;
윤호 (한국해양대학교) ;
남궁영 (한국해양대학교) ;
김재균 (한국해양대학교) ;
김재훈 (한국해양대학교)

Choi, Min-Seok (Korea Maritime and Ocean University) ;
Kim, Chang-Hyun (Electronics and Telecommunications Research Institute) ;
Cheon, Min-Ah (Korea Maritime and Ocean University) ;
Park, Ho-Min (Korea Maritime and Ocean University) ;
Yoon, Ho (Korea Maritime and Ocean University) ;
Namgoong, Young (Korea Maritime and Ocean University) ;
Kim, Jae-Kyun (Korea Maritime and Ocean University) ;
Kim, Jae-Hoon (Korea Maritime and Ocean University)

발행 : 2019.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

품사 부착 말뭉치란 문장에 포함된 각 단어에 품사 표지를 부착한 말뭉치를 말한다. 이런 말뭉치에는 다양한 형태의 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 학습 자료로 사용하는 자연언어처리 시스템의 좋은 성능을 기대할 수 없다. 따라서 말뭉치의 일관성이나 정확도는 자연언어처리 시스템의 성능에 많은 영향을 준다. 하지만 말뭉치 구축 과정에서 작업자의 실수가 발생하고 여러 작업자가 작업을 수행하다 보니 일관성을 유지하기가 쉽지 않다. 본 논문에서는 이러한 문제를 해결하기 위해서 GMM을 이용한 군집화를 수행하여 오류 후보를 추출한다. 이를 통해서 말뭉치 구축 과정에서 작업자의 실수를 방지하고 일관성을 유지하고자 한다. 세종품사부착 말뭉치를 대상으로 임의로 오류를 유발시켜 실험한 결과, 재현율 84.74%의 성능으로 오류를 탐지하였다. 향후에 좀 더 높은 재현율을 위해서 자질 확장이나 회귀 분석 방법 등을 추진할 계획이다.

키워드

GMM;

과제정보

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(R7119-16-1001, 지식증강형 실시간 동시통역 원천기술 개발)과 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017M3C4A7068187, 한국어 정보처리 원천 기술 연구 개발)

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

GMM을 이용한 품사 부착 말뭉치의 오류 탐지

Detecting errors on Korean POS tagged corpus using GMM

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)