한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
- /
- Pages.189-192
- /
- 2018
- /
- 2005-3053(pISSN)
CRFs와 Bi-LSTM/CRFs의 비교 분석: 자동 띄어쓰기 관점에서
CRFs versus Bi-LSTM/CRFs: Automatic Word Spacing Perspective
- 윤호 (한국해양대학교, 컴퓨터공학과) ;
- 김창현 (한국해양대학교, 컴퓨터공학과) ;
- 천민아 (한국해양대학교, 컴퓨터공학과) ;
- 박호민 (한국해양대학교, 컴퓨터공학과) ;
- 남궁영 (한국해양대학교, 컴퓨터공학과) ;
- 최민석 (한국해양대학교, 컴퓨터공학과) ;
- 김재훈 (한국해양대학교, 컴퓨터공학과)
- Yoon, Ho (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Kim, Chang-Hyun (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Cheon, Min-Ah (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Park, Ho-min (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Namgoong, Young (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Choi, Minseok (Korea Maritime and Ocean University, Dept. of Computer Engineering) ;
- Kim, Jae-Hoon (Korea Maritime and Ocean University, Dept. of Computer Engineering)
- 발행 : 2018.10.12
초록
자동 띄어쓰기란 컴퓨터를 사용하여 띄어쓰기가 수행되어 있지 않은 문장에 대해 띄어쓰기를 수행하는 것이다. 이는 자연언어처리 분야에서 형태소 분석 전에 수행되는 과정으로, 띄어쓰기에 오류가 발생할 경우, 형태소 분석이나 구문 분석 등에 영향을 주어 그 결과의 모호성을 높이기 때문에 매우 중요한 전처리 과정 중 하나이다. 본 논문에서는 기계학습의 방법 중 하나인 CRFs(Conditional Random Fields)를 이용하여 자동 띄어쓰기를 수행하고 심층 학습의 방법 중 하나인 양방향 LSTM/CRFs (Bidirectional Long Short Term Memory/CRFs)를 이용하여 자동 띄어쓰기를 수행한 뒤 각 모델의 성능을 비교하고 분석한다. CRFs 모델이 양방향 LSTM/CRFs모델보다 성능이 약간 더 높은 모습을 보였다. 따라서 소형 기기와 같은 환경에서는 CRF와 같은 모델을 적용하여 모델의 경량화 및 시간복잡도를 개선하는 것이 훨씬 더 효과적인 것으로 생각된다.