Improving Korean Word-Spacing System Using Stochastic Information

;;;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2004.04b
/
Pages.883-885
/
2004
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Improving Korean Word-Spacing System Using Stochastic Information

통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선

최성자 (부산대학교 컴퓨터공학과) ;
강미영 (부산대학교 컴퓨터공학) ;
권혁철 (부산대학교 컴퓨터공학과)

Published : 2004.04.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 대용량 말뭉치로부터 어절 unigram과 음절 bigram 통계 정보를 추출하여 구축한 한국어 자동 띄어쓰기 시스템의 성능을 개선하는 방법을 제안한다 어절 통계를 주로 이용하는 기법으로 한국어 문서를 처리할 때, 한국어의 교착어적인 특성으로 인해 자료부족 문제가 발생한다 이물 극복하기 위해서 본 논문은 음절 bigram간 띄어쓸 확률 정보를 이용함으로써 어절로 인식 가능한 추가의 후보 어절을 추정하는 방법을 제안한다. 이와 글이 개선된 시스템의 성능을 다양한 실험 데이터를 사용하여 평가한 결과, 평균 93.76%의 어절 단위 정확도를 얻었다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Improving Korean Word-Spacing System Using Stochastic Information

통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)