A Word Spacing System based on Syllable Patterns for Memory-constrained Devices

메모리 제약적 기기를 위한 음절 패턴 기반 띄어쓰기 시스템

  • 김신일 (동아대학교 컴퓨터공학과) ;
  • 양선 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Received : 2010.01.06
  • Accepted : 2010.06.18
  • Published : 2010.08.15

Abstract

In this paper, we propose a word spacing system which can be performed with just a small memory. We focus on significant memory reduction while maintaining the performance of the system as much as the latest studies. Our proposed method is based on the theory of Hidden Markov Model. We use only probability information not adding any rule information. Two types of features are employed: 1) the first features are the spacing patterns dependent on each individual syllable and 2) the second features are the values of transition probability between the two syllable-patterns. In our experiment using only the first type of features, we achieved a high accuracy of more than 91% while reducing the memory by 53% compared with other systems developed for mobile application. When we used both types of features, we achieved an outstanding accuracy of more than 94% while reducing the memory by 76% compared with other system which employs bigram syllables as its features.

본 논문에서는 메모리 제약적인 기기에 적합한 한국어 띄어쓰기 시스템을 제안한다. 본 연구에서는 최신 선행 연구들에 비해 성능의 저하가 없게 하면서 동시에 메모리 사용량을 탁월하게 줄이는 데에 초점을 맞추었다. 규칙 정보는 전혀 사용하지 않고, 은닉 마르코프 모델(Hidden Markov Model)의 이론에 근거하여 확률 정보를 적용하였으며, 두 가지의 자질을 사용하는데, 1) 첫 번째 자질은 각 음절이 개별적으로 가지는 띄어쓰기 패턴 자질이며, 2) 두 번째 자질은 두 음절 패턴 자질 사이의 전이 확률 값 정보이다. 실험 결과에서, 첫 번째 자질만 사용한 경우 모바일에 적용하기 위해 제안된 다른 연구보다 약 53% 정도 적게 메모리를 사용하면서 약 91% 정도의 정밀도를 보였다. 두 가지 자질을 모두 사용한 경우 음절바이그램을 사용한 다른 연구와 비교하여 약 76% 정도 메모리를 적게 사용하면서 약 94%가 넘는 우수한 성능을 나타내었다.

Keywords

References

  1. Y. Song, H. Kim, "An Automatic Korean Word Spacing System for Devices with Low Computer Power," Journal of KIPS, vol.16(B), no.4, pp.333-340, 2009. (in Korean) https://doi.org/10.3745/KIPSTB.2009.16-B.4.333
  2. S. Kang, "Automatic Correction of Word-spacing Errors using by Syllable Bigram," Journal of KSSS, vol.8, no.2, pp.83-90, 2001. (in Korean)
  3. S. Park, E. Lee, Y. Tae, "Automatic word spacing in Korean for small memory devices," Proc of the 18th international conference on Innocations in Applied Artificial Intelligence, pp.249-258, 2005.
  4. S. Kang, "Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences," Journal of KIIS : Software and Applications, vol.27, no.4, pp.441-447, Apr. 2000. (in Korean)
  5. D. Lee, S. Lee, H. Lim, H. Rim, "Two Statictical Models for Automatic Word Spacing of Korean Sentences," Journal of KIISS : Software and Applications, vol.30, no.4, pp.358-371, Apr. 2003. (in Korean)
  6. S. Choi, M. Kang, H. Kwon, "Improving Korean Word-Spacing System Using Stochastic Information," Proc. of the KCC-2004, vol.31, no.1(B), pp.883-885, Apr. 2004. (in Korean)