Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘

  • 강승식 (한성대학교 정보전산학부)
  • Published : 2000.04.15

Abstract

Automatic word spacing is needed to solve the automatic indexing problem of the non-spaced documents and the space-insertion problem of the character recognition system at the end of a line. We propose a word spacing algorithm that automatically finds out word spacing positions. It is based on the recognition of Eojeol components by using the sentence partition and bidirectional longest-match algorithm. The sentence partition utilizes an extraction of Eojeol-block where the Eojeol boundary is relatively clear, and a Korean morphological analyzer is applied bidirectionally to the recognition of Eojeol components. We tested the algorithm on two sentence groups of about 4,500 Eojeols. The space-level recall ratio was 97.3% and the Eojeol-level recall ratio was 93.2%.

자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

Keywords

References

  1. Chen K. J. and Liu S. H., 'Word Identification for Mandarin Chinese Sentences,' Proceedings of the 14th International Conference on Computational Linguistics, pp.101-107, 1992 https://doi.org/10.3115/992066.992085
  2. Nobesawa S., et. el, 'Segmenting a Sentence into Morphemes using Statistic Information between Words,' Proceedings of the 15th International Conference on Computational Linguistics, pp.227-233, 1994 https://doi.org/10.3115/991886.991924
  3. 윤보현, 조민정, 임해창, '통계정보와 선호 규칙을 이용한 한국어 복합명사의 분해', 정보과학회 논문지(B), 24권 8호, pp.900-909, 1997
  4. 심광섭, '합성된 상호정보를 이용한 복합명사 분리', 정보과학회 논문지(B), 24권 11호, pp.1307-1317, 1997
  5. 강승식, '한국어 복합명사 분해 알고리즘', 정보과학회 논문지(B), 25권 1호, pp.172-182, 1998
  6. 최재혁, '양방향 최장일치법을 이용한 한국어 띄어쓰기자동 교정 시스템', 한글 및 한국어 정보처리 학술발표 논문집, pp.145-151, 1997
  7. 심광섭, '음절간 상호정보를 이용한 한국어 자동 띄어쓰기', 정보과학회 논문지(B), 23권 9호, pp.991-1000, 1996
  8. 신중호, 박혁로, '음절단위 bigram 정보를 이용한 한국어 단어 인식 모델', 한글 및 한국어 정보처리 학술발표 논문집, pp.255-260, 1997
  9. 김계성, 이현수, 이상조, '연속 음절 문장에 대한 3단계 한국어 띄어쓰기 시스템', 정보과학회 논문지(B), 25권 12호, pp.1838-1844, 1998
  10. 최재혁, 이상조, '양방향 최장 일치법에 의한 한국어 형태소 분석에서의 사전 검색 횟수 감소 방안', 정보과학회 논문지, 20권 10호, pp.1497-1507, 1993
  11. 강승식, '상대적 출현빈도를 이용한 조사/어미 사전의 구성', 한글 및 한국어 정보처리 학술발표 논문집, pp.188-194, 1995