A Study on Hangul Text Compressing Using the Structural Feature of Hangul

한글의 형태적 특성을 이용한 한글 문서 압축 기법에 관한 연구

  • 이기석 (인하대학교 산업기술대학원 정보공학과) ;
  • 김유성 (인하대학교 정보공학과)
  • Published : 1996.09.01

Abstract

To achieve high compression ratio for Hangul texts, in this paper two text compression algorithms which use the structural feature of Hangul, the frequency of postpositional words, are proposed. The performances of these proposed algorithms are also compared with previous text compression algorithms. The proposed compression algorithms named HLZ77 and HLZW come out from the modification of previous algorithms LZ77 and :ZW, respectively. The major distinction of the proposed ones is that the proposed algorithms use the fixed dictionary of selected postpositional words that appear most frequently in Hangul texts. The performances of HLZ77 and HLZW also are compared with those of LZ77 and LZW, respectively, with respect to the compression ratio. According to the result of performance study, the proposed algorithms are better than the previous algorithms for descriptive Hangul text snce the structural feature of Hangul is helpful to achievement of high compression ratio.

본 논문에서는 한글 문서에 대해 높은 압축률을 얻기 위해 한글의 형태적 특징인 조사와 어말어미의 출현 빈도를 이용한 효율적인 한글 문서 압축 기법들을 제안하였으며 제안된 기법들의 성능 분석을 위하여 기존의 압축 기법들과 압축률을 비교 분석하였다. 한글 문서에서 조사와 어말어미가 반복적으로 출현한다는 형태적인 특성으로부터 높은 압축률을 얻기 위해 출현 빈도가 상대적으로 높은 64개의 조사 및 어말어미를 선정 하여 고정 사전을 구성하고, 이를 이용하여 한글 문서를 압축하도록 기존의 LZ77기법과 LZW기법을 수정하여 각각 HLZ77기법과 HLZW기법을 제안하였다. 또한, 본 연구에서는 수정 제안된 HLZ77기법과 HLZW기법의 성능을 분석하기 위하여 4가지 기법을 실 제 재현하여 여러 형태의 한글 문서를 대상으로 압축률을 비교하였다. 성능 결과로 부터 일반적인 한글 문서에 대해 한글의 형태적인 특성을 이용하는 HLZ77기법과 HLZW 기법이 각각 LZ77기법과 LZW기법 보다 우수한 압축률을 나타냄을 알 수 있었다.

Keywords