DOI QR코드

DOI QR Code

Analysis of Korean Language to Optimize the Hangul Character Coding for Information Processing and Communication

한글의 정보처리 및 통신용 부호 최적화를 위한 한국어 분석

  • 홍완표 (한세대학교 정보통신공학과)
  • Received : 2014.12.20
  • Accepted : 2015.03.23
  • Published : 2015.03.31

Abstract

This paper is studied the Korean language to optimize the Hangul character coding for information processing in information terminal device and transmission in network. The paper analyzed Hangul character in Korean language and use frequency of each character. The paper also compared the analysis result to Hangul characters which are coded in standard in Korean character and Unicode. This study referred "Modern Korean Use Frequency Rate Survey Result" issued by The National Institute of the Korean Language. There are total 58,437 Korean words in the report. As a result of this paper, the Korean word 58,437ea are consisted of Hangul character total 1,540ea. The highest use frequency character is "다" and its use frequency to total use frequency rate is 15%. The lowest use character is "휫"and its use frequency to total use frequency rate is 0.00003%. The number of analyzed Hangul character 1,540 is less 7.2 times and 1.5 times than Korean and Unicode standard respectively.

본 논문은 정보처리 및 전송용으로 사용되는 한글의 부호화를 최적화할 수 있도록 하기 위하여 한국어를 연구하였다. 본 논문은 한국어 구성하고 있는 한글의 구성현황과 그 한글들에 대한 각각의 사용빈도를 분석하였다. 본 논문은 본 연구결과 분석된 한글의 구성현황을 한국 KS 문자 표준과 국제 문자표준인 유니코드로 부호화되어 있는 한글 문자와 비교하였다. 연구를 위해 사용된 한국어는 국립국어원의 "현대국어사용빈도조사결과"를 대상으로 하였다. 이 보고서에 수록된 한국어는 총 58.437개이다. 분석결과 한국어 총58,437국어를 구성하고 있는 한글은 총1,540개였다. 이 총1,540개 한국어 중에서 사용빈도가 가장 높은 글자는 "다"로서 전체 사용빈도의 15%였다. 사용빈도가 가장 낮은 글자는 "휫"으로서 전체사용빈도의 0.00003%였다. 한국어를 구성하고 있는 한글 글자수는 유니코드 한글문자 부호를 구성하고 있는 한글 수 보다 약 7.2배, KS X 1001 한글문자 부호를 구성하고 있는 한글 수보다 약 1.5배 적은 것으로 나타났다.

Keywords

References

  1. Kan Laitman, A Natural Introduction Computer Programming with C++. St.Victoria Canada : Trafford Publishing, 2002.
  2. Jukka Korpela, Unicode Explained. California U.S.A, O'Reilly Media Inc, 2006.
  3. E. Desurvire, Classical and Quantum Information Theory. New York: Cambridge university press, 2009.
  4. Eugene. S. Schwartz, "An Optimum Encoding with Minimum Longest Code and Total Number of Digits," Information and control vol 7, 1964, p.37. https://doi.org/10.1016/S0019-9958(64)90241-4
  5. C. Kwon, "International Standardization of Code for Information Interchange," KIOA review, vol.1, no.2, 1995, pp.119-138.
  6. B. A. Forouzan, Data communications and Networking. 4th ed., New York: McGraw Hill, 2007.
  7. W. "An Analysis on the Korean Language for Optimum Transmission of Hangul Code," J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 1, 2015, pp. 33-38. https://doi.org/10.13067/JKIECS.2015.10.1.33
  8. Y. Han, "A study on motion prediction and subband coding of moving pictuers using GRNN," J. of the Korea Institute of Electronic Communication Sciences, vol. 5, no. 3, 2010, pp. 256-261.
  9. K. Lee and Y. Son, "Fast Encoding Algorithm of Low Density Codes," J. of the Korea Institute of Electronic Communication Sciences, vol. 9, no. 4, 2014, pp. 403-408. https://doi.org/10.13067/JKIECS.2014.9.4.403
  10. Y. Kim, "A Study on Fractal Image Coding," J. of the Korea Institute of Electronic Communication Sciences, vol. 7, no. 3, 2012, pp. 559-566. https://doi.org/10.13067/JKIECS.2012.7.3.559