Correction for Hangul Normalization in Unicode

유니코드 환경에서의 올바른 한글 정규화를 위한 수정 방안

  • 안대혁 (한국마이크로소프트 소프트웨어연구소) ;
  • 박영배 (명지대학교 컴퓨터공학과)
  • Published : 2007.02.15

Abstract

Hangul text normalization in current Unicode makes wrong Hangul syllable problems when using with precomposed modern Hangul syllables and composing old Hangul by using conjoining-Hangul Jamo and compatibility Hangul Jamo. This problem comes from allowing incorrect normalization form of compatibility Hangul Jamo and Hangul Symbol and also permitting to use conjoining-Hangul Jamo mixture with precomposed Hangul syllable in Unicode Hangul composing rule. It is caused by lack of consideration of old Hangul and/or insufficient understanding of Hangul code processing when writing specification for normalization forms in Unicode. Therefore on this paper, we study Hangul code in Unicode environment, specifically problems of normalization used for Web and XML, IDN in nowadays. Also we propose modification of Hangul normalization methods and Hangul composing rules for correct processing of Hangul normalization in Unicode.

현재 유니코드에서 한글텍스트의 정규화 기법은 완성형 현대한글 음절과 옛한글을 표현하는 조합형 한글 그리고 호환 자모등과 같이 사용할 경우 원래의 글자와는 전혀 다른 글자의 조합을 만들어내는 문제점이 있다. 이러한 문제점은 호환 한글 자모 및 기호들의 잘못된 정규화 변환과 유니코드의 한글자모 조합 규칙에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용 할 수 있게 허용한 때문이다. 이는 정규화 형식을 처음 작성할 당시 옛한글의 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성 된데 따른 결과라 하겠다. 따라서 본 연구에서는 유니코드 환경에서의 한글 코드와 특히 최근 들어 Web을 비롯하여 XML과 IDN에서 필연적으로 사용하는 정규화에 따른 문제점을 파악하고 이들을 올바르게 처리하기 위한 정규화의 수정 방안과 조합형 한글의 조합 규칙에 대한 수정 방안을 제안한다.

Keywords

References

  1. 산업표준심의회, '국제 문자 부호 계 KS X 1005', 한국표준협회, 2002
  2. The Unicode Consortium, 'The Unicode Standard 4.0,' Addison-Wesley, 2003
  3. Mark Davis, Matrin Dürst, 'Unicode Normalization Forms 4.1.0 - UAX #15,' The Unicode Consortium, 2005
  4. Matrin Durst and others, 'Character Model for the World Wide Web 1.0: Normalization,' W3C, 2005
  5. Tim Bray and others, 'Extensible Markup Language (XML) 1.0,' W3C, 2004
  6. Patrick Faltstrom and others, 'Internationalizing Domain Names in Applications (IDNA) - RFC 3490,' IETF, 2003
  7. 산업표준심의회, '정보 교환용 부호계(한글 및 한자) KS X 1001', 한국표준협회, 2004
  8. (주)한글과컴퓨터, '한글코드와 자판에 대한 기초 연구', 문화부, 1992
  9. 안대혁외, '단일문자 표준 연구', 한국전산원, 1993
  10. 기술표준원, '국제문자부호계 KS규격의 국제규격부합화 연구', 한국표준협회, 2000
  11. 홍윤표, '한글코드에 관한 연구', 국립국어연구원, 1995
  12. 정우봉, '문자코드 표준화 연구', 국립국어원, 2004
  13. Unicode, 'Unicode Standard Annex #28 - Unicode 3.2,' The Unicode Consortium, 2002
  14. Mark Davis, 'Draft Unicode Technical Report #15, Revision 11,' The Unicode Consortium, 1999
  15. KyongSok Kim, 'New, Canonical decomposition and composition processes for Hangeul,' ISO/IEC SC22/WG20 N954, 2002
  16. 안상규, 김성재, 신병훈, '마이크로소프트 워드2002에서의 옛한글 구현', 한국마이크로소프트, 2001
  17. Microsoft, 'Creating and Supporting OpenType fonts for Old Hangul', Microsoft Corp, 2000