DOI QR코드

DOI QR Code

Hanja Information in the Entries of Korean Unabridged Dictionary

국어대사전의 표제어에 나타나는 한자 정보

  • 김철수 (서남대학교 컴퓨터정보통신학과)
  • Received : 2009.12.15
  • Accepted : 2010.01.14
  • Published : 2010.04.28

Abstract

For language information processing that includes both Hangul and Hanja, an electronic dictionary supporting Hangul and Hanja simultaneously is necessary. This paper examined statistical information on Hanja entries of Korean Unabridged Dictionary such as the number of entries that include Hanja based on the KSC-5601 character set, the frequency of the pronunciation and meaning of each character of Hanja included in the entries, the frequency per part of speech of Hanja in entries and the average number of Hanja characters per entry. At least one or more of Hanja characters appear in 303,951 entries out of 440,594, accounting for 68.99% of the total. 858,595 characters of Hanja are included in the 440,594 entries, which is 1.95 Hanja characters per entry. As the average syllable length of the entries is 3.56 and the average count of the Hanja characters per entry is 1.96, it can be said that 54.7% of all the characters of the entries are in Hanja. Among 4,888 Hanja character codes, 4,660 are used once or more, whereas 228 Hanja codes never appear in any entry. There were 5 characters which appear more than 4,000 times. A total of 858,595 Hanja characters used in all the entries correspond to 471 Hangeul codes.

한글과 한자가 혼합되어 나타나는 분야의 언어정보처리를 수행하기 위해서는 한글 및 한자 정보를 동시에 지원할 수 있는 전자 사전이 요구된다. 본 논문에서는 국어대사전의 표제어에 나타나는 한자 통계 정보에 대하여 고찰하였다. 대상 정보는 KSC-5601 코드에 기초하여 엔트리에 한자가 포함된 엔트리 수, 엔트리에 나타나는 한자의 음과 훈의 출현빈도 수, 품사별 한자 출현빈도수, 엔트리당 평균 출현 한자 수 등이다. 440,594개의 표제어 중 303,951개에서 한 글자 이상의 한자가 나타나 68.99%의 표제어에서 한자가 출현 하였다. 440,594개의 표제어에서 858,595글자의 한자를 포함하고 있어 표제어 당 평균 1.95개의 한자가 출현하였다. 표제어의 평균 음절길이 3.56이고 1.95개의 한자가 출현하므로 표제어를 구성하는 글자 중 54.78%가 한자임을 알 수 있다. 4,888개의 한자 코드 중 한번 이상 출현한 한자는 4,660개이며, 228개의 한자는 한 번도 출현하지 않았다. 4,000번 이상 출현하는 한자는 5개였다. 엔트리에 출현하는 858,595개의 한자에 대응하는 한글 음은 471개였다.

Keywords

References

  1. 유진희, 이종혁, 이근배, "형태소 분석과 언어 평가를 이용한 문자인식 후처리", 정보과학회 논문지(B), Vol.22, No.6, pp.880-891, 1995.
  2. 강승식, "음절정보와 복수어 단어 정보를 이용한 한국어 형태소 분석", 서울대학교 공학박사 학위 논문, 1993.
  3. 국립국어연구원, 표준국어대사전, 두산동아출판사, 1999.
  4. 송재소, "한국의 한자교육", 새국어생활 Vol.9. No.2, pp.125-144, 1999.
  5. 이용주, "한자 정책 현안으로서의 한자 폐지", 국어 생활, 90 봄(20호), pp.11-31, 1990.
  6. 박양규, "국어정책", 국어학연감, Vol.2000, pp.21-39, 2000.
  7. 박천서, "한글 專用 정책과 그 功過", 어문 연구, Vol.27 No.2, 1999.
  8. 김영환, "한자 혼용론을 논박함 한글 전용론의 깊은뜻", 배달말학회 논문지, No.41, pp.33-52, 2007.
  9. 심재기 "국한자 혼용의 타당성에 관한 연구", 관악어문연구, Vol.23, No.1, pp.5-39, 1998.
  10. 김철수, 김양범, "대용량 전자사전 구축을 위한 국어 대사전의 통계정보", 한국콘텐츠학회 논문지(B), Vol.7, No.6, pp.60-68, 2007. https://doi.org/10.5392/JKCA.2007.7.6.060
  11. 최주열, "한자 교육 방법에 관한 고찰", 한글말 교육 논문지, Vol..5, pp.145-174. 1994.
  12. 오미선, "漢字環境의 實態와 學習.敎育", 일본연구, No.21, 2003.