• 제목/요약/키워드: Hangeul and Hanja

검색결과 4건 처리시간 0.018초

A study on Unifying Hanja Variant Groups of Korea and China for LGR (Label Generation Rule) of Internet Top-Level Hangeul Hanja Domain

  • Kim, Kyongsok
    • International journal of advanced smart convergence
    • /
    • 제7권2호
    • /
    • pp.7-21
    • /
    • 2018
  • The author studied the process of unifying Hanja variant groups of Korea and China for LGR (Label Generation Rule) of Internet Top-Level Hangeul Hanja Domain and possible confusion between Hangeul syllable and Hanja character. Among 3518 Chinese variant groups, Korea and China need not review variant groups which include no or just one Korean Hanja character. Korea and China reviewed 304 Chinese variant groups (9% of the 3518 Chinese variant groups) which include two or more Korean Hanja characters. By doing so, Korea and China succeeded in efficiently unifying variant groups. Unification process of variant groups which is the main core of Korea-China coordination and almost final unification result is summarized in this paper. In addition, the author analyzed systematically whether some Hanja character could be confused with a Hangeul syllable and obtained a good result which was not expected at the beginning. Probably this kind of systematic analysis has not been performed in the past and seems the first attempt, which is one of the contributions of this paper. The author also reviewed how to express K-LGR in XML for submission to ICANN.

인쇄체 문서의 문자영역에서 한글과 한자의 구별에 관한 연구 (A Study on Classification into Hangeul and Hanja in Text Area of Printed Document)

  • 심상원;이성범;남궁재찬
    • 한국통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.802-814
    • /
    • 1993
  • 본 논문에서는 문서인식시스템의 문자인식부에서 각 문자를 인식하기 위한 전처리 단계인 한글과 한자를 구별하는 알고리즘을 제안한다. 본 연구에서는 문자의 구별에 큰 영향을 미치고, 쓰기형태와 글자체에 따라서 변동을 흡수할 수 있는 9가지의 한자 특성을 제안하고, 문자의 크기에 영향을 받지 않고 문자를 구별할 수 있도록 문자 크기에 따른 비율을 제안된 각 특성에 반영하여 문자의 구별을 행하였다. 입력된 문서 제안한 9가지의 한자 구조적 특성을 조사하여, 한글과 한자로 구별한다. KS-C5601의 한글 2350자와 한자 4888자의 고딕, 명조체에 대하여, 실험결과는 인쇄 표본, 신문, 학회지, 잡지 교재에서 각각 98.8%, 92%, 96%, 98%, 98%을 얻었다.

  • PDF

국어대사전의 표제어에 나타나는 한자 정보 (Hanja Information in the Entries of Korean Unabridged Dictionary)

  • 김철수
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.438-446
    • /
    • 2010
  • 한글과 한자가 혼합되어 나타나는 분야의 언어정보처리를 수행하기 위해서는 한글 및 한자 정보를 동시에 지원할 수 있는 전자 사전이 요구된다. 본 논문에서는 국어대사전의 표제어에 나타나는 한자 통계 정보에 대하여 고찰하였다. 대상 정보는 KSC-5601 코드에 기초하여 엔트리에 한자가 포함된 엔트리 수, 엔트리에 나타나는 한자의 음과 훈의 출현빈도 수, 품사별 한자 출현빈도수, 엔트리당 평균 출현 한자 수 등이다. 440,594개의 표제어 중 303,951개에서 한 글자 이상의 한자가 나타나 68.99%의 표제어에서 한자가 출현 하였다. 440,594개의 표제어에서 858,595글자의 한자를 포함하고 있어 표제어 당 평균 1.95개의 한자가 출현하였다. 표제어의 평균 음절길이 3.56이고 1.95개의 한자가 출현하므로 표제어를 구성하는 글자 중 54.78%가 한자임을 알 수 있다. 4,888개의 한자 코드 중 한번 이상 출현한 한자는 4,660개이며, 228개의 한자는 한 번도 출현하지 않았다. 4,000번 이상 출현하는 한자는 5개였다. 엔트리에 출현하는 858,595개의 한자에 대응하는 한글 음은 471개였다.

지명 데이터베이스 구축을 통한 웹지도화 방안 (An Web-based Mapping by Constructing Database of Geographical Names)

  • 김남신
    • 한국지역지리학회지
    • /
    • 제16권4호
    • /
    • pp.428-439
    • /
    • 2010
  • 지명은 인간의 지역인식을 반영하기 때문에 지명지도는 지역이해를 위한 정보를 제공해 줄 수 있다. 본 연구는 지명데이터베이스 구축을 통한 웹기반 지도를 제작하고자 하였다. 주요 연구내용은 웹사이트 상에서 지명분류 방법, 데이터베이스 구축 방법 그리고 지명지도화 방법에 관한 연구를 수행하였다. 지명은 분류기준에 따라 자연지리, 문화역사지리, 경제지리, 기타의 4개 영역으로 나누었으며, 다시 18 가지 세부영역으로 분류하였다. 지명은 지형도상의 지명과 지역에만 알려진 소지명을 수집하여 입력할 수 있도록 하였다. 데이터베이스 항목은 주소, 좌표, 지명(한자, 한글), 지명분류, 설명, 사진 자료로 구성하였다. 지명지도는 지역의 지리정보와 함께 표현될 수 있게 하였다. 연구결과는 지명의 지리적 분포는 물론 지역해석을 위한 정보를 제공해 줄 수 있을 것으로 기대된다.

  • PDF