• 제목/요약/키워드: Hangeul Information Processing

검색결과 22건 처리시간 0.023초

효율적인 한글 코드화에 관한 연구 (A Study on an Efficient Coding of Hangeul)

  • 김경태;민용식
    • 한국통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.633-641
    • /
    • 1989
  • 본 논문은 한글의 특성을 3상태 변환 그래프를 이용하여 경제적으로 코드화하는 방법을 제시한 것이다. 이 방법을 사용하면, 한글을 표시하는데 코드의 평균 길이는 자모당 약 204비트 정도가 필요하게 되는데 이것은 다른 방법에서 제시된 것보다 약 1비트이상 축약된 것이다. 따라서 정뵤교환이 필수 조건인 정확성 간결성 신속성 경제성을 향상시킬 수가 있게 된다.

  • PDF

한글문헌의 자동색인에 관한 실험적 연구 (An Experimental Study on Automatic Indexing for Hangeul Text)

  • 안현수
    • 정보관리학회지
    • /
    • 제3권2호
    • /
    • pp.109-128
    • /
    • 1986
  • 각종 정보 생산량이 날로 증가하고 이를 정보에 대한 이용자 등의 요구 또한 매우 다양해졌기 때문에 수작업 색인에 비해 더욱 신속하고 효율적인 자동 색인의 필요성이 대두 되었다. 본 논문은 한글 문헌에서 체언이 주요어가 될 수 있으며, 체언 다음에는 조사가 온다는 가정하에, 실험 데이터로 선정된 국내 전산화 분야 논문의 표제와 초록에서 형태소 분석 과정을 통하여 색인어들을 추출하였다.

  • PDF

초성자소분리 인식에 의한 필기 한글문자의 대분류에 관한 연구 (A Study on the Pre-Classification of Handwritten Hangeul Characters Using Partial Separation and Recognition of Initial Consonants)

  • 안석출;김명기
    • 한국인쇄학회지
    • /
    • 제6권1호
    • /
    • pp.41-57
    • /
    • 1988
  • Recently, it Is required to develop OCR(Optical Character Reader) along with the progress of the information processing system for Hangeul. Characters have to be recognized clearly so that OCR can be applied, Structure analysis method and lump method are used for the recognition of characters, and OCR is now available for the recognition of printed characters and handwritten alphanumeric characters having simple structure by them However, It is known that there should be much more study on the development of handwritten Hangout's OCR. This paper proposed a new method for the handwritten Hangout character recognition. The units of Initial consonant of Hangout are separated and then recognized from the utilization of the position- Information of Hangeul's units from the normalized patterns using the regression line theory. It is carried out for the extraction of the block which exists in the virtual Initial consonant region from the normalized input patterns and the calculation on maximum value (${\beta}$) of likelihood after comparing the features of separated subpattern with the initial consonant dictionary.

  • PDF

북한 한글 순서를 지원하는 EUC-KR 기반의 로캘과 응용 프로그램 개발 (Development of EUC-KR based Locale and Application Program Supporting North Korean Collating Sequence)

  • 정일동;이중화;김용호;김경석
    • 정보처리학회논문지B
    • /
    • 제11B권7호
    • /
    • pp.875-884
    • /
    • 2004
  • UCS(=ISO/BC 10646, =Unicode)는 국제화에 따라 앞으로 점점 더 많이 쓰게 될 것이고, 일단 정착되고 나면 한참 동안 쓸 것으로 예상하고 있다. 하지만, UCS로는 남한과 북한의 같은 글자를 쓰면서도 다른 사전 순서로 쓰는 상황을 해결할 수 없다. 국제 표준 ISO/IEC 14651:2000(International String Ordering)은 여러 나라 글자계(script)가 섞여 있을 때, 모든 글자의 차례를 정하고 간추리는 틀에 관한 표준이다. ISO/IEC 14651을 이용하면 간추리는 차례가 공통 틀 표(Common Template Table)에 들어 있기 때문에 글자의 간추리는 차례를 쉽게 바꿀 수 있으며, 남한과 북한의 가나다 차례를 통일하지 않고 글자 순서가 다른 문제를 해결할 수 있다. ISO/IEC 14651 관련 함수는 리눅스와 솔라리스, FreeBSD와 같은 유닉스 기반 운영체제의 최신 라이브러리에 포함되어 있다. 본 논문에서는 북쪽의 한글 가나다 차례를 남쪽에서 활용할 수 있도록 하기 위해서 북쪽의 한글 가나다 차례를 포함하는 북쪽 로캘을 리눅스 시스템에서 만들고, 입력된 문자열(=글자떼)을 남쪽 혹은 북쪽의 한글 가나다 차례에 따라 간추리기 할 수 있는 프로그램을 개발하였다.

한국어 정보원의 구조분석과 Code의 개선 (Some Structural Analysis of HAN GEUL Information Source and its Application to the Improved Coding Methed)

  • 이주근;박종욱;김창선
    • 대한전자공학회논문지
    • /
    • 제15권2호
    • /
    • pp.1-7
    • /
    • 1978
  • 이 논문은 한국어 정보원의 구조를 분석하고 기본문자의 출현확율에 따른 KS몰스코오드를 재구성하여 전송속도및 효율을 14%이상 향상시키고 또 앞서 일부 제안된 바 있는 △parameter의 효과와 그것에 의한 한글의 단음절의 자동 식별방법 및 코오드의 개선및 data entry의 합리화에 미치는 영향에 대해서 기술하였다. 아울러 단음절의 자동식별은 13∼16%의 효율을 향상시킨다는 것도 명백히 하였다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

Fuzzy 推論을 이용한 온라인 筆記體 한글문자 認識에 관한 연구 (A Study on an On-Line Handwritten Hangeul Character Recognition Using Fuzzy Inference)

  • 최용엽;최갑석
    • 대한전자공학회논문지
    • /
    • 제27권11호
    • /
    • pp.103-110
    • /
    • 1990
  • 本 論文에서는 퍼지推論을 利用한 온라인 筆記體 한글文字의 認識에 관하여 硏究하였다. 筆記者 마다의 筆體變動으로 인한 애매성을 解決하기 위해, 각 스트로크間의 相對位置情報마다 作成되는 生成 을 퍼지推論에 適用하여 筆記體 한글을 認識하였다. 處理시간을 短縮하기 위하여, 入力文字의 스트로크 數에 따라 미리 分類한 基準文字의 小群을 선택하였고, 이 小群의 文字들과 入力文字와의 거리에 許容限果를 주어 基準文字들을 감소시켜 퍼지推論에 적용하였다. 10人으로부터 수집된 39990字의 筆記體 한글文字에 대하여 實驗한 結果, $99.5{\%}$의 認識과 0.4초/文字의 平均處理 速度를 얻었다.

  • PDF

음성처리를 위한 표준 발음법의 전산화 (Computerization and Application of Hangeul Standard Pronunciation Rule)

  • 이계영
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1363-1366
    • /
    • 2003
  • This paper introduces computerized version of Hangout(Korean Language) Standard Pronunciation Rule that can be used in Korean processing systems such as Korean voice synthesis system and Korean voice recognition system. For this purpose, we build Petri net models for each items of the Standard Pronunciation Rule, and then integrate them into the vocal sound conversion table. The reversion of Hangul Standard Pronunciation Rule regulates the way of matching vocal sounds into grammatically correct written characters. This paper presents not only the vocal sound conversion table but also character conversion table obtained by reversely converting the vocal sound conversion table. Making use of these tables, we have implemented a Hangeul character into a vocal sound system and a Korean vocal sound into character conversion system, and tested them with various data sets reflecting all the items of the Standard Pronunciation Rule to verify the soundness and completeness of our tables. The test results shows that the tables improves the process speed in addition to the soundness and completeness.

  • PDF

한글 Pattern에서 Subpattern분리와 인식에 관한 연구 (A study on the Partial Separation for Subpatterns and Recognition of the Hangeul Patterns)

  • 이주근;남궁재찬;김영건
    • 대한전자공학회논문지
    • /
    • 제18권3호
    • /
    • pp.1-8
    • /
    • 1981
  • In this paper, the recognition method of Hangout patterns with the partial separation for the subpatterns is proposed. First, Hangout patterns are formalized into six formal patterns and their surface structures are discriminated. Second, two to four subpatterns from one form pattern are separated by the new algorithm combined with Index mark and Window. Hangout patterns are recognized with only frontiers of the tree by defining the regular U-tree grammar for the separated subpatterns. Compared with the previous tree grammar , this grammar reduces the production rules to 1/3 and simplifies automaton processing and has more flexiblity. By the simulation result for 1,600 characters of Hangeul patterns, separation rate of subpatterns (24 or 44) is obtained 99.1% and recognition rate is obtained 100 %.

  • PDF

계층적 신경회로망을 이용한 한글 패턴 분류에 관한 연구 (A Study on the Classification of Hangeul Patterns Using Hierarchical Neural Network)

  • 김도현;이병모;차의영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.569-572
    • /
    • 2002
  • 한글을 인식하기 위한 전처리 방법으로 흔히 모음의 종류 및 자음과의 결합 정도에 따라 6가지 유형으로 분류하는 방법을 많이 사용하고 있다. 간 논문에서는 이러한 한글 문자를 인식하기 위한 전처리 과정으로써 한글의 유형을 분류하는 방법에 대한 연구로 계층적인 신경회로망을 도입하여 빠르고 신뢰성 있는 분류 방법을 제안한다. 실험에 사용된 글자는 KS X 1001(KS C 5601) 완성형 글자 2,350개에 대한 굴림, 바탕, 돋움, 궁서 글꼴로 총 9400개의 이미지 파일을 사용하였으며. 이 중 일부는 훈련에 사용하고 나머지는 분류를 위한 테스트 데이터로 사용한 결과 약 94%의 유형 분류율과 개별 패턴을 5.67ms에 분류하는 빠른 분류 속도를 나타내었다.

  • PDF