• 제목/요약/키워드: 문자언어

검색결과 394건 처리시간 0.02초

A study on the segmentation and extraction of the pictures and characters in korean document (한글 문서 인식을 위한 문서 영상에서의 문자와 그림의 분리 추출)

  • Lee, In-Dong;Ho, Kang-Tae;Kwon, Oh-Seok;Kim, Tae-Kyun
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.50-53
    • /
    • 1989
  • 한글 문서를 인식하기 위하여 문서 영상에서 문자와 그림을 분리 추출하기 위한 방법에 대하여 논하였다. 분리 추출 방법으로는 실시간으로 입력되는 영상 데이타로부터 문자와 그림 의 경계 위치를 알아내는 방법을 사용하였다. 한글, 영문, 한자, 기호 등의 문자와 그림이 혼합된 A4 크기의 문서 영상을 300 DPI의 해상도로 입력받아 실험하였다. 단 한번의 주사만으로 모든 문자와 그림이 정보 gm름의 순서에 따라 분리 추출되었다. 실험 결과 본 방법은 최소한의 시간과 최소한의 기억 용량으로 완벽한 분리 추출이 가능함을 보였다.

  • PDF

Printed Korean Characters Recognition Using Neural Networks Based on Feature Extraction (피쳐 추출에 기반을 둔 신경회로망을 이용한 인쇄체 한글 문자 인식)

  • Kim, Woo-Tae;Yoon, Byung-Sik;Chien, Sung-Il
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.287-299
    • /
    • 1991
  • 본 논문은 하드웨어 구현이 가능한 신경 회로망을 구성하여 한글 문자 인식을 수행하였다. 먼저 입력 장치로부터 받아들인 문자 영상은 인식 속도를 높히기 위하여 특별한 전처리 과정 없이 직접 피쳐를 추출하였으며 추출한 피쳐로는 하드웨어 구현이 용이한 교차 피쳐와 투영 피쳐를 이진화로 코딩하였다. 신경 회로망의 하드웨어 구현을 가능하게 하기위해서 정수형 연결 강도와 비선형 Hard-limit 함수를 가지고 학습을 하는 Rounding 학습 방법을 도입하여 학습시켰으며 한글의 구조적 특성을 이용하여 한글을 유형별로 Module화 및 Submodule화 작업을 수행한 다음 인식하는 계층적인 문자 인식 시스템을 구성하였다. 그리고 이러한 방법을 이용하여 한글 문자 인식용 CMOS 신경회로망 Chip을 설계하였다.

  • PDF

Design and Implementation of Hangul Document Recognition System by Stroke Extraction (획 추출에 의한 한글 문서 인식 시스템의 설계 및 구현)

  • Lee, Kwan-Yong;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.200-207
    • /
    • 1990
  • 본 논문은 다양한 활자체 및 크기의 한글 문자 영상에서의 정보량 및 엔트로피의 분포에 관한 연구이다. 12 종류의 서로 다른 활자체 및 크기의 한글 문자 영상이 실험에 사용되었으며, 사용 빈도수가 높은 520 자의 한글 문자 영상에 대하여 정보량과 엔트로피를 측정하였다. 실험 결과의 분석을 통하여 정보량과 엔트로피의 측정치는 문자의 구조적 형태에 따라 변하지만 활자체에는 무관하며, 대부분의 정보량이 문자의 가장자리 부분에 위치함을 알 수 있었다.

  • PDF

Korean Word Search App Using Meta-characters (메타문자를 사용한 한국어 사전 탐색 앱)

  • Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-113
    • /
    • 2011
  • 스마트 폰의 보급이 대중화됨에 따라 다양한 앱들이 사용되고 있으나 효율적인 사전 탐색에 관한 앱은 그다지 많지 않다. 현재 공개된 한국어 사전 탐색 앱은 완전한 단어이거나 단어의 부분 문자열을 질의로 사용한다. 이 경우 완전한 단어를 기억하지 못하거나 한국어 정보처리를 위한 여러 형태의 음운 정보를 쉽게 탐색할 수 없다. 이러한 문제를 개선하기 위해 본 논문에서는 메타문자를 사용하여 효율적으로 단어를 탐색할 수 있는 앱을 개발한다. 본 논문에서 사용하는 메타문자는 임의의 음절을 표현하는 '*'와 '?'과 종성을 표현하는 ':'를 사용하며 사전구조는 자소 단위의 트라이를 사용한다. 또한 음절은 물론이고 자소(초성, 중성, 종성)로 구성된 질의를 탐색할 수 있다. 더구나 음절과 자소가 혼합된 질의도 사용할 수 있도록 하여 사용자의 편의를 크게 도모하였다.

  • PDF

Adaptive SEJONG-NET (적응 학습 능력을 가진 SEJONG-NET)

  • Park, Hye-Young;Lee, Yill-Byung
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-168
    • /
    • 1995
  • SEJONG-NET은 시각 문자패턴의 인식 과정을 설명 할 수 있는 적절한 패러다임을 제공하기 위해 척추동물의 시신경계 구조와 기능을 모방하여 만든 문자인식 모형이다. 초기에는 온라인 한글 인식을 위하여 설계되었으며, 이후 다양한 문자 집합이나 오프라인 한글 문자를 위한 모뎀들이 개발되었다. 현재까지 개발된 여러 SEJONG-NET 모델이 가지고 있는 문제점은 정직성이라고 할 수 있다. 즉, 설계 초기에 고려한 인식 대상 문자 집합과 문자 패턴에 대해서만 인식이 가능하고, 변형된 패턴을 기존의 패턴으로 근사화하여 해석하거나 새로운 패턴에 대하여 그것을 추가 학습하는 것이 불가능하다. 따라서 본 논문은 SEJONG-NET의 이러한 제약점을 해결하여 한글 인식 문제에 일반적으로 적용될 수 있도록 개선하는 것을 목적으로 한다. 이를 위해 상위층에서는 인간이 가지고 있는 문자에 대한 구조적인 지식을 표현하고 학습을 통해 추가적으로 습득할 수 있는 형태로 구현하였고, 하위층에서는 상위층에서 쓰이는 구조적인 지식을 표현하는데 적합한 특징을 추출해 낼 수 있도록 구현하였다. 특히 하위층에서는 인간의 초기 시각 피질에서 감지되는 특징들을 추출하도록 구현하여 사용되는 특징이 일반성을 가질 수 있도록 하였다. 이러한 방법을 기반으로 하여 본 논문에서는 변형된 패턴에 대한 적응 학습 능력을 가지며 인지과학적인 사실에 보다 충실하도록 개선된, 온라인 한글 인식을 위한 SEJONG-NET 모델을 제안한다.

  • PDF

Phoneme Extraction from Freely Hand Written Han Gul (자유 필기체 한글에서의 자모 추출)

  • Oh, Weon-Geun;Shin, Young-Geon;Ahn, Young-Kyung
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.142-147
    • /
    • 1989
  • 필기체 문자는 인쇄체 문자와는 달리, 복잡한 변형이 따르므로, 인식 하는데 많은 문제점이 따른다. 그렇기 때문에 일반적인 필기체 인식에 있어서는 필기 자체에 대한 제한을 두어 변형을 적게한 문자를 인식 대상으로 삼고 있다. 이러한 문자는, 설정된 조건만 확실하게 만족한다면, 비교적 간단하게 인식 할 수 있다. 반면에, 자유 필기체 문자는, 제한 필기체 문자와는 달리 변형이 크기 때문에, 그 인식에는 많은 연구가 필요하다. 본 연구에서는, 자유 필기체 한글의 자모를 추출하는데 있어 두개의 parameter space method를 이용했다. 화상내에서의 혼합은, 기본적으로 5 개의 element ($\mid,\;\setminus,\;/,\;-,\;o$)로 구성되어 있고, 이 element를 정의하는데는 최소한 4 개의 parameter, 즉 element의 위치 [x, y], 크기 [1] 및 type [T] 등이 필요하다. 입력 화상에서 추출된 직선 및 원의 성분은 [x, y, l] 과 [x, y, T]의 2 개의 3-D parameter space 에 누적되고, parameter space 상에서의 병합 분할 과정을 거쳐, element 가 형성된다. 추출된 element 들은, parameter space 상에서의 방향성 및 상호 위치 관계에 의한 조합 형태로서, 미리 기술되어진 자모 모델과 비교되어 인식된다. 본 방법의 특정은, 문자의 크기에 무관하고, 해석방법에 의해서는, 끊어진 element나 불필요한 element 등의 왜곡된 element 들의 처리가 가능한 점, 4 차원 parameter space를 두개의 3 차원 parameter space로 분리, 처리시간과 기억용량의 절약을 기한점 등을 들 수 있다.

  • PDF

Comparative Analysis of Written Language and Colloquial Language for Information Communication of Multi-Modal Interface Environment (다중 인터페이스 환경에서의 문자언어와 음성언어의 차이에 관한 비교 연구)

  • Choi, In-Hwan;Lee, Kun-Pyo
    • Archives of design research
    • /
    • 제19권2호
    • /
    • pp.91-98
    • /
    • 2006
  • The product convergence and complex application environment raise the need of multi-modal interface which enables us to interact products through various human senses. The sense of vision has been used predominantly more than any other senses for the traditional and general information gathering situation, but in the future which will be developed based on the digital network technology, the practical use of the various senses will be desired for more convenient and rational usage of the information appliances. The sense of auditory which possibility of practical use is becoming higher than ever with the sense of vision, the possible usage will be developed broader and in the various ways in the future. Based on this situation, the characteristics of the written language and the colloquial language and the comparative analysis of the difference between male and female's reaction for each language were examined through this study. To achieve this purpose, the literature research about the diverse components of the language system was peformed. Then, some peculiar characters of the sense of vision and auditory were reviewed and the appropriate experimentation was planned and carried out. The result of the accomplished experimentation was examined by the objective analysis method. The main results of this study are as follows: first, the reaction time for written language is shorter than colloquial language, second, there is a partial difference between the male's and female's reaction for those two stimuli, third, there is no selection bias between the sense of sight and the sense of hearing. I think the continuous development of the broad and diverse ways of study for various senses is needed based on this study.

  • PDF

Users' perception on fonts as a tool of communication and SMS (커뮤니케이션 도구로써의 글꼴 및 휴대폰 문자 메시지에 대한 사용자 인식)

  • Koh, Ye-Won;Sohn, Eun-Mi;Lee, Hyun-Ju
    • Archives of design research
    • /
    • 제20권1호
    • /
    • pp.133-142
    • /
    • 2007
  • Unlike face-to-face communication, text-based communication by digital media has limitations that non-verbal elements are eliminated and social presence decrease. To overcome this problem, people try to find solutions which visualize emotion and situation by using emoticons, icons, computer language and so on. As most SMS users experience the failure of using emotions on the mobile phone, they need to make up for this point. In this study, we conducted research on the recent mobile fonts situations and surveyed users' perception on SMS fonts as to suggest solutions of expressing and visualizing emotions on the mobile phone, a representative media of personal communication. As a solution of reducing the failure, we conducted a survey on users' perception about fonts and the capability of the expressing emotions by fonts. The survey found that mobile fonts can be used as a method to express human emotion. As a finding, the shape of the font can be used as a method to visualize the emotion through text messaging. In future studies, such a method can be applied to variety of different personal media with the communication method based on text. Those studies can propose different usage for fonts in communication.

  • PDF

A Study on the Automatic Lexical Acquisition for Multi-lingustic Speech Recognition (다국어 음성 인식을 위한 자동 어휘모델의 생성에 대한 연구)

  • 지원우;윤춘덕;김우성;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권6호
    • /
    • pp.434-442
    • /
    • 2003
  • Software internationalization, the process of making software easier to localize for specific languages, has deep implications when applied to speech technology, where the goal of the task lies in the very essence of the particular language. A greatdeal of work and fine-tuning has gone into language processing software based on ASCII or a single language, say English, thus making a port to different languages difficult. The inherent identity of a language manifests itself in its lexicon, where its character set, phoneme set, pronunciation rules are revealed. We propose a decomposition of the lexicon building process, into four discrete and sequential steps. For preprocessing to build a lexical model, we translate from specific language code to unicode. (step 1) Transliterating code points from Unicode. (step 2) Phonetically standardizing rules. (step 3) Implementing grapheme to phoneme rules. (step 4) Implementing phonological processes.