• Title/Summary/Keyword: 영어 문자

Search Result 78, Processing Time 0.033 seconds

A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition (오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구)

  • Lee, Byeong-Hui;Kim, Tae-Gyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.1
    • /
    • pp.184-194
    • /
    • 1997
  • In the recent years number of commercial off-line character recognition systems have been appeared in the Korean market. This paper describes a "self -organizing" data structure for representing a large dictionary which can be searched in real time and uses a practical amount of memory, and presents a study on the character correction for off-line printed sentence marks, Japanese, English, and Chinese character recognition. Self-organizing algorithm can be recommenced as particularly appropriate when we have reasons to suspect that the accessing probabilities for individual words will change with time and theme. The wrongly recognized characters generated by OCR systems are collected and analyzed Error types of English characters are reclassified and 0.5% errors are corrected using an English character confusion table with a self-organizing dictionary containing 25,145 English words. And also error types of Chinese characters are classified and 6.1% errors are corrected using a Chinese character confusion table with a self-organizing dictionary carrying 34,593 Chinese words.ese words.

  • PDF

A Recognition of the Printed Alphabet, the Number and the Symbols by Using Japanese Puzzle (Japanese Puzzle을 이용한 인쇄체 영문자, 숫자, 기호의 인식)

  • Sohn, Young-Sun;Kim, Bo-Sung
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.119-122
    • /
    • 2007
  • 지금까지의 연구에서 Japanese Puzzle을 이용한 인쇄체 영문자 인식을 구현하여 좋은 결과를 얻었고, 본 논문 에서는 인쇄체 영문자(바탕, 돋움) 인식을 확장시켜 영문장을 인식하기 위해 키보드에서 입력 가능한 숫자 및 기호를 포함하여 인식하는 시스템을 구현하였다. 이미지를 입력 받아 이진화 처리, 히스토그램 투영을 이용한 문자 분리는 영문자 인식에서와 동일한 처리를 한다. 기호 중에서 세로 길이보다 가로 길이가 긴 기호인 -,-,= 만 가로를 정규화 하였고, 나머지는 세로를 정규화 하였다. 정규화 된 문자에 Japanese Puzzle을 역으로 적용하여 구하여진 수치 정보로부터 영문자, 숫자, 기호를 분류 및 인식하여 좋은 결과를 얻었다.

  • PDF

Improving Korean Character Recognition Rate based on the Cell Clustering Information (셀들의 군집 정보를 이용한 한글 문자 인식률 향상 기법 연구)

  • Shin, Woojun;Ko, Yoonsik;Lim, Youngtaek;Yoon, Youngsu;Park, Heewan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.810-812
    • /
    • 2015
  • 문자인식 즉 OCR(Optical Character Recognition)기술은 광학적으로 인식할 수 있는 문자를 컴퓨터가 읽을 수 있도록 하는 기술을 뜻한다. 문자인식의 근간이 되는 방법은 스트링 매칭 기법이 사용되어 왔지만 한글의 경우 자음, 모음, 자음 조합으로 만 가지 유형이 넘고, 더욱이 상용한자와 영어를 섞어 쓰기 때문에 오인식되는 경우가 많다. 본 논문에서는 한글이 수직선, 수평선, 사선과 같이 방향성이 강한 선소들로 구성되어 있다는 점을 이용하여 한글의 인식률을 높이는 방법을 제안하였다.

A Study on the Inputting Method of English Pronunciation for a Computer by Constructing New Font Table (새로운 글자체 구성에 의한 영어 발음기호의 컴퓨터 입력 방법에 관한 연구)

  • Lee, Hyun-Chang
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.42 no.6
    • /
    • pp.11-18
    • /
    • 2005
  • In this paper, English pronunciation system and the methods of its notations which is used in the internet web sites or in electronic English dictionaries are analyzed and new font table and its key layout are presented to input it efficiently. By using this method, English pronunciation can be inputted to the spreadsheets, databases and presentations as well as word-processors, and each application program's data can have compatibility. Furthermore, it can have compatibility within another type of computers and increase inputting speed. In the result of experiments, every data can have the compatibility in all of application programs and inputting speed is increased highly compare with using the pre-existing functions of word-processors.

A Recognition of the Printed Alphabet by Using Nonogram Puzzle (노노그램 퍼즐을 이용한 인쇄체 영문자 인식)

  • Sohn, Young-Sun;Kim, Bo-Sung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.4
    • /
    • pp.451-455
    • /
    • 2008
  • In this paper we embody a system that recognizes the printed alphabet of two font types (Batang, Dodum) inputted by a black-and-white CCD camera and converts it into an editable text form. The image of the inputted printed sentences is binarized, then the rows of each sentence are separated through the vertical projection using the Histogram method, and the height of the characters are normalized to 48 pixels. With the reverse application of the basic principle of the Nonogram puzzle to the individual normalized character, the character is covered with the pixel-based squares, representing the characteristics of the character as the numerical information of the Nonogram puzzle in order to recognize the character through the comparison with the standard pattern information. The test of 2609 characters of font type Batang and 1475 characters of font type Dodum yielded a 100% recognition rate.

Construction of Linearly Aliened Corpus Using Unsupervised Learning (자율 학습을 이용한 선형 정렬 말뭉치 구축)

  • Lee, Kong-Joo;Kim, Jae-Hoon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.387-394
    • /
    • 2004
  • In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.

Perception of native Korean speakers on English and German $/\int/$ - in relation to loanword representation (한국인의 외국어 $/\int/$음에 대한 인지연구 - 외래어 표기와 관련하여 -)

  • Kang Hyunsook;Koo SoRyeong;Lee Sook-hyang
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.305-308
    • /
    • 2000
  • 본 논문에서는 한국어에 나타난 외래어 중에서 외국어(영어/독일어)의 $[\int]$음이 어떻게 인식되고 해석되었는지를 살펴보았다. 특히 본 논문에서는 $[\int]$음의 영어와 독일어 발음과 한국어의 대응되는 분절음이 일대일 대응을 이루고 있지 못하다는 것을 보이고 이런 대응관계를 설명하기 위해 어떤 정보가 필요한지에 대해 살펴보았다. 즉, 독일어와 영어에서 음절의 말음으로 쓰인$[\int]$음이 한국어에서는 [쉬/시]로 인식되는데 반해 본토어에서 $[\int]$음이 음절초음의 일부로 사용된 경우에는 한국어의 외래어에서 (슈)로 화자에게 인식되고 또 문자로 표현된다 따라서 본 논문에서는 음절초음의 일부로 나타나는 외국어의 $[\int]$음과 음절말음으로 나타나는 외국어 $[\int]$음의 음성학적 기호를 분석해보고 한국어에서 서로 다른 표면형을 형성하는 이유가 본토어의 (음절 초음/말음이라는) 음운론적 특성에 기인하는 것인지 혹은 현재까지 우리가 알고 있지 못했던 $[\int]$음의 발음 위치에 따른, 즉 동시조음(coarticulation) 현상 때문에 생긴 변이음 때문인지에 대한 규명을 시도하였다. 외국어 화자의 발성실험을 통해, 한국어에서 /쉬/로 인식되는 독일어와 영어의 $/\int/$음은 /슈/로 인식되는 $/\int/$음보다 마찰소음의 peak frequency가 높거나 지속시간이 길게 나타났다 이런 결과를 근거로 영어와 독일어의 $/\int/$ 음이 한국어의 /쉬/음과 /슈/음으로 구분될 때 사용되는 음성자질은 크게 2가지, 즉 마찰소음의 peak frequency와 지속시간이며, 둘 중 한가지만 있어도 구분은 가능하나 이 2가지가 동시에 존재할 때 /쉬/음과 /슈/음의 구분이 현저히 용이해진다는 가설을 세워보았다.

  • PDF

Edit Distance Problem for the Korean Alphabet (한글에 대한 편집 거리 문제)

  • Roh, Kang-Ho;Kim, Jin-Wook;Kim, Eun-Sang;Park, Kun-Soo;Cho, Hwan-Gue
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.37 no.2
    • /
    • pp.103-109
    • /
    • 2010
  • The edit distance problem is finding the minimum number of edit operations to transform a string into another one. It is one of the important problems in algorithm research and there are some algorithms that compute an optimal edit distance for the one-dimensional languages such as the English alphabet. However, there are a few researches to find the edit distance for the more complicated language such as the Korean or Chinese alphabet. In this paper, we define the measure of the edit distance for the Korean alphabet and present an algorithm for the edit distance problem for the Korean alphabet.

Neural Network Handwriting Recognition Using Middle Point Algorithm (중간점 알고리즘을 이용한 신경회로망 필기체 패턴인식)

  • So, A-Ram;Shin, Byeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.394-397
    • /
    • 2007
  • 본 논문에서는 문자 인식의 특징 선별 방법으로 중간점 알고리즘을 이용하는 방법을 제안한다. 영상자료의 특징들로부터 중간점을 선별하고 심볼패턴을 이용하여 필기체 문자를 인식한다. 이 방법은 사전에 많은 심볼 패턴을 학습해야 하지만 한글과 영어의 높은 인식률을 보이고 있으며, 특히 복잡한 문자들의 경우 좋은 결과를 낸다. 여기서는 중간점 알고리즘으로 입력된 데이터를 심볼 패턴과 비교하고, 심볼 영역에 의해 최적 판별 기저를 탐색한 후, 그것을 특징으로 선택한다. 또한 사전 기능과 투명도 기능을 구현하여 필기체 인식을 이용한 여러 활용 방안을 제시한다.

  • PDF

Text extraction from camera based document image (카메라 기반 문서영상에서의 문자 추출)

  • 박희주;김진호
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.14-20
    • /
    • 2003
  • This paper presents a text extraction method of camera based document image. It is more difficult to recognize camera based document image in comparison with scanner based image because of segmentation problem due to variable lighting condition and versatile fonts. Both document binarization and character extraction are important processes to recognize camera based document image. After converting color image into grey level image, gray level normalization is used to extract character region independent of lighting condition and background image. Local adaptive binarization method is then used to extract character from the background after the removal of noise. In this character extraction step, the information of the horizontal and vertical projection and the connected components is used to extract character line, word region and character region. To evaluate the proposed method, we have experimented with documents mixed Hangul, English, symbols and digits of the ETRI database. An encouraging binarization and character extraction results have been obtained.

  • PDF