• 제목/요약/키워드: Handwritten Script

검색결과 12건 처리시간 0.016초

Fuzzy-Membership Based Writer Identification from Handwritten Devnagari Script

  • Kumar, Rajiv;Ravulakollu, Kiran Kumar;Bhat, Rajesh
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.893-913
    • /
    • 2017
  • The handwriting based person identification systems use their designer's perceived structural properties of handwriting as features. In this paper, we present a system that uses those structural properties as features that graphologists and expert handwriting analyzers use for determining the writer's personality traits and for making other assessments. The advantage of these features is that their definition is based on sound historical knowledge (i.e., the knowledge discovered by graphologists, psychiatrists, forensic experts, and experts of other domains in analyzing the relationships between handwritten stroke characteristics and the phenomena that imbeds individuality in stroke). Hence, each stroke characteristic reflects a personality trait. We have measured the effectiveness of these features on a subset of handwritten Devnagari and Latin script datasets from the Center for Pattern Analysis and Recognition (CPAR-2012), which were written by 100 people where each person wrote three samples of the Devnagari and Latin text that we have designed for our experiments. The experiment yielded 100% correct identification on the training set. However, we observed an 88% and 89% correct identification rate when we experimented with 200 training samples and 100 test samples on handwritten Devnagari and Latin text. By introducing the majority voting based rejection criteria, the identification accuracy increased to 97% on both script sets.

딥러닝에 의한 한글 필기체 교정 어플 구현 (An Implementation of Hangul Handwriting Correction Application Based on Deep Learning)

  • 이재형;조민영;김진수
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.13-22
    • /
    • 2024
  • 현재 디지털 기기의 확산과 함께 일상에서 손으로 쓰는 글씨의 비중은 점점 줄어들고 있다. 키보드와 터치스크린의 활용도 증가에 따라 한글 필기체의 품질 저하는 어린 학생부터 성인까지 넓은 범위의 한글 문서에서 관찰되고 있다. 그러나 한글 필기체는 여전히 개인적인 고유한 특징을 포함하면서 가독성을 제공하는 많은 문서 작성에 필요하다. 이를 위해 본 논문에서는 손으로 쓴 한글 필기체의 품질을 개선하고, 교정하기 위한 목적의 어플 구현을 목적으로 한다. 제안된 어플은 CRAFT(Character-Region Awareness For Text Detection) 모델을 사용하여 필기체 영역을 검출하고, 딥러닝으로서 VGG-Feature-Extraction 모델을 사용하여 필기체의 특징을 학습한다. 이때 사용자가 작성한 한글 필기체의 음절 단위로 신뢰도를 인식률로 제시하고, 또한, 후보 폰트들중에서 가장 유사한 글자체를 추천하도록 구현한다. 다양한 실험을 통해 제안한 어플은 기존의 상용화된 문자 인식 소프트웨어와 비교할만한 우수한 인식률을 제공함을 확인할 수 있다.

Matching Algorithm for Hangul Recognition Based on PDA

  • Kim Hyeong-Gyun;Choi Gwang-Mi
    • Journal of information and communication convergence engineering
    • /
    • 제2권3호
    • /
    • pp.161-166
    • /
    • 2004
  • Electronic Ink is a stored data in the form of the handwritten text or the script without converting it into ASCII by handwritten recognition on the pen-based computers and Personal Digital Assistants(PDA) for supporting natural and convenient data input. One of the most important issue is to search the electronic ink in order to use it. We proposed and implemented a script matching algorithm for the electronic ink. Proposed matching algorithm separated the input stroke into a set of primitive stroke using the curvature of the stroke curve. After determining the type of separated strokes, it produced a stroke feature vector. And then it calculated the distance between the stroke feature vector of input strokes and one of strokes in the database using the dynamic programming technique.

PDA상에서의 한글 필기체 매칭 알고리즘 (A Hangul Script Matching Algorithm for PDA)

  • 조미경;조환규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.684-693
    • /
    • 2002
  • 전자 잉크 데이터는 펜 기반 컴퓨터나 PDA(Personal Digital Assistants)등에서 자연스럽고 편리한 데이터 입력을 제공하기 위해 펜으로 입력한 데이터를 온라인 문자 인식기를 이용하여 아스키 문자로 변환하지 않고 스크립트 형태로 저장하는 데이터를 말한다. 전자 잉크 데이터를 사용하기 위해 가장 중요한 것 중 하나는 전자 잉크 데이터의 검색 문제이다. 본 연구에서는 전자 잉크 데이터를 획 특징 벡터 형태로 저장하고, 이를 이용해서 잉크 데이터를 검색하는 매칭 알고리즘을 제안하고 구현하였다. 제안된 매칭 알고리즘은 입력된 데이터를 곡률(curvature)을 이용하여 기본획(primitive stroke)으로 분리하고 기본획의 종류를 결정한 다음 획 특징 벡터를 생성한다. 그리고 동적 프로그래밍 기법에 의해 획 특징 벡터의 거리값을 계산한다. 제안된 매칭 알고리즘을 이용하여 다양한 실험을 하였으며 한글 스크립트로 구성된 경우 97.7%이상의 매칭률을 보여 주었고 한글 및 한자 흔합 스크립트에서는 94%이상의 매칭률을 보여 주였다.

Pocket PC기반의 효율적인 한글 정합 시스템 구현 (Implementation of an efficient Pocket PC- based Hangul Matching System)

  • 박종민;조범준
    • 한국정보통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1546-1552
    • /
    • 2004
  • 전자 잉크 데이터는 펜 기반 컴퓨터나 PDA(Personal Digital Assistants)둥에서 자연스럽고 편리한 데이터 입력을 제공하기 위해 펜으로 입력한 데이터를 온라인 문자 인식기를 이용하여 아스키 문자로 변환하지 않고 스크립트 형태로 저장하는 데이터를 말한다. 전자 잉크 데이터를 사용하기 위해 가장 중요한 것 중 하나는 전자 잉크 데이터의 검색 문제이다. 본 연구에서는 전자 잉크 데이터를 획 특징 벡터 형태로 저장하고, 이를 이용해서 잉크 데이터를 검색하는 정합 알고리즘을 제안하고 구현하였다. 제안된 정합 알고리즘은 입력된 데이터를 곡률을 이용하여 기본획으로 분리하고 기본획의 종류를 결정한 다음 획 특징 벡터를 생성한다. 그리고 동적 프로그래밍 기법에 의해 획 특징 벡터의 거리값을 계산한다.

Sub-word Based Offline Handwritten Farsi Word Recognition Using Recurrent Neural Network

  • Ghadikolaie, Mohammad Fazel Younessy;Kabir, Ehsanolah;Razzazi, Farbod
    • ETRI Journal
    • /
    • 제38권4호
    • /
    • pp.703-713
    • /
    • 2016
  • In this paper, we present a segmentation-based method for offline Farsi handwritten word recognition. Although most segmentation-based systems suffer from segmentation errors within the first stages of recognition, using the inherent features of the Farsi writing script, we have segmented the words into sub-words. Instead of using a single complex classifier with many (N) output classes, we have created N simple recurrent neural network classifiers, each having only true/false outputs with the ability to recognize sub-words. Through the extraction of the number of sub-words in each word, and labeling the position of each sub-word (beginning/middle/end), many of the sub-word classifiers can be pruned, and a few remaining sub-word classifiers can be evaluated during the sub-word recognition stage. The candidate sub-words are then joined together and the closest word from the lexicon is chosen. The proposed method was evaluated using the Iranshahr database, which consists of 17,000 samples of Iranian handwritten city names. The results show the high recognition accuracy of the proposed method.

A Comprehensive Approach for Tamil Handwritten Character Recognition with Feature Selection and Ensemble Learning

  • Manoj K;Iyapparaja M
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권6호
    • /
    • pp.1540-1561
    • /
    • 2024
  • This research proposes a novel approach for Tamil Handwritten Character Recognition (THCR) that combines feature selection and ensemble learning techniques. The Tamil script is complex and highly variable, requiring a robust and accurate recognition system. Feature selection is used to reduce dimensionality while preserving discriminative features, improving classification performance and reducing computational complexity. Several feature selection methods are compared, and individual classifiers (support vector machines, neural networks, and decision trees) are evaluated through extensive experiments. Ensemble learning techniques such as bagging, and boosting are employed to leverage the strengths of multiple classifiers and enhance recognition accuracy. The proposed approach is evaluated on the HP Labs Dataset, achieving an impressive 95.56% accuracy using an ensemble learning framework based on support vector machines. The dataset consists of 82,928 samples with 247 distinct classes, contributed by 500 participants from Tamil Nadu. It includes 40,000 characters with 500 user variations. The results surpass or rival existing methods, demonstrating the effectiveness of the approach. The research also offers insights for developing advanced recognition systems for other complex scripts. Future investigations could explore the integration of deep learning techniques and the extension of the proposed approach to other Indic scripts and languages, advancing the field of handwritten character recognition.

신경회로망을 이용한 제약 없이 쓰여진 필기체 문자열로부터 단어 분리 방법 (Segmentation of Words from the Lines of Unconstrained Handwritten Text using Neural Networks)

  • 김경환
    • 전자공학회논문지C
    • /
    • 제36C권7호
    • /
    • pp.27-35
    • /
    • 1999
  • 필기서술의 인식과 관련된 연구는 인식대상 영상이 바르게 분리된 인식단위를 포함한다는 전제로 진행되어 왔다. 그러나 실제적인 필기인식 시스템의 설계에 있어서, 다양한 필기방식으로 인해, 인식단위로의 분리가 선결되어야 할 문제이다. 본 논문에서는 제한없이 쓰여진 필기 문자열로부터 인식의 도움없이 독립된 단어를 분리하는 방법을 제안한다. 구성요소간 물리적인 거리에 의존하는 종래의 방법과 달리, 필기서술 자체로부터 필기자의 띄어쓰기와 관련된 특징들을 적극적으로 추출하고 이를 신경회로망을 사용하여 해석한다. 띄어쓰기와 관련된 정보는 문자 분리과정을 통해 분리된 문자 세그먼트의 높이와 세그먼트 중심선 사이의 간격들을 정규화하여 구한다. 연결요소간의 거리에 기반한 방법들과의 비교실험을 통해 제한한 방법의 유용성을 입증하였다.

  • PDF

Recognize Handwritten Urdu Script Using Kohenen Som Algorithm

  • Khan, Yunus;Nagar, Chetan
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.57-61
    • /
    • 2012
  • In this paper we use the Kohonen neural network based Self Organizing Map (SOM) algorithm for Urdu Character Recognition. Kohenen NN have more efficient in terms of performance as compare to other approaches. Classification is used to recognize hand written Urdu character. The number of possible unknown character is reducing by pre-classification with respect to subset of the total character set. So the proposed algorithm is attempt to group similar character. Members of pre-classified group are further analyzed using a statistical classifier for final recognition. A recognition rate of around 79.9% was achieved for the first choice and more than 98.5% for the top three choices. The result of this paper shows that the proposed Kohonen SOM algorithm yields promising output and feasible with other existing techniques.

A Methodology for Urdu Word Segmentation using Ligature and Word Probabilities

  • Khan, Yunus;Nagar, Chetan;Kaushal, Devendra S.
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.24-31
    • /
    • 2012
  • This paper introduce a technique for Word segmentation for the handwritten recognition of Urdu script. Word segmentation or word tokenization is a primary technique for understanding the sentences written in Urdu language. Several techniques are available for word segmentation in other languages but not much work has been done for word segmentation of Urdu Optical Character Recognition (OCR) System. A method is proposed for word segmentation in this paper. It finds the boundaries of words in a sequence of ligatures using probabilistic formulas, by utilizing the knowledge of collocation of ligatures and words in the corpus. The word identification rate using this technique is 97.10% with 66.63% unknown words identification rate.