• Title/Summary/Keyword: 문자 분류

Search Result 351, Processing Time 0.026 seconds

The Geometric Layout Analysis of the Document Image Using Connected Components Method and Median Filter (연결요소 방법과 메디안 필터를 이용한 문서영상 기하학적 구조분석)

  • Jang, Dae-Geun;Hwang, Chan-Sik
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.27 no.8A
    • /
    • pp.805-813
    • /
    • 2002
  • Document image should be classified into detailed regions as text, picture, table and etc through the geometric layout analysis if paper documents can be converted automatically into electronic documents. However, complexity of the document layout and variety of the size and density of a picture are the reason to make it difficult to analyze the geometric layout of the document images. In this paper, we propose the method which have a better performance of the region segmentation and classifications, and the line extraction in the table region than the commercial softwares and previous methods. The proposed method can segment the document into detailed regions by using connected components method even if its layout is complex. This method also classifies texts and pictures by using separable median filter even. Though their size and density are diverse, In addition, this method extracts the lines from the table adapting one dimensional median filter to the each horizontal and vertical direction, even though lines are deformed or texts attached to them.

An implementation of the mixed type character recognition system using combNET (CombNET 신경망을 이용한 혼용 문서 인식 시스템의 구현)

  • 최재혁;손영우;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.21 no.12
    • /
    • pp.3265-3276
    • /
    • 1996
  • The studies of document recongnition have been focused mainly on Korean documents. But most of documents composed of Korean and other characters. So, in this paper, we propose the document recognition system that can recognize the multi-size, multi font and mixed type characters. We have utilized a large scale network model, "CombNET" which consists of a 4 layered network with combstructure. And we propose recognition method that can recognize characters without discrimination of character type. The first layer constitutes a Kohonen's SOFM network which quantizes an input feature vector space into several sub-spaces and the following 2-4 layers constitutes BP network modules which classify input data in each sub-space into specified catagories. An experimental result demonstrated the usefulness of this approach with the recognition rates of 95.6% for the training data. For the mixed type character documents we obtained the recognition rates of 92.6% and recognition speed of 10.3 characters per second.

  • PDF

Recognition of Passports using Enhanced Neural Networks and Photo Authentication (개선된 신경망과 사진 인증을 이용한 여권 인식)

  • Kim Kwang-Baek;Park Hyun-Jung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.5
    • /
    • pp.983-989
    • /
    • 2006
  • Current emigration and immigration control inspects passports by the naked eye, registers them by manual input, and compares them with items of database. In this paper, we propose the method to recognize information codes of passports. The proposed passport recognition method extracts character-rows of information codes by applying sobel operator, horizontal smearing, and contour tracking algorithm. The extracted letter-row regions is binarized. After a CDM mask is applied to them in order to recover the individual codes, the individual codes are extracted by applying vertical smearing. The recognizing of individual codes is performed by the RBF network whose hidden layer is applied by ART 2 algorithm and whose learning between the hidden layer and the output layer is applied by a generalized delta learning method. After a photo region is extracted from the reference of the starting point of the extracted character-rows of information codes, that region is verified by the information of luminance, edge, and hue. The verified photo region is certified by the classified features by the ART 2 algorithm. The comparing experiment with real passport images confirmed the good performance of the proposed method.

Research on text mining based malware analysis technology using string information (문자열 정보를 활용한 텍스트 마이닝 기반 악성코드 분석 기술 연구)

  • Ha, Ji-hee;Lee, Tae-jin
    • Journal of Internet Computing and Services
    • /
    • v.21 no.1
    • /
    • pp.45-55
    • /
    • 2020
  • Due to the development of information and communication technology, the number of new / variant malicious codes is increasing rapidly every year, and various types of malicious codes are spreading due to the development of Internet of things and cloud computing technology. In this paper, we propose a malware analysis method based on string information that can be used regardless of operating system environment and represents library call information related to malicious behavior. Attackers can easily create malware using existing code or by using automated authoring tools, and the generated malware operates in a similar way to existing malware. Since most of the strings that can be extracted from malicious code are composed of information closely related to malicious behavior, it is processed by weighting data features using text mining based method to extract them as effective features for malware analysis. Based on the processed data, a model is constructed using various machine learning algorithms to perform experiments on detection of malicious status and classification of malicious groups. Data has been compared and verified against all files used on Windows and Linux operating systems. The accuracy of malicious detection is about 93.5%, the accuracy of group classification is about 90%. The proposed technique has a wide range of applications because it is relatively simple, fast, and operating system independent as a single model because it is not necessary to build a model for each group when classifying malicious groups. In addition, since the string information is extracted through static analysis, it can be processed faster than the analysis method that directly executes the code.

A research on attentive gaze by physiological signal (생리신호에 의한 시선 집중도 추출에 대한 연구)

  • Kim, Jong-Hwa;Hwang, Min-Cheol;Park, Gang-Ryeong;Lee, Ui-Cheol;U, Jin-Cheol;Kim, Chi-Jung;Kim, Yong-U;Kim, Ji-Hye
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2009.11a
    • /
    • pp.160-163
    • /
    • 2009
  • 본 연구는 생리신호에 의한 집중된 시선과 집중하지 않는 시선을 분류하고자 한다. 이를 검증하기 위해 시각적으로 높은 집중과 낮은 집중을 요구하는 두가지 과제를 피실험자에게 제시하고 PPG(Photoplethysmogram), GSR(Galvanic Skin Response) 그리고 SKT(Skin Temperature)센서를 사용한 자율신경계 반응과 시선 움직임을 측정하였다. 과제는 $3{\times}3$으로 화면 구역을 나누고 각 구역에 문자를 제시하고 역방향 문자를 찾도록 하였다. 실험에는 20 명의 대학생이 참여하였으며, 1 번의 실험에 12 종류의 다른 문자배열을 제시 받았으며 1 번의 연습을 포함하여 총 5 회 실시후 데이터를 분석하였다. 높은 집중일 경우와 낮은 집중일 경우를 T-test 분석 결과, 자율신경계에서는 높은 집중일 경우 PPG 주파수가 증가하고 GSR과 SKT는 감소한 결과를 보였다. 따라서 시선의 집중도에 따라 다른 자율신경계 반응과 시선반응을 보이는 것을 확인하였다.

  • PDF

The characteristics of scene direction in Wordless Comics (무언만화 장면 연출의 특징)

  • Si, sun-jin;Lee, tae-gu
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.107-108
    • /
    • 2011
  • 일반적으로 문자가 있는 스토리만화는 이미지와 대사, 의성어, 의태어 등으로 상황과 이야기를 전달한다. 문자가 없이 그림과 효과선 감정기호와 같은 이미지 만으로 구성 되어지는 형식은 무언만화로 분류 되어진다. 스토리만화와 무언만화는 위의 형식적인 특징 이외에 장면 연출에 있어서도 차이가 매우 크다. 문자가 있는 스토리만화에서는 등장하는 캐릭터의 액션이나 대사와 함께 내레이션이 추가적으로 서술되어 지면서 장면전환이 이루어지고 있지만, 무언 만화에서는 오직 이미지 만으로 장면전환이 이루어지고 있다. 이에 본 연구는 '무언만화'로써 대표되는 마사시 타나카의 작품 <곤>과 J.C.므늬의 작품 <산란주의>를 중심으로 장면전환 시에 반복적으로 나타나는 무언만화 만의 연출적인 특징과 이미지가 가지는 '언어적 성격'에 대해 분석하였다.

  • PDF

Text Transliteration System and Number Transliteration Disambiguation for TTS (음성합성을 위한 텍스트 음역 시스템과 숫자 음역 모호성 처리)

  • Park, Jeong Yeon;Shin, Hyeong Jin;Yuk, Dae Bum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.449-452
    • /
    • 2018
  • TTS(Text-to-Speech)는 문자열을 입력받아 그 문자열을 음성으로 변환하는 음성합성 기술이다. 그러나 실제 입력되는 문장에는 한글뿐만 아니라 영단어 및 숫자 등이 혼합되어 있다. 영단어는 대소문자에 따라 다르게 읽을 수 있으며, 단위로 사용될 때는 약어로 사용되는 것이므로, 알파벳 단위로 읽어서는 안 된다. 숫자 또한 함께 사용되는 단어에 따라 읽는 방식이 달라진다. 본 논문에서는 한글과 숫자 및 단위, 영단어가 혼합된 문장을 분류하고 이를 음역하는 시스템을 구성하며 word vector를 이용한 숫자 및 단위의 모호성 해소방법을 소개한다.

  • PDF

Image Ehancement in the Pre-processing of a Character Recognition (문자인식의 전처리과정에서 영상향상)

  • Shin, Choong-Ho;Lee, Jong-Eun;Kim, Dan-Hwan;Kim, Hyeng-Gyun;Kim, Jae-Seog;Oh, Moo-Song
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.139-142
    • /
    • 2001
  • 컴퓨터 이미지처리는 여러 분야에서 응용되고 있는데 어떤 특성을 만족하는 객체들의 계수를 자동으로 분류시키는 생물학분야, 편지봉투나 일반양식에 인쇄되어 있는 글자를 자동으로 검출하고 인식하며 초음파검사 혹은 X-Ray 촬영에서 이미지를 획득하여 향상시키는 의료분야, 지문 및 얼굴인식 등에 이용되고 있다. 최근 몇 년 동안 이미지인식, 형태론, 이미지데이터 압축에 관한 연구가 진전되면서 본 연구에서 형태론적인 기법을 사용하여 문자인식을 위한 전처리 혹은 후처리 단계에서 사용되는 이미지향상을 위해서 침식, 골격화의 2단계를 적용하여 기종의 연구 방법과 비교하여 이미지획득 시간을 줄이고 이미지를 향상시켜 문자를 인식하는 알고리즘을 제안한다.

  • PDF

Handwritten Korean Word Recognition for Address Recognition (주소 인식 시스템을 위한 필기 한글 단어 인식)

  • 권진욱;이관용;변혜란;이일병
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1997.11a
    • /
    • pp.201-204
    • /
    • 1997
  • 최근 주소를 자동으로 인식하여 우편물 분류와 같은 업무를 효과적으로 수행하기 위한 연구가 진행되고 있다. 기존 연구들은 낱자 단위의 인식을 수행한 후 사전 형태의 간단한 DB를 통해 최종의 결과를 생성한다. 그러나 한글과 같은 복잡한 구조의 필기 문자에 대한 인식기의 성능은 아직도 미흡한 상태이다. 따라서 낱자 인식기의 성능에 의존하는 현재와 같은 방법으로는 만족할 만한 결과를 얻기가 힘들 것으로 생각된다. 본 논문에서는 낱자 인식 결과에 크게 의존하지 않고 주소에 나타나는 단어의 낱자들 사이간 연결 정보를 이용하여 단어를 인식할 수 있는 시스템을 제안한다. 본 시스템은 통계적 인식기를 사용하여 낱자를 인식하는 부분과 낱자 인식 결과를 조합하여 단어 수준의 인식과정을 통해 최종의 결과를 생성하는 부분으로 구성된다. 통계적 인식기는 Nearest neighborhood 방법을 사용하여 간단한 형태로 구현하였다. 단어인식 모듈은 단어에서 모든 문자간의 관계를 표현할 수 있도록 HMM 모형을 사용하여 어휘정보 네트워크를 구성하고 이를 이용하여 주소에 나타나는 단어를 인식하도록 하였다. PE92 한글 문자 데이터를 이용하여 실험을 수 璿\ulcorner 결과, 통계적 인식기의 성능이 저조함에도 불구하고 HMM을 이용한 어휘정보 네트워크가 이를 보완함으로써 좋은 결과를 얻었다. 이러한 단어 인식 방법을 주소 이외의 다른 단어 집합에 대해서도 쉽게 적용될 수 있을 것으로 예상된다.

  • PDF

A Stroke Matching Method for the Off-line Recognition of Handprinted Hanguls (필기체 한글의 오프라인 인식을 위한 획 정합 방법)

  • Kim, Ki-Cheol;Lee, Seong-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.225-235
    • /
    • 1992
  • 본 논문은 오프라인 필기체 한글 인식에 관한 연구로서, 입력 문자 영상에 대한 위치 정규화, 외곽선 추적 및 세선화의 전처리 과정을 거쳐 외곽선의 방향 성분 분포, 세선화한 결과의 방향 성분 분포, 구조적 특징점 분포 등의 특징을 추출한 다음, 획을 추출하여 획의 방향과 길이에 대한중점 분포 특징으로 정합하는 필기 한글의 인식을 위한 획 정합 방법을 제안하였다. 인식 시간의 단축을 위해 먼저 외곽선의 방향성분분포를 이용하여 대분류하였으며, 한글 사용 빈도수 상위 520자로 구성되는 필기 데이타에 대한 실험 결과, 평균 91%의 인식률과 평균 0.46초의 문자당 인식 시간을 보임으로써 제안된 획 정합 방법이 입력 문자의 잡영이나 획의 기울기에 대한 변형을 효과적으로 흡수할 수 있음을 알 수 있었다.

  • PDF