• Title/Summary/Keyword: 문자 분류

Search Result 348, Processing Time 0.027 seconds

Video character recognition improvement by support vector machines and regularized discriminant analysis (서포트벡터머신과 정칙화판별함수를 이용한 비디오 문자인식의 분류 성능 개선)

  • Lim, Su-Yeol;Baek, Jang-Sun;Kim, Min-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • v.21 no.4
    • /
    • pp.689-697
    • /
    • 2010
  • In this study, we propose a new procedure for improving the character recognition of text area extracted from video images. The recognition of strings extracted from video, which are mixed with Hangul, English, numbers and special characters, etc., is more difficult than general character recognition because of various fonts and size, graphic forms of letters tilted image, disconnection, miscellaneous videos, tangency, characters of low definition, etc. We improved the recognition rate by taking commonly used letters and leaving out the barely used ones instead of recognizing all of the letters, and then using SVM and RDA character recognition methods. Our numerical results indicate that combining SVM and RDA performs better than other methods.

A Study on Type Classification and Recognition Using Structural Information in Character Pattern of HANGEUL Shape (한글 Shape 문자 Pattern에서의 구조적 정보를 이용한 형식분류와 인식 관한 연구)

  • 전종익;조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.2
    • /
    • pp.180-195
    • /
    • 1991
  • In this paper, we studied on new method of recognition using structural information to recognize character pattern in orginal shape of Hangeul. First, for the purpose of knowing location of character in input image. it processed Making block. Second, after we investigated. whether vertical vowel exited or not in character image accordingly the center of gravity of Hangeul. each character was classified into Type of Hangeul by searching location and length for horizontal vowel and short pole. Last, we processed it by means of template matching which calculate Uclid's distance on each Jaso in accordance to type classified. This paper made an experiment on 2350 characters and obtained 98.3% classifing rate and 95.2% recognizing rate.

  • PDF

A Study on an Efficient method of Word Decomposition from Document Images (문서 영상의 그림 영역에서 효과적인 단어 영상 추출에 관한 연구)

  • Jeong Chang-Bu;Kim Soo-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.689-692
    • /
    • 2006
  • 본 논문에서는 그림 영역에서 단어 영상을 효과적으로 추출하는 방법을 제안한다. 제안 방법은 문자 성분과 그래픽 성분을 분류하기 위하여 구성 원소들의 통계값을 이용하는 상자그림 분석을 응용하고, 분류된 문자 성분들에 대하여 지역적 밀집도를 분석하여 문자 영역을 추출한다. 추출된 문자 영역에서 문자열 및 단어 영상을 추출하는 방법은 투영 히스토그램 분석 등을 적용한다. 제안 방법은 임계치 대신에 그림 영역의 통계값을 이용하였기 때문에 그림의 형태 변화에 민감하지 않으며, 지역적 밀집도 분석으로 보다 정확한 문자 영역을 추출하였다.

  • PDF

DOT Classification Code Extraction through 3-Dimensional Features (3차원 특징을 이용한 DOT 분류 코드 추출)

  • 김재한;심재창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.394-396
    • /
    • 2001
  • 본 논문의 목적은 타이어에 각인되어 있는 DOT 코드 문자를 효과적으로 추출하는데 있다. 기존의 DOT 문자 인식 방법에서는 카메라와 조명에 의한 2차원 영상에서 DOT 문자 추출을 시도하였는데, 타이어는 DOT 문자와 배경이 동일한 색상이고, 조명에 민감해서 DOT 문자의 추출이 용이하지 않았다. 그래서, 본 논문에서는 타이어의 DOT 문자를 조명에 거의 영향을 받지 않는 3자원 레이저 스캐너를 이용해서 획득하고, 획득된 영상에서 높이 값 정보를 추출했으며 추출된 높이 값 정보를 가진 영상에 패턴 인식 기법을 적용하여 DOT 문자를 효과적으로 추출할 수 있었다.

  • PDF

A Sliding Window-based Multivariate Stream Data Classification (슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법)

  • Seo, Sung-Bo;Kang, Jae-Woo;Nam, Kwang-Woo;Ryu, Keun-Ho
    • Journal of KIISE:Databases
    • /
    • v.33 no.2
    • /
    • pp.163-174
    • /
    • 2006
  • In distributed wireless sensor network, it is difficult to transmit and analyze the entire stream data depending on limited networks, power and processor. Therefore it is suitable to use alternative stream data processing after classifying the continuous stream data. We propose a classification framework for continuous multivariate stream data. The proposed approach works in two steps. In the preprocessing step, it takes input as a sliding window of multivariate stream data and discretizes the data in the window into a string of symbols that characterize the signal changes. In the classification step, it uses a standard text classification algorithm to classify the discretized data in the window. We evaluated both supervised and unsupervised classification algorithms. For supervised, we tested Bayesian classifier and SVM, and for unsupervised, we tested Jaccard, TFIDF Jaro and Jaro Winkler. In our experiments, SVM and TFIDF outperformed other classification methods. In particular, we observed that classification accuracy is improved when the correlation of attributes is also considered along with the n-gram tokens of symbols.

A Study on the Hangeul confusion Character Recognition Using Fractal Dimensions and Attactors (프랙탈 차원과 어트랙트를 이용한 한글 혼동 문자 인식에 관한 연구)

  • Son, Yeong-U
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.7
    • /
    • pp.1825-1831
    • /
    • 1999
  • In this paper, to reduce misrecognized characters, we propose the new method that extract features from character to apply to the character recognition using features from character to apply to the character recognition using fractal dimensions and attractors. Firstly, to reduce the load of recognizer we classify the characters. For the classified character, we extract the features for Box-counting dimensions. Natural Measures, Information dimensions then recognize characters. With histogram, we generate attractors and calculate dimensions from attractors. Then we recognize characters with dimensions of characters and attractors. An experimental result that the overall recognition rates for the training data and testing data are 96.03% and 91.74% respectively. This result shows the effectiveness of proposed method.

  • PDF

Character Segmentation with Segmentation Cost in Optical Character Recognition (문자 인식에서 분할 비용에 따른 문자 분할 연구)

  • Jung Minchul
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.06a
    • /
    • pp.179-181
    • /
    • 2004
  • 인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

  • PDF

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning (딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법)

  • Ka-Hyeon Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

A Proposal of Motion Recognition-based Video Search System using Machine Learning (기계학습을 이용한 동작인식 동영상 검색시스템 제안)

  • Seo, Won-Seoung;Lee, Kang-Hee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.463-464
    • /
    • 2019
  • 본 논문은 기계학습을 기반으로 아두이노와 시리얼통신을 통한 사용자의 동작인식을 이용해 보다 간단하게 인터넷상의 원하는 동영상을 찾을 수 있는 검색시스템을 제작하고자 하였다. 이 검색시스템은 Python을 기반으로 SVM(Support Vector Machine)을 이용한 패턴 분류를 사용하였으며 이를 통해 사용자의 동작을 입력받아 문자를 예측 할 수 있다. 사용자는 이 검색시스템을 사용하기 위하여 우선 문자에 대한 사용자의 동작입력을 통해 학습 데이터 셋을 만들어야 하며 그것을 SVM을 이용하여 학습 모델과 식별자를 만들고, 만들어진 분류기를 통하여 동작인식을 바탕으로 문자의 결과를 예측 할 수 있다. 최종적으로 사용자의 동작인식을 거쳐 만들어진 문자열을 이용해 인터넷 동영상 사이트인 Youtube를 통해 웹 크롤링하여 문자열과 관련 있는 동영상을 찾아준다.

  • PDF

A Study of Malware Detection and Classification by Comparing Extracted Strings (문자열 비교 기법을 이용한 악성코드 탐지 및 분류 연구)

  • Lee, Jinkyung;Im, Chaetae;Jeong, Hyuncheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1245-1248
    • /
    • 2010
  • 최근 급격하게 증가하고 있는 악성코드에 비해 이들을 분석하기 위한 전문 인력은 매우 부족하다. 다행히 양산되는 악성코드의 대부분은 기존의 것을 수정한 변종이기 때문에 이들에 대해서는 자동분석시스템을 활용해서 분석하는 것이 효율적이다. 악성코드 자동분석에는 동적 분석과 정적 분석 모두가 사용되지만 정적 분석은 여러 가지 한계점 때문에 아직까지도 개선된 연구를 필요로 한다. 본 논문은 문자열 비교를 통해 두 실행파일에 대한 유사도를 측정함으로써 악성코드 판별 및 분류를 도와주는 정적 분석기법을 제안한다. 제안된 방법은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 과정이 선행된다. 또한 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려한 개선된 비교방법을 보인다.