• Title/Summary/Keyword: 결정트리분류기

Search Result 52, Processing Time 0.031 seconds

The Type Clustering for the Multi-Font Hangul Character Recognition (다중 활자체 한글 문자 인식을 위한 유형 분류)

  • Kim, Min-Ki;Kwon, Young-Bin
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.194-199
    • /
    • 1997
  • 본 논문에서는 글꼴의 변화와 잡영을 흡수할 수 있도록 자소의 탐색 영역을 정의 하였으며 이 영역에 나타나는 횡모음과 종모음의 주획을 추출하는 방법을 기술하였다. 종모음 영역에서 추출한 수직획들과 횡모음 영역에서 추출한 수평획들을 각각 종모음과 횡모음의 주획이 될 수 있는 후보들로써 이들로 부터 종모음과 횡모음의 존재를 파악하는 것이 한글 유형 분류의 주된 내용이다. 그러나 다양한 글꼴에 나타나는 수평획들로부터 곧바로 횡모음의 존재를 파악하는 것은 쉬운 문제가 아니다 본 논문에서는 기존의 트리 분류기를 확장하여 복잡하고 다양한 특징을 단계별로 단순화시키고 트리 분류기의 상위 노드에서 결정된 정보와 제약 조건을 이용하여 유형을 분류하는 방법을 제안하였다. 제안된 방법은 한글 상위 빈도 1405자, 3가지 글꼴에 대하여 99.8 %의 유형 분류율을 보이고 있다.

  • PDF

A Customer Classifier for EC Mall (전자상거래에 적용 가능한 고객분류기)

  • 김선철;이준욱;이용준;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.138-140
    • /
    • 1999
  • 분류기법은 과거데이터를 분석하여 새로운 데이터에 대한 예측에 사용되며, 결정트리 알고리즘을 많이 사용한다. 따라서, 이 기법은 전자상거래에서 DB 마케팅을 위해 데이터베이스에 저장되어 있는 고객데이터를 분석하여 암시적인 고객들의 행위규칙을 찾고, 예측하기 위하여 사용할 수 있다. 기존의 분류알고리즘들은 전자상거래에서 일반적인 연속형 고객데이터를 처리하는데는 많은 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여 연속형 데이터를 범주형 데이터로 변환하는 알고리즘을 구현하였다. 이 논문은 전자상거래에 적용하기 위한 고객분류기로서 ID3 알고리즘에 1차원 클러스터링알고리즘을 결합하여 사용한다.

  • PDF

ECG-based Biometric Authentication Using Random Forest (랜덤 포레스트를 이용한 심전도 기반 생체 인증)

  • Kim, JeongKyun;Lee, Kang Bok;Hong, Sang Gi
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.6
    • /
    • pp.100-105
    • /
    • 2017
  • This work presents an ECG biometric recognition system for the purpose of biometric authentication. ECG biometric approaches are divided into two major categories, fiducial-based and non-fiducial-based methods. This paper proposes a new non-fiducial framework using discrete cosine transform and a Random Forest classifier. When using DCT, most of the signal information tends to be concentrated in a few low-frequency components. In order to apply feature vector of Random Forest, DCT feature vectors of ECG heartbeats are constructed by using the first 40 DCT coefficients. RF is based on the computation of a large number of decision trees. It is relatively fast, robust and inherently suitable for multi-class problems. Furthermore, it trade-off threshold between admission and rejection of ID inside RF classifier. As a result, proposed method offers 99.9% recognition rates when tested on MIT-BIH NSRDB.

A Core Selection Method for the Multicast using a Shared Tree (공유 트리를 사용하는 멀티캐스트를 위한 코어 선택 방안)

  • Lim, Jang-Su;Lee, Jae-Kee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.999-1002
    • /
    • 2003
  • 최근 인터넷 환경의 향상에 따라 네트워크는 멀티미디어 서비스 범위 확대와 효율적인 네트워크 자원 사용을 위해서 멀티캐스팅 기술을 지원하는 것이 바람직하다. 멀티캐스트 라우팅 프로토콜은 소스 기반 트리와 코어 기반 트리 방식으로 분류할 수 있다. 소스 기반 트리 방식은 멀티캐스트 그룹에서 소스 당 하나의 트리를 형성하게 되는 반면에 코어 기반 트리 방식은 그룹의 모든 노드가 하나의 트리를 공유한다. 이런 코어 기반 트리 방식에서는 코어 혹은 센터의 위치에 따라 멀티캐스트 라우팅 트리의 모양이 영향을 받으며 그에 따라 라우팅의 성능에 중대한 영향을 주게 된다. 본 논문에서는 공유 트리를 형성하는 라우팅 아키텍쳐에서 코어의 위치를 결정하기 위한 기존 방법들을 분석하며 성능 향상을 고려한 방안을 제안한다.

  • PDF

Combining Multiple Neural Networks by Dempster's Rule of Combination for ARMA Model Identification (Dempster's Rule of Combination을 이용한 인공신경망간의 결합에 의한 ARMA 모형화)

  • Oh, Sang-Bong
    • Journal of Information Technology Application
    • /
    • v.1 no.3_4
    • /
    • pp.69-90
    • /
    • 1999
  • 본 논문은 시계열자료의 ARMA 모형화를 위해 계층적(Hierarchical) 문제해결 방식인 인공신경망 기초 의상결정트리분류기상의 인공신경망 구조를 개선하여 지역문제(Local Problem)를 해결하는 복수개의 인공신경망 결과를 Dempster's rule of combination을 이용하여 종합하는 병행적인 (Parallel) ARMA 모형활르 위한 방법론을 제시함으로써 의사결정트리분류기에 근거한 방법론의 단점을 보완하였다. 본 논문에서 제시한 ARMA 모형화를 위한 방법론은 세 단계로 구성되어 있다: 1) ESACF 특성 벡터 추출단계; 2) 개별 인공신경망에 의한 부분적 모델링 단계; 3) Conflict Resolution 단계, 제시한 방법론을 검증하기 위해 모의실험용 자료와 실제 시계열자료를 이용하여 제시된 방법론을 검증하였으며 실험결과 기존 연구에 비해 ARMA 모형화와 정확도가 높은 것으로 나타났다.

  • PDF

A Multivariate Decision Tree using Support Vector Machines (지지 벡터 머신을 이용한 다변수 결정 트리)

  • Kang, Sung-Gu;Lee, B.W.;Na, Y.C.;Jo, H.S.;Yoon, C.M.;Yang, Ji-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.278-283
    • /
    • 2006
  • 결정 트리는 큰 가설 공간을 가지고 있어 유연하고 강인한 성능을 지닐 수 있다. 하지만 결정트리가 학습 데이터에 지나치게 적응되는 경향이 있다. 학습데이터에 과도하게 적응되는 경향을 없애기 위해 몇몇 가지치기 알고리즘이 개발되었다. 하지만, 데이터가 속성 축에 평행하지 않아서 오는 공간 낭비의 문제는 이러한 방법으로 해결할 수 없다. 따라서 본 논문에서는 다변수 노드를 사용한 선형 분류기를 이용하여 이러한 문제점을 해결하는 방법을 제시하였으며, 결정트리의 성능을 높이고자 지지 벡터 머신을 도입하였다(SVMDT). 본 논문에서 제시한 알고리즘은 세 가지 부분으로 이루어졌다. 첫째로, 각 노드에서 사용할 속성을 선택하는 부분과 둘째로, ID3를 이 목적에 맞게 바꾼 알고리즘과 마지막으로 기본적인 형태의 가지치기 알고리즘을 개발하였다. UCI 데이터 셋을 이용하여 OC1, C4.5, SVM과 비교한 결과, SVMDT는 개선된 결과를 보였다.

  • PDF

Multiple SVM Classifier for Pattern Classification in Data Mining (데이터 마이닝에서 패턴 분류를 위한 다중 SVM 분류기)

  • Kim Man-Sun;Lee Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.15 no.3
    • /
    • pp.289-293
    • /
    • 2005
  • Pattern classification extracts various types of pattern information expressing objects in the real world and decides their class. The top priority of pattern classification technologies is to improve the performance of classification and, for this, many researches have tried various approaches for the last 40 years. Classification methods used in pattern classification include base classifier based on the probabilistic inference of patterns, decision tree, method based on distance function, neural network and clustering but they are not efficient in analyzing a large amount of multi-dimensional data. Thus, there are active researches on multiple classifier systems, which improve the performance of classification by combining problems using a number of mutually compensatory classifiers. The present study identifies problems in previous researches on multiple SVM classifiers, and proposes BORSE, a model that, based on 1:M policy in order to expand SVM to a multiple class classifier, regards each SVM output as a signal with non-linear pattern, trains the neural network for the pattern and combine the final results of classification performance.

Classification of Cancer-related Gene Expression Data Using Neural Network Classifiers (신경망 분류기를 이용한 암 관련 유전자 발현정보를 분류)

  • 권영준;류중원;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.295-297
    • /
    • 2001
  • 최근 생물 유전자 정보를 효과적으로 분석하기 위한 적절한 도구의 필요성이 대두되고 있다. 본 논문에서는 백혈병 환자의 골수로부터 얻어낸 DNA Microarray 유전 정보를 분류하여 환자가 가지고 있는 암의 종류를 예측하기 위한 최적의 특징추출방법과 분류 방법을 찾고자 한다. 이를 위해 피어슨 상관관계, 유클리디안 거리, 코사인 계수, 스피어맨 상관관계, 정보 이득, 상호 정보, 신호 대잡음비의 7가지 특징 추출 방법을 사용하였으며, 역전과 신경망, 의사결정 트리, 구조 적응형 자기구성 지도, $textsc{k}$-최근접 이웃 등 가지의 기계학습 분류기를 이용하여 분류 실험을 하였다. 실험결과, 피어슨 상관관계와 역전파 신경망을 이용한 분류 방법이 97.1%의 인식률을 보임을 알 수 있었다.

  • PDF

Comparative Study of Machine learning Techniques for Spammer Detection in Social Bookmarking Systems (소셜 복마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교)

  • Kim, Chan-Ju;Hwang, Kyu-Baek
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.5
    • /
    • pp.345-349
    • /
    • 2009
  • Social bookmarking systems are a typical web 2.0 service based on folksonomy, providing the platform for storing and sharing bookmarking information. Spammers in social bookmarking systems denote the users who abuse the system for their own interests in an improper way. They can make the entire resources in social bookmarking systems useless by posting lots of wrong information. Hence, it is important to detect spammers as early as possible and protect social bookmarking systems from their attack. In this paper, we applied a diverse set of machine learning approaches, i.e., decision tables, decision trees (ID3), $na{\ddot{i}}ve$ Bayes classifiers, TAN (tree-augment $na{\ddot{i}}ve$ Bayes) classifiers, and artificial neural networks to this task. In our experiments, $na{\ddot{i}}ve$ Bayes classifiers performed significantly better than other methods with respect to the AUC (area under the ROC curve) score as veil as the model building time. Plausible explanations for this result are as follows. First, $na{\ddot{i}}ve$> Bayes classifiers art known to usually perform better than decision trees in terms of the AUC score. Second, the spammer detection problem in our experiments is likely to be linearly separable.

A Question Type Classifier Using a Decision Tree and Lexico-syntactic Patterns (Lexico-syntactic 패턴과 결정트리를 이용한 질의 유형 분류기)

  • Kim, Hark-Soo;An, Young-Hun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.189-196
    • /
    • 2002
  • 질의응답 시스템이 올바른 답변을 제시하기 위해서는 사용자의 의도를 정확하고 강건하게 파악하는 것이 매우 중요하다. 이러한 요구 사항을 만족시키기 위해서 본 논문에서는 실용적 질의응답 시스템을 위한 질의 유형 분류기를 제안한다. 제안된 질의 유형 분류기는 규칙 기반의 방법과 통계 기반의 방법을 접목시킨 하이브리드 방법을 사용한다. 제안된 방법을 사용함으로써 수동으로 규칙을 작성하는 시간을 줄일 수 있었고 정확률을 향상시킬 수 있었으며 안정성을 보장받을 수 있었다. 제안된 방법에 대한 실험에서 질의 유형을 분류하는데 86%의 정확률을 얻었다.

  • PDF