• 제목/요약/키워드: tree classification

검색결과 938건 처리시간 0.026초

Classification and Regression Tree Analysis for Molecular Descriptor Selection and Binding Affinities Prediction of Imidazobenzodiazepines in Quantitative Structure-Activity Relationship Studies

  • Atabati, Morteza;Zarei, Kobra;Abdinasab, Esmaeil
    • Bulletin of the Korean Chemical Society
    • /
    • 제30권11호
    • /
    • pp.2717-2722
    • /
    • 2009
  • The use of the classification and regression tree (CART) methodology was studied in a quantitative structure-activity relationship (QSAR) context on a data set consisting of the binding affinities of 39 imidazobenzodiazepines for the α1 benzodiazepine receptor. The 3-D structures of these compounds were optimized using HyperChem software with semiempirical AM1 optimization method. After optimization a set of 1481 zero-to three-dimentional descriptors was calculated for each molecule in the data set. The response (dependent variable) in the tree model consisted of the binding affinities of drugs. Three descriptors (two topological and one 3D-Morse descriptors) were applied in the final tree structure to describe the binding affinities. The mean relative error percent for the data set is 3.20%, compared with a previous model with mean relative error percent of 6.63%. To evaluate the predictive power of CART cross validation method was also performed.

범주형 자료에 대한 데이터 마이닝 분류기법 성능 비교 (Comparison of Data Mining Classification Algorithms for Categorical Feature Variables)

  • 손소영;신형원
    • 산업공학
    • /
    • 제12권4호
    • /
    • pp.551-556
    • /
    • 1999
  • In this paper, we compare the performance of three data mining classification algorithms(neural network, decision tree, logistic regression) in consideration of various characteristics of categorical input and output data. $2^{4-1}$. 3 fractional factorial design is used to simulate the comparison situation where factors used are (1) the categorical ratio of input variables, (2) the complexity of functional relationship between the output and input variables, (3) the size of randomness in the relationship, (4) the categorical ratio of an output variable, and (5) the classification algorithm. Experimental study results indicate the following: decision tree performs better than the others when the relationship between output and input variables is simple while logistic regression is better when the other way is around; and neural network appears a better choice than the others when the randomness in the relationship is relatively large. We also use Taguchi design to improve the practicality of our study results by letting the relationship between the output and input variables as a noise factor. As a result, the classification accuracy of neural network and decision tree turns out to be higher than that of logistic regression, when the categorical proportion of the output variable is even.

  • PDF

Predictive Analysis of Problematic Smartphone Use by Machine Learning Technique

  • Kim, Yu Jeong;Lee, Dong Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.213-219
    • /
    • 2020
  • 본 연구는 스마트폰 과의존을 진단하고 예측하기 위하여 할 수 있는 분류분석 방법과 스마트폰 과의존 분류율에 영향을 미치는 중요변수를 규명하고자 시도되었다. 이를 위해 인공지능의 방법인 기계학습 분석 기법 중 의사결정트리, 랜덤포레스트, 서포트벡터머신의 분류율을 비교하였다. 자료는 한국정보화진흥원에서 제공한 '2018년 스마트폰 과의존 실태조사'에 응답한 25,465명의 데이터였고, R 통계패키지(ver. 3.6.2)를 사용하여 분석하였다. 분석한 결과, 3가지 분류분석 기법은 정분류율이 유사하게 나타났으며, 모델에 대한 과적합 문제가 발생되지 않았다. 3가지 분류분석 방법 중 서포트벡터머신의 분류율이 가장 높게 나타났고, 다음으로 의사결정트리 기법, 랜덤포레스트 기법 순이었다. 스마트폰 이용 유형 중 분류율에 영향을 미치는 상위 3개 변수는 생활서비스형, 정보검색형, 여가추구형이었다.

A Decision Tree Algorithm using Genetic Programming

  • Park, Chongsun;Ko, Young Kyong
    • Communications for Statistical Applications and Methods
    • /
    • 제10권3호
    • /
    • pp.845-857
    • /
    • 2003
  • We explore the use of genetic programming to evolve decision trees directly for classification problems with both discrete and continuous predictors. We demonstrate that the derived hypotheses of standard algorithms can substantially deviated from the optimum. This deviation is partly due to their top-down style procedures. The performance of the system is measured on a set of real and simulated data sets and compared with the performance of well-known algorithms like CHAID, CART, C5.0, and QUEST. Proposed algorithm seems to be effective in handling problems caused by top-down style procedures of existing algorithms.

Improving Bagging Predictors

  • Kim, Hyun-Joong;Chung, Dong-Jun
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 추계 학술발표회 논문집
    • /
    • pp.141-146
    • /
    • 2005
  • Ensemble method has been known as one of the most powerful classification tools that can improve prediction accuracy. Ensemble method also has been understood as ‘perturb and combine’ strategy. Many studies have tried to develop ensemble methods by improving perturbation. In this paper, we propose two new ensemble methods that improve combining, based on the idea of pattern matching. In the experiment with simulation data and with real dataset, the proposed ensemble methods peformed better than bagging. The proposed ensemble methods give the most accurate prediction when the pruned tree was used as the base learner.

  • PDF

라프셋 이론이 적용에 의한 ID3의 개선 (Improvement of ID3 Using Rough Sets)

  • 정홍;김두완;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1997년도 추계학술대회 학술발표 논문집
    • /
    • pp.170-174
    • /
    • 1997
  • This paper studies a method for making more efficient classification rules in the ID3 using the rough set theory. Decision tree technique of the ID3 always uses all the attributes in a table of examples for making a new decision tree, but rough set technique can in advance eleminate dispensable attributes. And the former generates only one type of classification rules, but the latter generates all the possibles types of them. The rules generated by the rough set technique are the simplist from as proved by the rough set theory. Therefore, ID3, applying the rough set technique, can reduct the size of the table of examples, generate the simplist form of the classification rules, and also implement an effectie classification system.

  • PDF

SUPPORT Applications for Classification Trees

  • Lee, Sang-Bock;Park, Sun-Young
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.565-574
    • /
    • 2004
  • Classification tree algorithms including as CART by Brieman et al.(1984) in some aspects, recursively partition the data space with the aim of making the distribution of the class variable as pure as within each partition and consist of several steps. SUPPORT(smoothed and unsmoothed piecewise-polynomial regression trees) method of Chaudhuri et al(1994), a weighted averaging technique is used to combine piecewise polynomial fits into a smooth one. We focus on applying SUPPORT to a binary class variable. Logistic model is considered in the caculation techniques and the results are shown good classification rates compared with other methods as CART, QUEST, and CHAID.

  • PDF

조건 술어 분석을 이용한 능동규칙의 조건부 처리 시스템 (A Condition Processing System of Active Rules Using Analyzing Condition Predicates)

  • 이기욱;김태식
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.21-30
    • /
    • 2002
  • 능동 데이터베이스 시스템은 특정한 상태를 탐지하는 능동규칙을 도입한다. 조건부 평가는 사건이 발생할 때마다 수행되기 때문에 조건부를 처리하는 방법에 따라 시스템의 성능에 중요한 영향을 미친다. 본 논문에서는 차이트리 구조, 분류트리, 그리고 집계함수 테이블을 생성하는 전처리 기능을 갖는 조건부 처리 시스템을 제안한다. 전처리는 능동규칙을 미리 파악할 수 있는 능동 데이터베이스의 특징 때문에 도입될 수 있다. 본 논문에서는 선택연산, 조인연산, 그리고 집계함수를 효율적으로 처리할 수 있는 차이트리를 제안하고 조건부의 처리 성능을 높인다. 그리고 조인연산을 효과적으로 처리하는 분류트리와 높은 처리비용을 요구하는 집계함수를 처리하는 집계함수 테이블을 제안한다. 본 논문의 조건부 처리 시스템은 전처리 기능에서 만들어진 조건부 처리 구조 때문에 조건 비교의 횟수를 감소시켜 능동규칙에서 조건부 처리의 성능 향상을 기대할 수 있다.

셋-프루닝 이진 검색 트리를 이용한 계층적 패킷 분류 알고리즘 (A Hierarchical Packet Classification Algorithm Using Set-Pruning Binary Search Tree)

  • 이수현;임혜숙
    • 한국정보과학회논문지:정보통신
    • /
    • 제35권6호
    • /
    • pp.482-496
    • /
    • 2008
  • 인터넷 라우터에서의 패킷 분류는 들어오는 모든 패킷에 대하여 패킷이 입력되는 속도와 같은 속도로 수행되어야 하는데, 여러 헤더 필드에 대해 다차원 검색을 수행하여야 하므로, 라우터 설계에 있어 가장 어려운 문제중의 하나이다. 계층적 패킷 분류 구조는 하나의 필드 검색이 끝날 때마다 검색 영역이 현저하게 줄어듦으로 매우 효율적이다. 그러나 계층적 구조들은 빈 노드와 역추적이라는 두가지 문제를 내재하고 있다. 본 논문에서는 두가지 문제를 동시에 해결하는 새로운 계층적 패킷분류 구조를 제안한다. 역추적 문제는 셋-프루닝 기법을 이용하여 해결하였으며, 이진 검색트리를 적용하여 빈노드를 제거하였다. 시뮬레이션 결과 제안된 알고리즘은 메모리 요구량의 증가 없이 검색 성능을 현저히 향상시킴을 확인하였다. 또한 셋-프루닝에 있어 제한된 룰의 복사를 적용하는 최적화 기법을 제안한다.

데이터 수집방법에 따른 딥러닝 기반 산림수종 자동분류 정확도 변화에 관한 연구 (A Study on the Performance of Deep learning-based Automatic Classification of Forest Plants: A Comparison of Data Collection Methods)

  • 김보미;우희성;박주원
    • 한국산림과학회지
    • /
    • 제109권1호
    • /
    • pp.23-30
    • /
    • 2020
  • 최근 급변하는 컴퓨터 기술의 발전을 통해 컴퓨터 비전과 머신러닝을 이용한 사물인식 기법이 다양한 학문 분야에서 사용되고 있다. 국내의 연구 사례를 보면 주로 대면적 산림을 분석하기 위한 이미지 학습 및 객체인식 기법이 사용되는 반면 개체목 단위의 수종 분류 및 특징을 학습하는 연구는 아직 미미한 실정이다. 이에 본 연구는 한국의 침엽수 5종을 대상으로 이미지 학습을 통한 자동분류 연구의 가능성을 분석해 보았다. 데이터 형태에 따른 분류 결과의 차이를 분석하기 위하여 산림전문가가 직접 촬영한 영상(D1)과 웹크롤링을 이용한 영상(D2)을 사용하여 수종 분류를 실시하였다. 그 결과 D1과 D2의 분류 정확도에 유의미한 차이가 있는 것으로 나타났으며, D1은 D2보다 높은 분류 정확도를 나타냈다. 또한, D2의 분류 정확도를 높이기 위해서는 검열되지 않은 영상 데이터의 노이즈를 줄이기 위한 추가 데이터 필터링 기법이 필요한 것으로 사료된다.