• Title/Summary/Keyword: CART 방법

Search Result 113, Processing Time 0.021 seconds

A Classification Analysis using Bayesian Neural Network (베이지안 신경망을 이용한 분류분석)

  • Hwang, Jin-Soo;Choi, Seong-Yong;Jun, Hong-Suk
    • Journal of the Korean Data and Information Science Society
    • /
    • v.12 no.2
    • /
    • pp.11-25
    • /
    • 2001
  • There are several algorithms for classification in modeling relations, patterns, and rules which exist in data. We learn to classify objects on the basis of instances presented to us, not by being given a set of classification rules. The Bayesian learning uses the probability distribution to express our knowledge about unknown parameters and update our knowledge by the law of probability as the evidence gathered from data. Also, the neural network models are designed for predicting an unknown category or quantity on the basis of known attributes by training. In this paper, we compare the misclassification error rates of Bayesian Neural Network method with those of other classification algorithms, CHAID, CART, and QUBST using several data sets.

  • PDF

Design of Contact Scheduling System(CSS) for Customer Retention (고객유지를 위한 접촉스케줄링시스템의 설계)

  • Lee, Jee-Sik;Cho, You-Jung
    • Journal of Intelligence and Information Systems
    • /
    • v.11 no.3
    • /
    • pp.83-101
    • /
    • 2005
  • Customer retention is one of the major issues in life insurance industry, in which competition is increasingly fierce. There are many things for the life insurers to do many things to retain the customers. One of those things is to make sure to keep in touch with all customers. When an insurance-planner resigned, his/her customers must be taken care of by some planner-assistants. This article outlines the design of Contact Scheduling System (CSS) that supports planner-assistants for contacting the customers. Planner-assistants are unable to share the resigned insurance-planner's experience and knowledge regarding the customer relationship management. The CSS developed by employing both Classification And Regression Tree (CART) technique and Sequential Pattern Mining (SPM) technique has a two-stage process. In the first stage, it segments the customers into eight groups by CART model. Then it generates contact scheduling information consisting of contact-purpose, contact-interval and contact-channel, according to the segment's typical contact pattern. Contact-purpose is derived by schedule-driven, event-driven, or business-rule-driven. Schedule-driven contact is determined by SPM model. In the operation of CSS in a realistic situation, it shows a practicality in supporting planner-assistants to keep in touch with the customers efficiently and effectively.

  • PDF

Selection of an Optimal Algorithm for Prevention of Industrial Accidents (산업재해 예방을 위한 최적 알고리즘 선정)

  • Leem, Young-Moon;Hwang, Young-Seob
    • Proceedings of the Safety Management and Science Conference
    • /
    • 2005.11a
    • /
    • pp.328-331
    • /
    • 2005
  • 산업재해 통계분석의 커다란 목적은 각 산업별로 주 위험요인을 도출하고 이에 따른 안전교육의 실시 또는 안전장치 등을 보완함으로써 산업재해를 줄이거나 예방하는데 있다고 볼 수 있다. 그러나 일반 제조업이나 건설업 등에서는 아직까지도 정량적 위험성 평가 기법이 개발되어 있지 않은 실정이다. 따라서 효율적인 위험성 평가 기법의 개발이 필요하다. 본 연구에서는 데이터마이닝 기법을 이용한 산업재해 예방을 위한 최적 알고리즘 선정 방법을 제시한다.

  • PDF

층화에서 최적경계점 결정에 관한 연구

  • Park, Jin-U;Kim, Yeong-Won
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2002.11a
    • /
    • pp.179-184
    • /
    • 2002
  • 층화 추출법에서 층의 경계점을 정하는 문제는 추정의 효율에 직접적으로 영향을 미치기 때문에 매우 실제적이고 중요한 문제이다. 층화변수가 일변량 연속변수인 경우 널리 알려진 방법으로는 누적도수제곱근법과 Ekman법이 있는데 이 두 방법은 모두 나름의 약점을 지니고 있다. 본 논문에서는 Breiman 등(1984)이 제시한 CART 기법 중 회귀나무(regression tree)모형을 이용하여 층의 경계점을 정하는 방법을 소개한다. 그리고 통계청의 어업총조사 자료를 사용하여 층의 경계점을 정하는 여러 다른 방법들의 효율을 비교한다.

  • PDF

Identification of Neuro-Fuzzy Model Using mGA (mGA 기반 뉴로-퍼지 모델 동정)

  • 이연우;유진영;주영훈;박진배
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.187-190
    • /
    • 2002
  • 주어진 시스템의 정확한 제어를 위해 뉴로-퍼지 제어시스템의 성공적인 제어는 그 네트웍의 구성에 크게 의존한다. 현재 유전알고리즘을 사용한 제어기 구조의 최적화 방법에 대한 많은 연구가 이루어지고 있으나, 기존의 유전 알고리즘은 고정된 길이의 스트링 구조로 인하여 적합한 연계(linkage)를 얻기 어렵다는 단점이 있다 본 논문에서는 뉴로-퍼지 제어기의 구조적 최적화 설계의 새로운 방법을 제안한다. 여기서, 우리는 구조적으로 최적화 된 뉴로-퍼지 제어기를 설계하기 위해 가변길이 스트링을 사용하는 메시 유전 알고리즘(messy Genetic Algorithm mGA)을 사용한다. 그리고 제안된 방법의 우수성을 증명하기 위해 대표적인 비선형 시스템인 cart-pole 시스템에 제안된 방법을 적용한다.

On the Tree Model grown by esse-sided purity (단측 순수성에 의한 나무모형의 성장에 대하여)

  • 김용대;최대우
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.341-348
    • /
    • 2000
  • 의사결정 나무라고 불리우기도 하는 나무모형은 결과 해석의 용이성으로 데이터마이닝의 분류예측 모형으로써 큰 각광을 받고 있다. 현재 나무모형으로 가장 많이 사용되는 Breiman et. al의 CART나 Quinlan의 C4.5 모두 생성된 노드들의 자료 구성이 목표변수를 기준으로 수준 구성비 측면에서 순수해지도록 진행된다. 그러나 CRM에 있어 가장 흔한 주제인 해지예측을 위한 모델링을 실시하는 경우 관심의 대상인 해지자가 전체 자료에 극히 일부를 차지하여, 기존의 분할 방법에서와 같이 모든 노드의 순수성을 고려하기란 불가능하다. Buja와 Lee는 이와 같이 소수의 관심에 대상이 되는 부류를 찾아내기 위한 나무모형 생성방법을 소개하였다 즉, 해지자 관리가 중요한 경우 해지자와 비해지자 구분을 진행하는 기존의 방법과는 달리 전체 자료 중 해지자를 집중적으로 찾아가는 탐색적 분할 기준인 단측 순수성(one-sided purity)을 제안하였다. 본 연구에서는 단측 순수성에 의한 나무모델링을 모 PC통신 회사의 해지자 자료에 적용하며 기존의 방법과 비교하였고 몇 가지 시뮬레이션 자료를 통해 단측 순수성의 문제점과 앞으로 해결하여야 할 과제에 대하여 살펴보았다.

  • PDF

Comparison of Variable Importance Measures in Tree-based Classification (나무구조의 분류분석에서 변수 중요도에 대한 고찰)

  • Kim, Na-Young;Lee, Eun-Kyung
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.5
    • /
    • pp.717-729
    • /
    • 2014
  • Projection pursuit classification tree uses a 1-dimensional projection with the view of the most separating classes in each node. These projection coefficients contain information distinguishing two groups of classes from each other and can be used to calculate the importance measure of classification in each variable. This paper reviews the variable importance measure with increasing interest in line with growing data size. We compared the performances of projection pursuit classification tree with those of classification and regression tree(CART) and random forest. Projection pursuit classification tree are found to produce better performance in most cases, particularly with highly correlated variables. The importance measure of projection pursuit classification tree performs slightly better than the importance measure of random forest.

A distance metric of nominal attribute based on conditional probability (조건부 확률에 기반한 범주형 자료의 거리 측정)

  • 이재호;우종하;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

A Study for Improving the Performance of Data Mining Using Ensemble Techniques (앙상블기법을 이용한 다양한 데이터마이닝 성능향상 연구)

  • Jung, Yon-Hae;Eo, Soo-Heang;Moon, Ho-Seok;Cho, Hyung-Jun
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.4
    • /
    • pp.561-574
    • /
    • 2010
  • We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and missclassificate error were used as criteria for comparison.

Study on smart cart with real-time barcode input with gesture recognition (실시간 바코드입력 스마트 카트에 관한 연구)

  • Son, Ji-Hun;Park, byang-jo;Lee, Jin-Pyo;Kim, Woongsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.390-393
    • /
    • 2018
  • 현재 사용되고 있는 카트의 경우 물품들을 모아서 계산대에서 한번에 계산을 처리하기 위해 물품 계산 이전에 물품을 모아 놓는 역할을 한다. 이는 시간과 비효율성의 문제를 낳는다. 이를 극복하기 위해 카트에서 실시간으로 고객이 직접 바코드를 입력하는 방법을 연구하였으며, 영상처리 기법을 사용하여 좀 더 인간친화적인 방법으로 카트를 이용하는 방법을 고안하였다. 또한 무게 센서감지를 통해 상품목록의 보안성을 높이려고 하였다.