• 제목/요약/키워드: decision trees

검색결과 303건 처리시간 0.028초

의사결정나무를 활용한 방산육성지원 수혜기업 결정요인 분석 (An Analysis of the Determinants of Government-Funded Defense Companies using a Decision Tree)

  • 전고운;백슬아;전정환;유동희
    • 한국군사과학기술학회지
    • /
    • 제27권1호
    • /
    • pp.80-93
    • /
    • 2024
  • This study attempted to analyze the factors that influence the participation of beneficiary companies in the government's defense industry promotion support project. To this end, experimental data were analyzed by constructing a prediction model consisting of highly important variables in beneficiary company decisions among various company information using the decision tree model, one of the data mining techniques. In addition, various rules were derived to determine the beneficiary companies of the government's support project using the analysis results expressed as decision trees. Three policy measures were presented based on the important rules that repeatedly appear in different predictive models to increase the effect of the government's industrial development. Using the analysis methods presented in this study and the determinants of the beneficiary companies of the government support project will help create a sustainable future defense industry growth environment.

주변조건부 변수를 이용한 의사결정나무모형 생성에 관한 연구 (A study on decision tree creation using marginally conditional variables)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권2호
    • /
    • pp.299-307
    • /
    • 2012
  • 데이터마이닝은 주어진 데이터베이스에서 항목간의 흥미로운 관계를 찾아내는 기법으로서 의사결정나무는 데이터마이닝의 대표적인 알고리즘이라고 할 수 있다. 의사결정나무는 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. 일반적으로 연구자가 의사결정나무 모형을 생성 할 때 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 한다. 특히 의사결정나무 모형에서 입력 변수의 수가 많을 경우 생성된 모형은 복잡한 형태가 될 수 있고, 모형 분석이 어려울 수도 있다. 만일 입력변수에서 주변조건부 변수 (매개변수, 외적변수)가 존재한다면 이 입력변수는 직접적인 관련성이 없는 것으로 판단한다. 이에 본 논문에서는 주변조건부 변수를 고려하여 의사결정나무모형을 생성하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

의사결정트리를 이용한 교육성과 요인에 관한 연구 (A Study on Factors of Education's Outcome using Decision Trees)

  • 김완섭
    • 공학교육연구
    • /
    • 제13권4호
    • /
    • pp.51-59
    • /
    • 2010
  • 대학에서 운영되는 강좌를 효과적으로 관리하고 교육성과를 향상시키기 위해서는 각 클래스의 현재의 교육성과를 진단하고 교육성과에 영향을 미치는 요인들을 파악하는 과정이 요구된다. 요인을 발견하는 연구에는 연관성 분석, 회귀분석 등의 통계기법들이 많이 사용되고 있으며 최근에는 데이터마이닝의 결정트리 분석도 사용되고 있다. 결정트리 분석은 결과 모델을 이해하기 쉽고 의사결정에 적용하기 쉽다는 장점이 있지만, 다중공선성 등의 입력 데이터의 특성에 견고하지 못한 문제점이 있다. 본 연구에서는 기존의 결정트리 분석의 문제점들을 정리하고, 이 문제점들을 보완하기 위한 하나의 실험적 해결책으로 다중 결정트리를 이용한 요인의 발견 방법을 제안한다. 실험을 통해 다중 결정트리를 수행이 다중 결정트리를 적용할 때보다 신뢰할 수 있는 요인을 발견하고 각 변수의 중요성을 발견할 수 있음을 보였다.

  • PDF

소셜 복마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교 (Comparative Study of Machine learning Techniques for Spammer Detection in Social Bookmarking Systems)

  • 김찬주;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권5호
    • /
    • pp.345-349
    • /
    • 2009
  • 소결 북마킹(social bookmarking) 시스템은 사용자가 북마크를 저장하고 공유할 수 있는 플랫폼을 제공하는 웹 기반(web-based) 시스템으로 폭소노미(folksonomy)를 이용한 대표적인 웹2.0 서비스이다. 소셜 북마킹 시스템에서의 스패머(spammer)란 자신들의 이익을 위해서 시스템을 고의적으로 악용하는 사람을 말한다. 스패머는 많은 양의 잘못된 정보를 시스템에 포스팅(posting)하기 때문에 전체 소셜 북마킹 시스템의 리소스(resource)를 쓸모없게 만들어 버린다. 따라서, 스패머를 빠른 시간 안에 탐지하고 그들의 접근을 차단하는 것은 시스템의 붕괴를 방지하기 위해 중요하다. 본 논문에서는 사용자가 사용한 태그에 대한 데이터를 추출하여, 사용자가 스패머 인지 아닌지를 예측하는 모델을 기계학습의 다양한 방법을 적용하여 생성한 후 그 성능을 비교해 보았다. 구체적으로, 결정테이블 (decision table, DT), 결정트리(decision tree, ID3), 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier), TAN(tree-augmented $na{\ddot{i}}ve$ Bayes) 분류기, 인공신경망(artificial neural network)의 방법을 비교하였다. 그 결과 AUC(area under the ROC curve)와 모델 생성시간을 고려하였을 때 나이브 베이즈 분류기가 가장 만족할 만한 성능을 보였다. 나이브 베이즈 분류기의 분류 결과가 가장 좋았던 이유는 성능을 비교하는 데 사용된 AUC가 결정트리 계열의 방법(ID3 등)보다 나이브 베이즈 분류기에서 일반적으로 높게 나오는 경향이 있다는 것과, 스패머 탐지 문제가 선형으로 분리 가능한 경우(lineally separable)와 유사할 가능성이 높기 때문으로 여겨진다.

BDD를 이용한 사고수목 정상사상확률 계산 (Calculation of Top Event Probability of Fault Tree using BDD)

  • 조병호;염병수;김상암
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.654-662
    • /
    • 2016
  • 사고수목을 이루는 게이트나 기본사상이 많아질수록 정상사상 확률의 정확한 계산이 어려워진다. 이를 극복하기 위해 BDD 방법을 적용하면 중소형 사고수목의 경우 짧은 시간에 근사계산 없이 정확한 값을 구할 수 있다. CUDD 함수를 이용하여 사고수목을 BDD로 변환하고 그로부터 정상사상의 발생확률을 구하는 고장경로 탐색 알고리즘을 고안하였다. 후방탐색 알고리즘은 전방탐색 알고리즘보다 고장경로의 탐색과 확률계산 시간에서 효과적이다. 이 탐색 알고리즘은 BDD에서 고장경로를 찾는데 있어서 탐색시간을 줄일 수 있고, 해당 사고수목의 단절집합과 최소단절집합을 찾는 유용한 방법이다.

머신러닝 기법을 활용한 주요 침엽수종의 수관급 분류와 간벌목 선정 연구 (A Study on Classification of Crown Classes and Selection of Thinned Trees for Major Conifers Using Machine Learning Techniques)

  • 이용규;이정수;박진우
    • 한국산림과학회지
    • /
    • 제111권2호
    • /
    • pp.302-310
    • /
    • 2022
  • 본 연구는 효율적인 산림시업계획 수립을 위하여 입목의 측정정보와 머신러닝 알고리즘을 이용하여 주요 침엽수종(소나무, 잣나무, 낙엽송)의 수관급 분류를 목적으로 하였다. 입목의 측정정보는 9년간 수집된 국유림 모니터링 정보를 활용하였으며, 머신러닝 알고리즘은 Random Forest (RF), XGBoost (XGB), Light GBM (LGBM)을 사용하였다. 알고리즘의 정확도, 정밀도, 재현율, F1 score를 이용한 성능평가를 통하여 알고리즘의 정확도를 비교·평가하였다. 분석결과, 소나무림, 잣나무림, 낙엽송 모두 RF 알고리즘이 성능평가 점수가 가장 높았으며, 수종별로는 소나무가 정확도 약 65%, 정밀도 약 72%, 재현율 약 60%, F1 score 약 66%로 성능평가 점수가 가장 높았다. 수관급은 우세목의 정확도가 약 80%이상으로 높았으나, 준우세목과 중간목, 피압목의 분류 정확도는 낮게 평가되었다. 본 연구결과는 산림시업의 간벌목 선정에 있어 의사결정을 위한 참조자료로 활용이 가능할 것으로 판단된다.

목표 속성을 고려한 연관규칙과 분류 기법 (Directed Association Rules Mining and Classification)

  • 한경록;김재련
    • 산업경영시스템학회지
    • /
    • 제24권63호
    • /
    • pp.23-31
    • /
    • 2001
  • Data mining can be either directed or undirected. One way of thinking about it is that we use undirected data mining to recognize relationship in the data and directed data mining to explain those relationships once they have been found. Several data mining techniques have received considerable research attention. In this paper, we propose an algorithm for discovering association rules as directed data mining and applying them to classification. In the first phase, we find frequent closed itemsets and association rules. After this phase, we construct the decision trees using discovered association rules. The algorithm can be applicable to customer relationship management.

  • PDF

Unsupervised segmentation of Multi -Source Remotely Sensed images using Binary Decision Trees and Canonical Transform

  • Mohammad, Rahmati;Kim, Jung-Ha
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.23.4-23
    • /
    • 2001
  • This paper proposes a new approach to unsupervised classification of remotely sensed images. Fusion of optic images (Landsat TM) and radar data (SAR) has beer used to increase the accuracy of classification. Number of clusters is estimated using generalized Dunns measure. Performance of the proposed method is best observed comparing the classified images with classified aerial images.

  • PDF

A research on the key factors for classification of diabetes based on random forest

  • Shin, Yong sub;Lee, Namju;Hwang, Chigon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권3호
    • /
    • pp.102-107
    • /
    • 2020
  • Recently, the number of people visiting the hospital is increasing due to diabetes. According to the Korean Diabetes Association, statistically, 1 in 7 adults over the age of 30 are suffering from diabetes. As such, diabetes is one of the most common diseases among modern people. In this paper, in addition to blood sugar, which is widely used for diabetes awareness, BMI, which is known to be related to diabetes, triglycerides and cholesterol that cause various complications in diabetics it was studied using random forest techniques and decision trees known to be effective for classification. The importance of each element was confirmed using the results and characteristic importance derived using two techniques. Through this, we studied the diabetes-related relationship between BMI, triglyceride, and cholesterol as well as blood sugar, a factor that diabetic patients should pay much attention to.

Exploration of CHAID Algorithm by Sampling Proportion

  • 박희창;조광현
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 추계학술대회
    • /
    • pp.215-228
    • /
    • 2003
  • Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud dection, data reduction and variable screening, interaction effect identification, category merging and discretizing continuous variable, etc. CHAID(Chi-square Automatic Interaction Detector), is an exploratory method used to study the relationship between a dependent variable and a series of predictor variables. CHAID modeling selects a set of predictors and their interactions that optimally predict the dependent measure. In this paper we explore CHAID algorithm in view of accuracy and speed by sampling proportion.

  • PDF