• 제목/요약/키워드: Category Tree

검색결과 76건 처리시간 0.023초

Improving Classification Accuracy in Hierarchical Trees via Greedy Node Expansion

  • Byungjin Lim;Jong Wook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.113-120
    • /
    • 2024
  • 정보통신 기술이 발전함에 따라 우리는 일상에서 다양한 형태의 데이터를 손쉽게 생성하고 있다. 이처럼 방대한 데이터를 효율적으로 관리하려면, 체계적인 카테고리별 분류가 필수적이다. 효율적인 검색과 탐색을 위해서 데이터는 트리 형태의 계층적 구조인 범주 트리로 조직화되는데, 이는 뉴스 웹사이트나 위키피디아에서 자주 볼 수 있는 구조이다. 이에 따라 방대한 양의 문서를 범주 트리의 단말 노드로 분류하는 다양한 기법들이 제안되었다. 그러나 범주 트리를 대상으로 하는 문서 분류기법들은 범주 트리의 높이가 증가할수록 단말 노드의 수가 기하급수적으로 늘어나고 루트 노드부터 단말 노드까지의 길이가 길어져서 오분류 가능성이 증가하며, 결국 분류 정확도의 저하로 이어진다. 그러므로 본 연구에서는 사용자의 요구 분류 정확도를 만족시키면서 세분화된 분류를 구현할 수 있는 새로운 노드 확장 기반 분류 알고리즘을 제안한다. 제안 기법은 탐욕적 접근법을 활용하여 높은 분류정확도를 갖는 노드를 우선적으로 확장함으로써, 범주 트리의 분류 정확도를 극대화한다. 실데이터를 이용한 실험 결과는 제안 기법이 단순 방법보다 향상된 성능을 제공함을 입증한다.

의사결정나무 모델에서의 중요 룰 선택기법 (Rule Selection Method in Decision Tree Models)

  • 손지은;김성범
    • 대한산업공학회지
    • /
    • 제40권4호
    • /
    • pp.375-381
    • /
    • 2014
  • Data mining is a process of discovering useful patterns or information from large amount of data. Decision tree is one of the data mining algorithms that can be used for both classification and prediction and has been widely used for various applications because of its flexibility and interpretability. Decision trees for classification generally generate a number of rules that belong to one of the predefined category and some rules may belong to the same category. In this case, it is necessary to determine the significance of each rule so as to provide the priority of the rule with users. The purpose of this paper is to propose a rule selection method in classification tree models that accommodate the umber of observation, accuracy, and effectiveness in each rule. Our experiments demonstrate that the proposed method produce better performance compared to other existing rule selection methods.

Genomic Tree of Gene Contents Based on Functional Groups of KEGG Orthology

  • Kim Jin-Sik;Lee Sang-Yup
    • Journal of Microbiology and Biotechnology
    • /
    • 제16권5호
    • /
    • pp.748-756
    • /
    • 2006
  • We propose a genome-scale clustering approach to identify whole genome relationships using the functional groups given by the Kyoto Encyclopedia of Genes and Genomes Orthology (KO) database. The metabolic capabilities of each organism were defined by the number of genes in each functional category. The archaeal, bacterial, and eukaryotic genomes were compared by simultaneously applying a two-step clustering method, comprised of a self-organizing tree algorithm followed by unsupervised hierarchical clustering. The clustering results were consistent with various phenotypic characteristics of the organisms analyzed and, additionally, showed a different aspect of the relationship between genomes that have previously been established through rRNA-based comparisons. The proposed approach to collect and cluster the metabolic functional capabilities of organisms should make it a useful tool in predicting relationships among organisms.

Modeling of Environmental Survey by Decision Trees

  • 박희창;조광현
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 추계학술대회
    • /
    • pp.63-75
    • /
    • 2004
  • The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud dection, data reduction and variable screening, category merging, etc. We analyze Gyeongnam social indicator survey data using decision tree techniques for environmental information. We can use these decision tree outputs for environmental preservation and improvement.

  • PDF

Modeling of Environmental Survey by Decision Trees

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권4호
    • /
    • pp.759-771
    • /
    • 2004
  • The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud dection, data reduction and variable screening, category merging, etc. We analyze Gyeongnam social indicator survey data using decision tree techniques for environmental information. We can use these decision tree outputs for environmental preservation and improvement.

  • PDF

Level 1 probabilistic safety assessment of supercritical-CO2-cooled micro modular reactor in conceptual design phase

  • So, Eunseo;Kim, Man Cheol
    • Nuclear Engineering and Technology
    • /
    • 제53권2호
    • /
    • pp.498-508
    • /
    • 2021
  • Micro reactors are increasingly being considered for utilization as distributed power sources. Hence, the probabilistic safety assessment (PSA) of a direct supercritical-CO2-cooled fast reactor, called micro modular reactor (MMR), was performed in this study; this reactor was developed using innovative design concepts. It adopted a modular design and passive safety systems to minimize site constraints. As the MMR is in its conceptual design phase, design weaknesses and valuable safety insights could be identified during PSA. Level 1 internal event PSA was carried out involving literature survey, system characterization, identification of initiating events, transient analyses, development of event trees and fault trees, and quantification. The initiating events and scenarios significantly contributing to core damage frequency (CDF) were determined to identify design weaknesses in MMR. The most significant initiating event category contributing to CDF was the transients with the power conversion system initially available category, owing to its relatively high occurrence frequency. Further, an importance analysis revealed that the safety of MMR can be significantly improved by improving the reliability of reactor trip and passive decay heat removal system operation. The findings presented in this paper are expected to contribute toward future applications of PSA for assessing unconventional nuclear reactors in their conceptual design phases.

Waste Database Analysis Joined with Local Information Using Decision Tree Techniques

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 춘계학술대회
    • /
    • pp.164-173
    • /
    • 2005
  • Data mining is the method to find useful information for large amounts of data in database. It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are decision tree, association rules, clustering, neural network and so on. The decision tree approach is most useful in classification problems and to divide the search space into rectangular regions. Decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud detection, data reduction and variable screening, category merging, etc. We analyze waste database united with local information using decision tree techniques for environmental information. We can use these decision tree outputs for environmental preservation and improvement.

  • PDF

의사결정나무기법을 이용한 노인장기요양보험 등급결정모형 개발 (A Determining System for the Category of Need in Long-Term Care Insurance System using Decision Tree Model)

  • 한은정;곽민정;강임옥
    • 응용통계연구
    • /
    • 제24권1호
    • /
    • pp.145-159
    • /
    • 2011
  • 노인장기요양보험은 2008년 7월에 시작된 이후 제도의 안정적 정착과 발전을 위해 여러 가지 면에서 보완해야할 부분이 많은 상태이다. 그 중에서도 장기요양급여의 진입장벽을 결정하는 등급결정모형을 지속적으로 보완하는 것이 가장 중요하다. 본 연구는 제도 시행 이후 급속히 변화하는 장기요양 시장의 현실을 등급결정모형에 반영하고자 제도 도입 이후의 자료를 활용하여 등급결정모형을 구축하여 현행 모형을 보완하고자 하였다. 등급결정모형을 개발하기 위해 데이터마이닝 기법 중 의사결정나무기법을 활용하였으며, 이것은 현행 모형과 비교가 용이하도록 하기 위한 것이다. 이 모형은 기능상태가 나쁜 사람일수록 장기요양서비스량이 많을 것이라는 가정을 전제로 하고 있으며 장기요양서비스량을 서비스 제공시간으로 보았다. 이 연구는 변화된 현실을 충분히 반영하기 위해 등급결정모형을 보완 하였다는 점에서 의의를 갖는다. 그러나 향후에도 서비스 인프라, 급여 이용자의 특성 등 계속 변화하는 환경을 반영하여 등급결정모형을 보완하고 발전시키는 것이 지속적으로 필요하다고 본다.

Current Status of Tree Height Estimation from Airborne LiDAR Data

  • Hwang, Se-Ran;Lee, Im-Pyeong
    • 대한원격탐사학회지
    • /
    • 제27권3호
    • /
    • pp.389-401
    • /
    • 2011
  • Most nations around the world have expressed significant concern in the climate change due to a rapid increase in green-house gases and thus reach an international agreement to control total amount of these gases for the mitigation of global warming. As the most important absorber of carbon dioxide, one of major green-house gases, forest resources should be more tightly managed with a means to measure their total amount, forest biomass, efficiently and accurately. Forest biomass has close relations with forest areas and tree height. Airborne LiDAR data helps extract biophysical properties on forest resources such as tree height more efficiently by providing detailed spatial information about the wide-range ground surface. Many researchers have thus developed various methods to estimate tree height using LiDAR data, which retain different performance and characteristics depending on forest environment and data characteristics. In this study, we attempted to investigate such various techniques to estimate tree height, elaborate their advantages and limitations, and suggest future research directions. We first examined the characteristics of LiDAR data applied to forest studies and then analyzed methods on filtering, a precedent procedure for tree height estimation. Regarding the methods for tree height estimation, we classified them into two categories: individual tree-based and regression-based method and described the representative methods under each category with a summary of their analysis results. Finally, we reviewed techniques regarding data fusion between LiDAR and other remote sensing data for future work.

대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성 (Incremental Generation of A Decision Tree Using Global Discretization For Large Data)

  • 한경식;이수원
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.487-498
    • /
    • 2005
  • 최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.