• Title/Summary/Keyword: 분류트리

Search Result 433, Processing Time 0.028 seconds

Document Autoclustering for Web Agent (웹 에이전트를 위한 문서 자동 분류)

  • 양찬범;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.54-56
    • /
    • 1999
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심정보를 학습하고 사용자가 필요로 한느 웹 상의 정보를 제공하는 시스템이다. 웹 에이전트는 사용자의 관심정보를 추출하기 위해서 귀납적 기계학습을 수행한다. 이때, 학습의 효율을 높이기 위해서는 관련이 있는 문서들을 그룹화하여 학습 시스템에 제공하여야 한다. 본 논문에서는 비감독 개념 학습 알고리즘인 COBWEB을 이용하여 사용자가 관심을 표시한 문서들의 분류트리를 생성한다. 분류트리는 귀납적 기계학습 시스템의 입력으로 사용될 수 있는 형태가 아니므로 분류 트리의 분석과 문서 분류 후처리 작업을 통해서 문서 집합을 생성해야 한다. 이를 위해서는 분류트리를 분석하여 초기 클러스터를 생성하고, 유사한 클러스터들의 병합을 수행한다. 본 논문에서 제안하는 문서 자동 분류 방식은 비감독 개념 학습 알고리즘이 생성한 문서 분류 트리의 분석을 통해서 충분한 유사도와 적절한 수의 문서를 포함하는 초기 클러스터를 생성할 수 있다. 그러므로 문서 분류의 후처리 작업인 클러스터의 병합 작업에서 불필요한 작업을 제거함으로서 보다 효과적이고 합리적인 문서 분류 작업을 수행한다.

  • PDF

A Fuzzy Decision Tree to Partition Feature Space with Oblique Planes (특징 공간을 사선 분할하는 퍼지 결정 트리)

  • 이우항;이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.21-23
    • /
    • 1999
  • 결정 트리는 실세계에서 얻어지는 많은 사례들로부터 분류 정보를 얻기 위해 사용되는 유용한 방법중의 하나이다. 분류를 목적으로 사용되는 사례, 즉 데이터들은 실제 현장에서 얻어지기 때문에 관측오류, 불확실성, 주관적인 판단 등의 원인으로 참 값이 아닌 근사 값으로써 기술되는 경우가 많으며, 이러한 잠재적 오류로 인해 잘못된 결정 트리가 생성될 수 있다. 한편, 트리를 생성하는 각각의 과정에서 하나의 특징 값만을 고려하지 않고 두 가지 이상의 특징 값을 동시에 고려하여 결정 트리를 생성할 경우 보다 정확한 분류 정보를 기대할 수 있다. 본 논문에서는 수치 특징 값으로 기술된 데이터로부터 보다 정확한 분류 정보를 얻을 수 있고, 작은 오류에 강건한 사선형 분할 퍼지 결정 트리를 제안한다. 또한 제안된 사선형 분할 퍼지 결정 트리의 생성 절차 및 생성된 결정 트리를 이용하여 새로운 데이터에 분류 정보를 부여하는 추론 과정을 소개한다.

  • PDF

Neural Tree Classifier based on LVQ for Data Mining (데이터 마이닝을 위한 LVQ 기반 신경 트리 분류기)

  • 김세현;김은주;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.157-159
    • /
    • 2001
  • 신경 트리는 신경망과 결정 트리의 구조를 결합한 형태의 분류기로서 비선형적 결정 경계 형성이 가능하며 기존 신경망에 비해 학습, 출력시 계산량이 적다는 장점을 갖는다. 본 논문에서는 신경 트리의 노드를 구성하는 신경망을 학습하기 위하여 기존의 방법들과는 달리 교사 학습 방법인 LVQ3 알고리즘을 사용하는 신경 트리 분류기를 제안한다. 학습 과정을 통해 생성된 트리는 오인식율 추정을 이용한 가지치기를 통하여 효율적인 트리로 재구성된다. 제안하는 방법은 실제 데이터 집합들을 이용한 실험을 통하여 그 성능을 검증하였다.

  • PDF

Voice Personality Transformation Using a Multiple Response Classification and Regression Tree (다중 응답 분류회귀트리를 이용한 음성 개성 변환)

  • 이기승
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.3
    • /
    • pp.253-261
    • /
    • 2004
  • In this paper, a new voice personality transformation method is proposed. which modifies speaker-dependent feature variables in the speech signals. The proposed method takes the cepstrum vectors and pitch as the transformation paremeters, which represent vocal tract transfer function and excitation signals, respectively. To transform these parameters, a multiple response classification and regression tree (MR-CART) is employed. MR-CART is the vector extended version of a conventional CART, whose response is given by the vector form. We evaluated the performance of the proposed method by comparing with a previously proposed codebook mapping method. We also quantitatively analyzed the performance of voice transformation and the complexities according to various observations. From the experimental results for 4 speakers, the proposed method objectively outperforms a conventional codebook mapping method. and we also observed that the transformed speech sounds closer to target speech.

Improving Classification Accuracy in Hierarchical Trees via Greedy Node Expansion

  • Byungjin Lim;Jong Wook Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.6
    • /
    • pp.113-120
    • /
    • 2024
  • With the advancement of information and communication technology, we can easily generate various forms of data in our daily lives. To efficiently manage such a large amount of data, systematic classification into categories is essential. For effective search and navigation, data is organized into a tree-like hierarchical structure known as a category tree, which is commonly seen in news websites and Wikipedia. As a result, various techniques have been proposed to classify large volumes of documents into the terminal nodes of category trees. However, document classification methods using category trees face a problem: as the height of the tree increases, the number of terminal nodes multiplies exponentially, which increases the probability of misclassification and ultimately leads to a reduction in classification accuracy. Therefore, in this paper, we propose a new node expansion-based classification algorithm that satisfies the classification accuracy required by the application, while enabling detailed categorization. The proposed method uses a greedy approach to prioritize the expansion of nodes with high classification accuracy, thereby maximizing the overall classification accuracy of the category tree. Experimental results on real data show that the proposed technique provides improved performance over naive methods.

The guideline for choosing the right-size of tree for boosting algorithm (부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구)

  • Kim, Ah-Hyoun;Kim, Ji-Hyun;Kim, Hyun-Joong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.5
    • /
    • pp.949-959
    • /
    • 2012
  • This article is to find the right size of decision trees that performs better for boosting algorithm. First we defined the tree size D as the depth of a decision tree. Then we compared the performance of boosting algorithm with different tree sizes in the experiment. Although it is an usual practice to set the tree size in boosting algorithm to be small, we figured out that the choice of D has a significant influence on the performance of boosting algorithm. Furthermore, we found out that the tree size D need to be sufficiently large for some dataset. The experiment result shows that there exists an optimal D for each dataset and choosing the right size D is important in improving the performance of boosting. We also tried to find the model for estimating the right size D suitable for boosting algorithm, using variables that can explain the nature of a given dataset. The suggested model reveals that the optimal tree size D for a given dataset can be estimated by the error rate of stump tree, the number of classes, the depth of a single tree, and the gini impurity.

Inference of Gene Phylogenetic Tree based on Decision Tree (결정트리 분류기법 기반 유전자 계통수 추론)

  • 김신석;황부현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.280-282
    • /
    • 2001
  • 분자생물학의 급진적 발전은 현대 계통분류학에 큰 변혁을 가져왔다. 특히 유전의 근원물질인 DNA나 RNA를 분리.조작.분석하는 기술의 발전으로 이를 이용만 계통수 제작은 계통생물학의 중요한 실험방법으로 자리잡고 있다. 그 중 염기서열 비교 방법은 현재 유전자 계통수 제작에 가장 널리 이용되는 방법이다. 하지만 이러만 계통수는 각 객체간의 거리만을 표현하고, 객체군간의 차이는 설명하기 힘들다. 본 연구에서는 염기서열의 상대적인 특징(유사도)을 대신하는 염기서열의 총량과 염기 함량 등을 이용해 새로이 분류 기법 중 결정트리 방법에 적응하고, 종 분류의 유전적 모델을 설계한다. 또한 결정트리의 클래스인 종은 상위 클래스들을 포함하고 있어, 본 논문에서는 기존의 결정트리 분류자를 수정한 단계적 결정트기 분류자를 제안한다.

  • PDF

A Study on the Categorization of Context-dependent Phoneme using Decision Tree Modeling (결정 트리 모델링에 의한 한국어 문맥 종속 음소 분류 연구)

  • 이선정
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.2
    • /
    • pp.195-202
    • /
    • 2001
  • In this paper, we show a study on how to model a phoneme of which acoustic feature is changed according to both left-hand and right-hand phonemes. For this purpose, we make a comparative study on two kinds of algorithms; a unit reduction algorithm and decision tree modeling. The unit reduction algorithm uses only statistical information while the decision tree modeling uses statistical information and Korean acoustical information simultaneously. Especially, we focus on how to model context-dependent phonemes based on decision tree modeling. Finally, we show the recognition rate when context-dependent phonemes are obtained by the decision tree modeling.

  • PDF

BBC;Bit-map Based Classification (비트맵을 활용한 분류 구현)

  • Cho, Yong-Joon;Lee, Sang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.63-66
    • /
    • 2005
  • 분류란 여러 분야에서 쌓인 정보 데이터를 분석하여, 결과값에 대한 공통속성을 찾아내어 새로운 입력 데이터에 대해 보다 보편적인 결과를 분석하거나 예측하는 기법이다. 의사 결정 트리는 이러한 분류의 한 형태로 저장된 데이터를 활용하여 선험적 지식을 취득하고, 새로운 데이터에 대한 예측을 발생시키는 데이터 분석 방법이다. 그러나, 의사 결정 트리의 여러 가지 장점에도 불구하고 트리 구성에 많은 비용이 소요되는 단점이 존재한다. 점점 대량의 데이터를 다루어야 하는 현대 사회에서는 이러한 단점이 더욱더 커질 수 밖에 없다. 본 논문에서는 이러한 문제점을 해결하고자 비트맵을 활용한 의사 결정 트리의 구현을 제안한다. 비트맵을 사용하게 되면 의사 결정 트리 생성의 가장 큰 비용인 속성값 측정에서 높은 효율을 유지할 수 있게 된다. 또한 보다 효율적이고, 확장성이 높은 의사 결정 트리를 구현할 수가 있다.

  • PDF

Design and Implementation for Tree Tag cloud model using tag grouping in blog (블로그에서 태그 그룹화를 이용한 트리형 Tag cloud 모델 설계 및 구현)

  • Choi, Seok-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.589-592
    • /
    • 2007
  • 웹사이트의 블로그에서 등록된 게시물을 분류, 표현하는 방식으로 카테고리 분류방식과 Tag cloud 분류방식을 사용하고 있다. 그러나 카테고리분류방식은 같은 게시물이라도 블로그 관리자별로 해당 분류의 생성기준이 주관적인 판단에 따라 다른 분류에 속할 수 있어 이용자들이 찾고자 하는 게시물을 검색하는데 많은 시간이 소요될 수 있다는 단점이 있다. 또한 이를 보완하는 방안으로 사용되는 Tag cloud 방식은 태그들을 흩어놓아 원하는 정보를 빠르게 찾는데 한계가 있다. 이에 본 논문은 블로그에서 태그들을 그룹화하여 구현한 트리형 Tag cloud(이하 'TreeTag cloud') 모델을 통해 카테고리 분류방식의 트리 구조의 장점인 직관성 및 구조화와 Tag cloud 분류방식의 장점인 짧은 search depth 를 결합하여 구현하는 방법을 제안하였다.

  • PDF