• 제목/요약/키워드: 분류트리

검색결과 433건 처리시간 0.027초

웹 에이전트를 위한 문서 자동 분류 (Document Autoclustering for Web Agent)

  • 양찬범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.54-56
    • /
    • 1999
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심정보를 학습하고 사용자가 필요로 한느 웹 상의 정보를 제공하는 시스템이다. 웹 에이전트는 사용자의 관심정보를 추출하기 위해서 귀납적 기계학습을 수행한다. 이때, 학습의 효율을 높이기 위해서는 관련이 있는 문서들을 그룹화하여 학습 시스템에 제공하여야 한다. 본 논문에서는 비감독 개념 학습 알고리즘인 COBWEB을 이용하여 사용자가 관심을 표시한 문서들의 분류트리를 생성한다. 분류트리는 귀납적 기계학습 시스템의 입력으로 사용될 수 있는 형태가 아니므로 분류 트리의 분석과 문서 분류 후처리 작업을 통해서 문서 집합을 생성해야 한다. 이를 위해서는 분류트리를 분석하여 초기 클러스터를 생성하고, 유사한 클러스터들의 병합을 수행한다. 본 논문에서 제안하는 문서 자동 분류 방식은 비감독 개념 학습 알고리즘이 생성한 문서 분류 트리의 분석을 통해서 충분한 유사도와 적절한 수의 문서를 포함하는 초기 클러스터를 생성할 수 있다. 그러므로 문서 분류의 후처리 작업인 클러스터의 병합 작업에서 불필요한 작업을 제거함으로서 보다 효과적이고 합리적인 문서 분류 작업을 수행한다.

  • PDF

특징 공간을 사선 분할하는 퍼지 결정 트리 (A Fuzzy Decision Tree to Partition Feature Space with Oblique Planes)

  • 이우항;이건명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.21-23
    • /
    • 1999
  • 결정 트리는 실세계에서 얻어지는 많은 사례들로부터 분류 정보를 얻기 위해 사용되는 유용한 방법중의 하나이다. 분류를 목적으로 사용되는 사례, 즉 데이터들은 실제 현장에서 얻어지기 때문에 관측오류, 불확실성, 주관적인 판단 등의 원인으로 참 값이 아닌 근사 값으로써 기술되는 경우가 많으며, 이러한 잠재적 오류로 인해 잘못된 결정 트리가 생성될 수 있다. 한편, 트리를 생성하는 각각의 과정에서 하나의 특징 값만을 고려하지 않고 두 가지 이상의 특징 값을 동시에 고려하여 결정 트리를 생성할 경우 보다 정확한 분류 정보를 기대할 수 있다. 본 논문에서는 수치 특징 값으로 기술된 데이터로부터 보다 정확한 분류 정보를 얻을 수 있고, 작은 오류에 강건한 사선형 분할 퍼지 결정 트리를 제안한다. 또한 제안된 사선형 분할 퍼지 결정 트리의 생성 절차 및 생성된 결정 트리를 이용하여 새로운 데이터에 분류 정보를 부여하는 추론 과정을 소개한다.

  • PDF

데이터 마이닝을 위한 LVQ 기반 신경 트리 분류기 (Neural Tree Classifier based on LVQ for Data Mining)

  • 김세현;김은주;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.157-159
    • /
    • 2001
  • 신경 트리는 신경망과 결정 트리의 구조를 결합한 형태의 분류기로서 비선형적 결정 경계 형성이 가능하며 기존 신경망에 비해 학습, 출력시 계산량이 적다는 장점을 갖는다. 본 논문에서는 신경 트리의 노드를 구성하는 신경망을 학습하기 위하여 기존의 방법들과는 달리 교사 학습 방법인 LVQ3 알고리즘을 사용하는 신경 트리 분류기를 제안한다. 학습 과정을 통해 생성된 트리는 오인식율 추정을 이용한 가지치기를 통하여 효율적인 트리로 재구성된다. 제안하는 방법은 실제 데이터 집합들을 이용한 실험을 통하여 그 성능을 검증하였다.

  • PDF

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

Improving Classification Accuracy in Hierarchical Trees via Greedy Node Expansion

  • Byungjin Lim;Jong Wook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.113-120
    • /
    • 2024
  • 정보통신 기술이 발전함에 따라 우리는 일상에서 다양한 형태의 데이터를 손쉽게 생성하고 있다. 이처럼 방대한 데이터를 효율적으로 관리하려면, 체계적인 카테고리별 분류가 필수적이다. 효율적인 검색과 탐색을 위해서 데이터는 트리 형태의 계층적 구조인 범주 트리로 조직화되는데, 이는 뉴스 웹사이트나 위키피디아에서 자주 볼 수 있는 구조이다. 이에 따라 방대한 양의 문서를 범주 트리의 단말 노드로 분류하는 다양한 기법들이 제안되었다. 그러나 범주 트리를 대상으로 하는 문서 분류기법들은 범주 트리의 높이가 증가할수록 단말 노드의 수가 기하급수적으로 늘어나고 루트 노드부터 단말 노드까지의 길이가 길어져서 오분류 가능성이 증가하며, 결국 분류 정확도의 저하로 이어진다. 그러므로 본 연구에서는 사용자의 요구 분류 정확도를 만족시키면서 세분화된 분류를 구현할 수 있는 새로운 노드 확장 기반 분류 알고리즘을 제안한다. 제안 기법은 탐욕적 접근법을 활용하여 높은 분류정확도를 갖는 노드를 우선적으로 확장함으로써, 범주 트리의 분류 정확도를 극대화한다. 실데이터를 이용한 실험 결과는 제안 기법이 단순 방법보다 향상된 성능을 제공함을 입증한다.

부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구 (The guideline for choosing the right-size of tree for boosting algorithm)

  • 김아현;김지현;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.949-959
    • /
    • 2012
  • 범주형 목표변수를 잘 예측하기 위한 데이터마이닝 방법 중에서 최근에는 여러 단일 분류자를 결합한 앙상블 기법이 많이 활용되고 있다. 앙상블 기법 가운데 부스팅은 재표본 시 분류하기 어려운 관찰치의 가중치를 높여 분류자가 해당 관찰치에 보다 집중할 수 있도록 함으로써 다른 앙상블 기법에 비해 오차를 효과적으로 감소시키는 방법으로 알려져 있다. 부스팅을 구성하는 분류자를 의사결정나무로 둔 부스팅 트리 모형의 경우 각 트리의 사이즈를 결정해야 하는데, 본 연구에서는 자료 별로 부스팅 트리에 가장 적합한 트리사이즈가 서로 다를수 있다고 가정하고, 주어진 자료에 맞는 트리사이즈를 추정하는 문제에 대해 논의하였다. 우선 트리사이즈가 부스팅 트리의 정확도에 중요한 영향을 미치는가를 파악하기 위하여 28개의 자료를 대상으로 실험을 수행하였으며, 그 결과 트리사이즈를 결정하는 문제가 모형 전체의 성능을 결정하는데 상당한 역할을 한다는 것을 확인할 수 있었다. 또한 그 결과를 바탕으로 최적의 트리사이즈에 영향을 미칠 것으로 판단되는 몇 가지 특성 변수를 정의하고, 해당 변수를 이용하여 부스팅 트리에서의 최적 트리사이즈를 설명하는 모형을 구성해 보았다. 자료 별로 고유한 최적의 트리사이즈는 자료의 특성에 의존적일 가능성도 있으므로 본 연구에서 제안하는 추정방법은 최적 트리사이즈를 결정하기 위한 출발점 또는 가이드라인으로 활용하는 것이 적절할 것이다. 기존에는 부스팅 트리의 사이즈에 대한 값으로 목표변수의 범주의 개수를 활용하였는데, 본 모형에서 제안하는 트리사이즈의 추정치로 부스팅 트리를 구축한 경우 기존방법에 비해 분류정확도를 유의미하게 개선하는 것을 확인할 수 있었다.

결정트리 분류기법 기반 유전자 계통수 추론 (Inference of Gene Phylogenetic Tree based on Decision Tree)

  • 김신석;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.280-282
    • /
    • 2001
  • 분자생물학의 급진적 발전은 현대 계통분류학에 큰 변혁을 가져왔다. 특히 유전의 근원물질인 DNA나 RNA를 분리.조작.분석하는 기술의 발전으로 이를 이용만 계통수 제작은 계통생물학의 중요한 실험방법으로 자리잡고 있다. 그 중 염기서열 비교 방법은 현재 유전자 계통수 제작에 가장 널리 이용되는 방법이다. 하지만 이러만 계통수는 각 객체간의 거리만을 표현하고, 객체군간의 차이는 설명하기 힘들다. 본 연구에서는 염기서열의 상대적인 특징(유사도)을 대신하는 염기서열의 총량과 염기 함량 등을 이용해 새로이 분류 기법 중 결정트리 방법에 적응하고, 종 분류의 유전적 모델을 설계한다. 또한 결정트리의 클래스인 종은 상위 클래스들을 포함하고 있어, 본 논문에서는 기존의 결정트리 분류자를 수정한 단계적 결정트기 분류자를 제안한다.

  • PDF

결정 트리 모델링에 의한 한국어 문맥 종속 음소 분류 연구 (A Study on the Categorization of Context-dependent Phoneme using Decision Tree Modeling)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.195-202
    • /
    • 2001
  • 본 논문에서는 한국어 음소가 좌, 우 음소에 따라 발음 방식이 달라질 때 매 음소를 모델링 하는 방법에 관한 연구를 수행한다. 이를 위해 유니트 감소 알고리즘과 결정 트리(Decision Tree)를 사용하는 방법을 사용하여 비교 연구한다. 유니트 감소 알고리즘은 통계적 특성만을 이용한 알고리즘이며 결정 트리 모델링 방식은 한국어 음운정보와 통계적 정보를 이용하여 문맥종속 음소를 분류하는 방식이다. 특히 본 논문에서는 결정 트리를 사용하여 문맥종속 음소를 분류하는 것에 대하여 상세히 기술한다. 마지막으로 결정 트리를 사용하여 분류된 문맥종속 음소의 성능을 실험하였다.

  • PDF

비트맵을 활용한 분류 구현 (BBC;Bit-map Based Classification)

  • 조용준;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.63-66
    • /
    • 2005
  • 분류란 여러 분야에서 쌓인 정보 데이터를 분석하여, 결과값에 대한 공통속성을 찾아내어 새로운 입력 데이터에 대해 보다 보편적인 결과를 분석하거나 예측하는 기법이다. 의사 결정 트리는 이러한 분류의 한 형태로 저장된 데이터를 활용하여 선험적 지식을 취득하고, 새로운 데이터에 대한 예측을 발생시키는 데이터 분석 방법이다. 그러나, 의사 결정 트리의 여러 가지 장점에도 불구하고 트리 구성에 많은 비용이 소요되는 단점이 존재한다. 점점 대량의 데이터를 다루어야 하는 현대 사회에서는 이러한 단점이 더욱더 커질 수 밖에 없다. 본 논문에서는 이러한 문제점을 해결하고자 비트맵을 활용한 의사 결정 트리의 구현을 제안한다. 비트맵을 사용하게 되면 의사 결정 트리 생성의 가장 큰 비용인 속성값 측정에서 높은 효율을 유지할 수 있게 된다. 또한 보다 효율적이고, 확장성이 높은 의사 결정 트리를 구현할 수가 있다.

  • PDF

블로그에서 태그 그룹화를 이용한 트리형 Tag cloud 모델 설계 및 구현 (Design and Implementation for Tree Tag cloud model using tag grouping in blog)

  • 최석순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.589-592
    • /
    • 2007
  • 웹사이트의 블로그에서 등록된 게시물을 분류, 표현하는 방식으로 카테고리 분류방식과 Tag cloud 분류방식을 사용하고 있다. 그러나 카테고리분류방식은 같은 게시물이라도 블로그 관리자별로 해당 분류의 생성기준이 주관적인 판단에 따라 다른 분류에 속할 수 있어 이용자들이 찾고자 하는 게시물을 검색하는데 많은 시간이 소요될 수 있다는 단점이 있다. 또한 이를 보완하는 방안으로 사용되는 Tag cloud 방식은 태그들을 흩어놓아 원하는 정보를 빠르게 찾는데 한계가 있다. 이에 본 논문은 블로그에서 태그들을 그룹화하여 구현한 트리형 Tag cloud(이하 'TreeTag cloud') 모델을 통해 카테고리 분류방식의 트리 구조의 장점인 직관성 및 구조화와 Tag cloud 분류방식의 장점인 짧은 search depth 를 결합하여 구현하는 방법을 제안하였다.

  • PDF