• Title/Summary/Keyword: 분류트리

Search Result 436, Processing Time 0.022 seconds

A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel (시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구)

  • Choi, Sung-Pil;Jeong, Chang-Hoo;Chun, Hong-Woo;Cho, Hyun-Yang
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.2
    • /
    • pp.251-275
    • /
    • 2011
  • In this paper, we propose a novel kernel called a semantic parse tree kernel that extends the parse tree kernel previously studied to extract protein-protein interactions(PPIs) and shown prominent results. Among the drawbacks of the existing parse tree kernel is that it could degenerate the overall performance of PPI extraction because the kernel function may produce lower kernel values of two sentences than the actual analogy between them due to the simple comparison mechanisms handling only the superficial aspects of the constituting words. The new kernel can compute the lexical semantic similarity as well as the syntactic analogy between two parse trees of target sentences. In order to calculate the lexical semantic similarity, it incorporates context-based word sense disambiguation producing synsets in WordNet as its outputs, which, in turn, can be transformed into more general ones. In experiments, we introduced two new parameters: tree kernel decay factors, and degrees of abstracting lexical concepts which can accelerate the optimization of PPI extraction performance in addition to the conventional SVM's regularization factor. Through these multi-strategic experiments, we confirmed the pivotal role of the newly applied parameters. Additionally, the experimental results showed that semantic parse tree kernel is superior to the conventional kernels especially in the PPI classification tasks.

Analysis of Leaf Node Ranking Methods for Spatial Event Prediction (의사결정트리에서 공간사건 예측을 위한 리프노드 등급 결정 방법 분석)

  • Yeon, Young-Kwang
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.17 no.4
    • /
    • pp.101-111
    • /
    • 2014
  • Spatial events are predictable using data mining classification algorithms. Decision trees have been used as one of representative classification algorithms. And they were normally used in the classification tasks that have label class values. However since using rule ranking methods, spatial prediction have been applied in the spatial prediction problems. This paper compared rule ranking methods for the spatial prediction application using a decision tree. For the comparison experiment, C4.5 decision tree algorithm, and rule ranking methods such as Laplace, M-estimate and m-branch were implemented. As a spatial prediction case study, landslide which is one of representative spatial event occurs in the natural environment was applied. Among the rule ranking methods, in the results of accuracy evaluation, m-branch showed the better accuracy than other methods. However in case of m-brach and M-estimate required additional time-consuming procedure for searching optimal parameter values. Thus according to the application areas, the methods can be selectively used. The spatial prediction using a decision tree can be used not only for spatial predictions, but also for causal analysis in the specific event occurrence location.

Optimum Range Cutting for Packet Classification (최적화된 영역 분할을 이용한 패킷 분류 알고리즘)

  • Kim, Hyeong-Gee;Park, Kyong-Hye;Lim, Hye-Sook
    • Journal of KIISE:Information Networking
    • /
    • v.35 no.6
    • /
    • pp.497-509
    • /
    • 2008
  • Various algorithms and architectures for efficient packet classification have been widely studied. Packet classification algorithms based on a decision tree structure such as HiCuts and HyperCuts are known to be the best by exploiting the geometrical representation of rules in a classifier. However, the algorithms are not practical since they involve complicated heuristics in selecting a dimension of cuts and determining the number of cuts at each node of the decision tree. Moreover, the cutting is not efficient enough since the cutting is based on regular interval which is not related to the actual range that each rule covers. In this paper, we proposed a new efficient packet classification algorithm using a range cutting. The proposed algorithm primarily finds out the ranges that each rule covers in 2-dimensional prefix plane and performs cutting according to the ranges. Hence, the proposed algorithm constructs a very efficient decision tree. The cutting applied to each node of the decision tree is optimal and deterministic not involving the complicated heuristics. Simulation results for rule sets generated using class-bench databases show that the proposed algorithm has better performance in average search speed and consumes up to 3-300 times less memory space compared with previous cutting algorithms.

An Exploratory Study on Survey Data Categorization using DDI metadata (메타데이터를 활용한 조사자료의 문서범주화에 관한 연구)

  • Park, Ja-Hyun;Song, Min
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2012.08a
    • /
    • pp.73-76
    • /
    • 2012
  • 본 연구는 DDI 메타데이터를 활용하여 귀납적 학습모델(supervised learning model)의 문서범주화 실험을 수행함으로써 조사자료의 체계적이고 효율적인 분류작업을 설계하는데 그 목적이 있다. 구체적으로 조사자료의 DDI 메타데이터를 대상으로 단순 TF 가중치, TF-IDF 가중치, Okapi TF 가중치에 따른 나이브 베이즈(Naive Bayes), kNN(k nearest neighbor), 결정트리(Decision tree) 분류기의 성능비교 실험을 하였다. 그 결과, 나이브 베이즈가 가장 좋은 성능을 보였으며, 단순 TF 가중치와 TF-IDF 가중치는 나이브 베이즈, kNN, 결정트리 분류기에서 동일한 성능을 보였으나, Okapi TF 가중치의 경우 나이브 베이즈에서 가장 좋은 성능을 보였다.

  • PDF

Human Gender Recognition Using Neural Network Ensembles (신경망 앙상블을 이용한 인간 성별 인식)

  • Ryu, Jung-Won;Cho, Sung-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.555-558
    • /
    • 2001
  • 본 논문에서는 인간 행동의 성별 인식문제를 해결하기 위해 여러 개의 전문가(expert) 신경망의 앙상블로 이루어진 결합 신경망 분류기를 제안한다. 하나는 여러 개의 modular 다층퍼셉트론을 계층형으로 결합한 모텔이고, 다른 하나는 modular 다층퍼셉트론들의 출력값을 의사결정트리로 결합하는 모델이다. 데이터 베이스는 남녀 각 13 명의 데이터로 이루어져 있고, 문 두드리기, 손 흔들기, 물건 들어올리기의 세 가지 동작을, 보통 상태 혹은 화난 상태하에서 10 회씩 반복 수행하여 저장하였다. 행위자의 움직임은 몸에 부착된 6 개의 적외선 센서를 사용하여 기록 되었으며, 2 차원 혹은 3 차원 속도 및 좌표가 그 특징값으로 사용되었다. 앙상블 분류기의 성능을 비교하기 위하여 단일 다층퍼셉트론, 의사결정트리, 자기구성지도 및 support vector machine 을 사용한 실험 결과를 보였다. 실험 결과, 신경망 앙상블 모델이 다른 전통적인 분류기 및 사람에 비하여 훨씬 우수한 성능을 보였음을 알 수 있었다.

  • PDF

Classification of Brain MR Images using 2 Level Decision Tree Learning (2 단계 결정 트리 학습을 이용한 뇌 MR 영상 분류)

  • Kim, Yong-Uk;Kim, Jun-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.341-344
    • /
    • 2001
  • 본 논문에서는 학습을 수행하여 뇌 MR 이미지를 자동으로 분류하고 검색하는 시스템을 설계하였다. 이미지로부터 얻을 수 있는 정보는 크게 두 가지 부류로 나눌 수 있다. 이미지 자체로부터 얻을수 있는 크기, 색상, 질감, 윤곽선 등의 하위레벨(low-level) 정보가 있고, 이미지 의미 해석에서 오는 전이, 포함, 방향, 등의 상위레벨(high-level) 정보가 있다. 이 논문은 의료 이미지에 대하여 상위 및 하위 레벨 정보의 각 특징을 살리고 효과적으로 검색하기 위해, 두 부류의 이미지 정보에 대한 결정 트리(Decision Tree) 학습을 2 단계로 적용하여 이미지를 분류하도록 시스템을 설계하였다.

  • PDF

Machine Learning Based Blog Text Opinion Classification System Using Opinion Word Centered-Dependency Tree Pattern Features (의견어중심의 의존트리패턴자질을 이용한 기계학습기반 한국어 블로그 문서 의견분류시스템)

  • Kwak, Dong-Min;Lee, Seung-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.337-338
    • /
    • 2009
  • 블로그문서의 의견극성분류 연구는 주로 기계학습기법에 기반한 방법이었고, 이때 주로 활용된 자질은 명사, 동사 등의 품사정보와 의견어 어휘정보였다. 하지만 하나의 의견어 어휘만을 고려한다면 그 극성을 판별하는데 필요한 정보가 충분하지 않아 부정확한 결과를 도출하는 경우가 발생할 수 있다. 본 논문에서는 여러 어휘를 동시에 고려하였을 때 보다 정확한 의견분류를 수행할 수 있을 것이라는 가정을 세웠다. 본 논문에서는 효과적인 의견어휘자질의 추출을 위하여 의견이 내포될 가능성이 높은 의견어휘를 기반으로 의존구문분석을 통해 의존트리패턴을 추출하였고, 제안하는 PF-IDF가중치를 적용하여 지지벡터기계(SVM)와 다항시행접근 단순베이지안(MNNB)알고리즘으로 비교 실험을 수행하였다. 기준시스템인 TF-IDF가중치 기법에 비해 정확도(accuracy)가 지지벡터기계에서 5%, 다항시행접근 단순베이지안에서 8.9% 향상된 성능을 보였다.

A Hierarchical Packet Classification Algorithm Using Set-Pruning Binary Search Tree (셋-프루닝 이진 검색 트리를 이용한 계층적 패킷 분류 알고리즘)

  • Lee, Soo-Hyun;Lim, Hye-Sook
    • Journal of KIISE:Information Networking
    • /
    • v.35 no.6
    • /
    • pp.482-496
    • /
    • 2008
  • Packet classification in the Internet routers requires multi-dimensional search for multiple header fields for every incoming packet in wire-speed, hence packet classification is one of the most important challenges in router design. Hierarchical packet classification is one of the most effective solutions since search space is remarkably reduced every time a field search is completed. However, hierarchical structures have two intrinsic issues; back-tracking and empty internal nodes. In this paper, we propose a new hierarchical packet classification algorithm which solves both problems. The back-tracking is avoided by using the set-pruning and the empty internal nodes are avoided by applying the binary search tree. Simulation result shows that the proposed algorithm provides significant improvement in search speed without increasing the amount of memory requirement. We also propose an optimization technique applying controlled rule copy in set-pruning.

A Study on the Efficient Algorithm for Converting Range Matching Rules into TCAM Entries in the Packet Filtering System (패킷 필터링 시스템에서 범위 규칙의 효율적 TCAM 엔트리 변환 알고리즘 연구)

  • Kim, Yong-Kwon;Cho, Hyun-Mook;Choe, Jin-Kyu;Lee, Kyou-Ho;Ki, Jang-Geun
    • Journal of IKEEE
    • /
    • v.9 no.1 s.16
    • /
    • pp.19-30
    • /
    • 2005
  • Packet classification is defined as the action to match the packet with a set of predefined rules. One of classification is to use Ternary Content Addressable Memory hardware search engine that has faster than other algorithmic methods. However, TCAM has some limitations. One of them is that TCAM can not perform range matching efficiently. A range has to be expanded into prefixes to fit the boundary. In general, the number of expansion could be up to 2w-2, where w is the width of the field. For example, if two range fields with 16 bits are used, there could be up to $30\;{\times}\;30\;=\;900$ expansions for a single rule. In this paper, we describe the novel algorithm for converting range matching rules into TCAM entry efficiently. The number of maximum entry is 2w-4 when using the algorithm. Furthermore, it has also benefit about the negation range. In the result of experimentation, the new scheme practically reduces 14 percent in case that searched fields are source port and destination port number.

  • PDF

Extraction of Blood Velocity Using FCM and Fuzzy Decision Trees in Doppler Ultrasound Images of Brachial Artery (상완동맥 색조 도플러 초음파 영상에서 FCM과 퍼지 의사 결정 트리를 이용한 혈류 속도 추출)

  • Kim, Kwang Baek;Jung, Young Jin;Nam, Youn Man;Lee, Jae Yeol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.19-22
    • /
    • 2019
  • 상완동맥은 어깨에서부터 팔꿈치까지 내려오는 상완골의 내측부에 존재하며 혈압을 측정할 때 사용되는 혈관이다. 이 혈관은 골절로 인해 찢어지거나, 또는 혈액순환에 문제가 생겨 혈관이 막히는 경우가 발생한다. 이러한 경우 혈관의 상태를 확인하기 위하여 색조 도플러 초음파 검사를 사용하지만, 사용자에 따라 영상을 통한 판단 기준이 다르다는 문제점이 발생한다. 따라서 본 논문에서는 FCM과 Fuzzy Decision Tree를 이용한 영상 처리를 통해 일관성 있는 판단기준을 세우기 위한 혈류의 속도를 제안한다. 색조 도플러 초음파 영상에서의 상완 동맥을 추출하여 기울기를 이용한 FCM 알고리즘을 통해 소속도를 추출한 뒤 퍼지 룰에 적용하여 의사 결정 트리로 등급을 분류하고 결과적으로 혈류 속도를 추출한다. 색조 도플러 초음파 영상에서 환자의 개인 정보를 보호하기 위해 개인 정보 영역을 제거하여 ROI 영역을 추출하고 ROI 영역을 이진화를 통하여 상완동맥이 있는 영역을 추출한다. 이진화 된 ROI 영역에서 혈관 영상의 혈류 방향으로의 무게중심을 설정하고 각각의 픽셀과 무게중심 선과의 거리를 이용하여 소속도를 추출한 후 FCM을 사용하여 최적의 기울기를 선정한다. FCM을 통해 추출한 최종 소속도를 이용하여 퍼지 룰에 적용한 뒤 계산된 T-norm과 소속도의 분산을 이용하여 의사 결정 트리를 형성 트리의 단말 노드들은 각 픽셀을 분류한다. 분류되어진 데이터들의 노드별 소속도 평균을 구한 뒤 디퍼지화를 통해 COG(Center of Gravity)를 계산한다. 마지막으로 그 값을 이용하여 혈류 속도에 영향을 미치는 정도를 계산한 뒤 최종 혈류의 속도를 제안한다.

  • PDF