• Title/Summary/Keyword: 최적 분류

Search Result 1,052, Processing Time 0.029 seconds

Comparison of Gene Selection Method for Prediction of Non-muscle Bladder Cancer Recurrence (비침윤성 방광암 환자의 재발 예측을 위한 유전자 선택 기법 비교)

  • Lee, Kyung Seok;Park, Hyun Woo;Park, Soo Ho;Yun, Seok Joong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.87-89
    • /
    • 2013
  • 이 논문에서는 비침윤성 방광암 환자의 재발 예측을 위해 마이크로어레이 데이터에서 최적의 속성 부분 집합을 찾고 이를 비교 평가한다. 정보 이득(information gain)을 통해 구한 상위 40개, 80개, 100개의 속성 집합과 FCBF(fast correlation based filter) 알고리즘을 적용하여 구한 최적의 속성 부분집합을 SVM 분류 모델에 적용하여 정확도를 비교 평가한 결과 정보 이득을 적용한 상위 100개 속성 부분집합의 분류 정확도가 가장 높게 나왔으며, FCBF 알고리즘을 적용한 속성 집합은 비교적 적은 속성을 사용하면서 이와 비슷한 분류 정확도를 보임을 확인할 수 있었다.

A Study on Parameter Tuning for Redis via Parameter Classification and Phased Bayesian Optimization (Redis 파라미터 분류 및 단계적 베이지안 최적화를 통한 파라미터 튜닝 연구)

  • Jo, Seong-Woon;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.476-479
    • /
    • 2021
  • DBMS 파라미터 튜닝이란 데이터베이스에서 제공하는 다양한 파라미터의 값을 조율하여, 최적의 성능을 도출하는 과정이다. 데이터베이스 종류에 따라 파라미터 개수가 수십 개에서 수백 개로 다양하며, 각 기능이 모두 다르기 때문에 최적의 조합을 찾는 것은 쉽지 않다. 선행 연구에서는 BO 기법을 사용하여 적절한 파라미터 값을 추출했지만, 파라미터 개수에 비례하여 차원이 커지는 문제가 발생한다. 본 논문에서는 통계적으로 파라미터를 분류하여 탐색 공간을 줄인 다음 단계적으로 BO 를 수행하는 PBO 방식을 제안한다. 파라미터 값을 랜덤하게 할당하여 벤치마킹한 결과값을 군집화한 후, 각 군집별로 파라미터와의 연관성을 분석해 높은 상관관계를 가진 파라미터를 매칭시켜 분류한다. 제안하는 방법론을 검증하기 위하여 8 가지 회귀 모델과의 비교 실험을 통해 제안한 방법론의 우수성을 검증하였다.

Development of Smart Automatic Sorting System Based on Optimal Path Design Using Genetic Algorithm (유전알고리즘을 이용한 최적경로설계 기반 스마트 자동분류 시스템 제작)

  • Seo, DongWon;Moon, GeonWoo;Sin, DongYub
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.910-912
    • /
    • 2022
  • 최근 물류업계는 코로나 펜데믹 이후 비대면 활동의 증가로 물류의 양이 빠르게 증가하고 있는 추세이다. 이를 해결하기 위해 업계는 인력을 계속해서 투입하고 있지만, 물동량 증가율을 따라잡지 못하고 있다. 본 논문에서는 유전알고리즘으로 결정된 최적 배송 순서 기반으로 작동하는 스마트 자동분류 시스템을 개발함으로써 이 현상을 해결하고자 한다. 해당 시스템은 결정된 배송순서에 맞게 택배를 자동으로 분류할 수 있고, 최종적으로 근무환경 개선과 물류효율성 증대에 기여할 것으로 기대한다.

Selecting the optimal threshold based on impurity index in imbalanced classification (불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택)

  • Jang, Shuin;Yeo, In-Kwon
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.5
    • /
    • pp.711-721
    • /
    • 2021
  • In this paper, we propose the method of adjusting thresholds using impurity indices in classification analysis on imbalanced data. Suppose the minority category is Positive and the majority category is Negative for the imbalanced binomial data. When categories are determined based on the commonly used 0.5 basis, the specificity tends to be high in unbalanced data while the sensitivity is relatively low. Increasing sensitivity is important when proper classification of objects in minority categories is relatively important. We explore how to increase sensitivity through adjusting thresholds. Existing studies have adjusted thresholds based on measures such as G-Mean and F1-score, but in this paper, we propose a method to select optimal thresholds using the chi-square statistic of CHAID, the Gini index of CART, and the entropy of C4.5. We also introduce how to get a possible unique value when multiple optimal thresholds are obtained. Empirical analysis shows what improvements have been made compared to the results based on 0.5 through classification performance metrics.

Phytogeographic study on the Holocene hypsithermal relict plant populations in the Korean peninsula (한반도 홀로세 기후최적기 잔존집단의 식물지리학적 연구)

  • Kim, Jin-Seok;Chung, Jae-Min;Kim, Sun-Yu;Kim, Jung-Hyun;Lee, Byoung-Yoon
    • Korean Journal of Plant Taxonomy
    • /
    • v.44 no.3
    • /
    • pp.208-221
    • /
    • 2014
  • The Holocene Hypsithermal Interval(or climatic optimum) was the warmest post-glacial period: temperatures rose to as much as $1-4^{\circ}C$ above present temperatures. We hypothesize that southern plants expanded northward and upward during the Hypsithermal Interval. The Hypsithermal relict populations are defined as populations which distribute mainly in Is. Cheju and Southern subregions and have populations of short-distance dispersion separated by more than 100 km from the nearest distribution. The Hypsithermal relict species were identified and their distributions were mapped based on botanical floras and checklist, herbaria specimens, ecological studies, and field surveys of selected species. Evaluation of the hypothesis was based on reviews of published pollen stratigraphic and paleoecological studies. The results showed that the Holocene Hypsithermal relicts such as Corylopsis coreana Uyeki, Carpinus turczaninowii Hance, Stewartia koreana Nakai ex Rehder were expanded northward during the Holocene Hypsithermal Interval.

Coupled data classification method using unsupervised learning and fuzzy logic in Cloud computing environment (클라우드 컴퓨팅 환경에서 무감독학습 방법과 퍼지이론을 이용한 결합형 데이터 분류기법)

  • Cho, Kyu-Cheol;Kim, Jae-Kwon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.8
    • /
    • pp.11-18
    • /
    • 2014
  • In This paper, we propose the unsupervised learning and fuzzy logic-based coupled data classification method base on ART. The unsupervised learning-based data classification helps improve the grouping technique, but decreases the processing efficiency. However, the data classification requires the decision technique to induce high success rate of data classification with optimal threshold. Therefore it is also necessary to solve the uncertainty of the threshold decision. The proposed method deduces the optimal threshold with the designing of fuzzy parameter and rules. In order to evaluate the proposed method, we design the simulation model with the GPCR(G protein coupled receptor) data in cloud computing environment. Simulation results verify the efficiency of our method with the high recognition rate and low processing time.

Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm (유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색)

  • 박찬호;조성배
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.4
    • /
    • pp.525-536
    • /
    • 2004
  • Gene expression profile is numerical data of gene expression level from organism, measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify disease with gene expression profile. Because all genes are not related to disease, it is needed to select related genes that is called feature selection, and it is needed to classify selected genes properly. This paper Proposes GA based method for searching optimal ensemble of feature-classifier pairs that are composed with seven feature selection methods based on correlation, similarity, and information theory, and six representative classifiers. In experimental results with leave-one-out cross validation on two gene expression Profiles related to cancers, we can find ensembles that produce much superior to all individual feature-classifier fairs for Lymphoma dataset and Colon dataset.

Feature Extraction based on Auto Regressive Modeling and an Premature Contraction Arrhythmia Classification using Support Vector Machine (Auto Regressive모델링 기반의 특징점 추출과 Support Vector Machine을 통한 조기수축 부정맥 분류)

  • Cho, Ik-sung;Kwon, Hyeog-soong;Kim, Joo-man;Kim, Seon-jong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.2
    • /
    • pp.117-126
    • /
    • 2019
  • Legacy study for detecting arrhythmia have mostly used nonlinear method to increase classification accuracy. Most methods are complex to process and manipulate data and have difficulties in classifying various arrhythmias. Therefore it is necessary to classify various arrhythmia based on short-term data. In this study, we propose a feature extraction based on auto regressive modeling and an premature contraction arrhythmia classification method using SVM., For this purpose, the R-wave is detected in the ECG signal from which noise has been removed, QRS and RR interval segment is modelled. Also, we classified Normal, PVC, PAC through SVM in realtime by extracting four optimal segment length and AR order. The detection and classification rate of R wave and PVC is evaluated through MIT-BIH arrhythmia database. The performance results indicate the average of 99.77% in R wave detection and 99.23%, 97.28%, 96.62% in Normal, PVC, PAC classification.

The study on the object recognition using Fuzzy Classification system based on Support Vector (서포트 벡터 기반 퍼지 분류 시스템을 이용한 물체 인식)

  • Kim, Sung-Jin;Won, Sang-Chul
    • Proceedings of the KIEE Conference
    • /
    • 2003.11b
    • /
    • pp.167-170
    • /
    • 2003
  • 본 논문에서는 패턴 인식의 전형적인 경우인 보이기 기반 물체 인식(Appearance based object recognition)을 수행하기 위하여, 일반적인 퍼지 분류 모델과, 서포트 벡터 머신을 하이브리드(hybrid) 하게 연결한 서포트 벡터 기반 퍼지 분류 시스템이라는 새로운 방법을 제안하고 이에 대하여 연구한다. 일반적인 분류(classification)문제의 경우 두 클래스로 구분하는데 최적의 성능을 가지고 있는 서포트 벡터 머신이 다중클래스(Multiclass)의 경우 발생 하는 계산량의 증가 문제를 해 결하기 위하여 다중 클래스 분류(Multiclass classification)에 장점을 가진 퍼지 분류 시스템을 도입, 서포트 벡터 머신에 연결함으로써 단점을 보완하는 시스템을 제안한다. 즉 서포트 벡터 머신을 통해 퍼지 시스템의 구조를 러닝(learning)하는데 사용하여 최종 적으로는 퍼지 분류 시스템(Fuzzy Classifier)이 나오도록 하는 것이다. 이 시스템의 성능을 확인하고자 여러 가지 물체들에 대한 이미지를 가지고 있는 COIL(Columbia Object Image Library) 데이터 베이스를 사용하여 보이기 기반 물체 인식(Appearance based Object Recognition)을 수행 하였으며 이를 순수한 서포트 벡터 머신만을 이용하여 물체 인식을 수행한 경우와 정확도 및 인식 시간에 대하여 비교하였다.

  • PDF

The guideline for choosing the right-size of tree for boosting algorithm (부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구)

  • Kim, Ah-Hyoun;Kim, Ji-Hyun;Kim, Hyun-Joong
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.5
    • /
    • pp.949-959
    • /
    • 2012
  • This article is to find the right size of decision trees that performs better for boosting algorithm. First we defined the tree size D as the depth of a decision tree. Then we compared the performance of boosting algorithm with different tree sizes in the experiment. Although it is an usual practice to set the tree size in boosting algorithm to be small, we figured out that the choice of D has a significant influence on the performance of boosting algorithm. Furthermore, we found out that the tree size D need to be sufficiently large for some dataset. The experiment result shows that there exists an optimal D for each dataset and choosing the right size D is important in improving the performance of boosting. We also tried to find the model for estimating the right size D suitable for boosting algorithm, using variables that can explain the nature of a given dataset. The suggested model reveals that the optimal tree size D for a given dataset can be estimated by the error rate of stump tree, the number of classes, the depth of a single tree, and the gini impurity.