• 제목/요약/키워드: Support Vector Machine-Recursive Feature Elimination

검색결과 13건 처리시간 0.027초

붓스트랩 방법을 활용한 SVM 기반 유전자 선택 기법 (Gene Selection Based on Support Vector Machine using Bootstrap)

  • 송석헌;김경희;박창이;구자용
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.531-540
    • /
    • 2007
  • 본 연구에서는 유전자 선택 방법으로 최근 이용되는 SVM-RFE 알고리즘은 단순히 가중치의 절대값을 유전자 선택 기준으로 사용하여 유전자 값의 변동성을 고려하지 못하므로 가중치의 절대값을 그것의 표준오차로 나눈 보완된 통계량, B-RFE 알고리즘을 새로운 기준으로 제안하였다. 두 방법을 모의실험을 통해서 비교한 결과 본 연구에서 제안한 B-RFE 알고리즘이 더 의미 있는 순위를 도출하였다.

RNAseq 빅데이터에서 유전자 선택을 위한 밀집도-의존 정규화 기반의 서포트-벡터 머신 병합법 (Combining Support Vector Machine Recursive Feature Elimination and Intensity-dependent Normalization for Gene Selection in RNAseq)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제18권5호
    • /
    • pp.47-53
    • /
    • 2017
  • 고처리 시퀀싱과 빅데이터 및 크라우드 컴퓨팅에 혁신이 일어나면서, RNA 시퀀싱도 획기적인 변화가 일어, RNAseq가 기존의 DNA 마이크로어레이를 대체하여, 빅-데이터를 형성하고 있다. 현재, RANseq 이용한 유전자 조절망(GRN) 까지 연구가 활성화 되고 있는데, 그 중 한 분야가 GRN의 기본 요소인 특징 유전자를 빅-데이터에서도 구별하고 기존에 알려진 것 외에 새로운 역할을 찾는 것이다. 그러나, 이러한 연구 방향에 부합하는 빅-데이터를 처리할 수 있는 컴퓨테이션 방법이 아직까지 매우 부족하다. 따라서 본 논문에서는 RNAseq 빅-데이터를 처리할 수 있도록 기존의 SVM-RFE알고리즘을 밀집도-의존 정규화에 병합하여, NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 데이터에 개선된 알고리즘을 적용하고 해당 알고리즘에 의해 나온 결과의 성능을 평가한다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

기계학습모형을 이용한 다분광 위성 영상 기반 낙동강 부유 물질 농도 계측 기법 개발 (Development of suspended solid concentration measurement technique based on multi-spectral satellite imagery in Nakdong River using machine learning model)

  • 권시윤;서일원;백동해
    • 한국수자원학회논문집
    • /
    • 제54권2호
    • /
    • pp.121-133
    • /
    • 2021
  • 하천에서 발생하는 부유 물질은 주로 유역으로부터 유입되거나 하천 내에서 자생으로 발생하기도 하며, 퇴적되어 중장기적인 수질 오염을 초래할 수도 있는 중요한 수질 인자이다. 하지만, 부유물질의 재래식 계측방식은 점 단위 계측이기 때문에 노동 집약적이며 방대한 양의 자료를 취득하기는 어렵다. 따라서, 본 연구에서는 고해상도 다분광 위성영상을 제공하는 Sentinel-2 위성 자료를 이용하여 낙동강 전역에 대한 원격탐사 기반 부유 물질 농도 계측 기법을 개발하였다. 개발된 기법은 기존 원격탐사 기반 회귀식들의 한계점을 개선하고 낙동강 전체 영역의 지역적 특성을 반영하기 위해 기계학습 모형인 서포트 벡터 회귀(Support Vector Regression, SVR) 모형을 이용하여 다양한 파장대의 분광 밴드들과 밴드비(band ratios)를 고려하였으며, 이를 입력 변수들의 최적 조합으로 재귀적 특징 제거법(Recursive Feature Elimination, RFE)과 SVR의 각 변수별 가중계수를 활용하여 도출하였다. 가장 중요도가 높은 분광 밴드로는 Red-edge 파장대 영역에 속하는 705 nm 밴드가 산출되었으며, 최종적으로 구축된 SVR 모형을 선행 연구들에서 제시한 회귀식들과 비교한 결과, 가장 정확한 계측 결과를 제공하는 것으로 밝혀졌다. 본 연구에서 개발된 SVR 모형은 RFE를 통해 산출된 최적 분광 밴드 조합을 바탕으로 하기 때문에 기존 단일 분광 밴드 혹은 밴드비를 기반으로 구축된 회귀식들이 가지는 변수 의존도를 낮추는 동시에 더욱 정확한 부유물질 농도 공간분포를 제공할 수 있을 것으로 판단된다.

An Application of Support Vector Machines to Customer Loyalty Classification of Korean Retailing Company Using R Language

  • 응위엔푸티엔;이영찬
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권4호
    • /
    • pp.17-37
    • /
    • 2017
  • Purpose Customer Loyalty is the most important factor of customer relationship management (CRM). Especially in retailing industry, where customers have many options of where to spend their money. Classifying loyal customers through customers' data can help retailing companies build more efficient marketing strategies and gain competitive advantages. This study aims to construct classification models of distinguishing the loyal customers within a Korean retailing company using data mining techniques with R language. Design/methodology/approach In order to classify retailing customers, we used combination of support vector machines (SVMs) and other classification algorithms of machine learning (ML) with the support of recursive feature elimination (RFE). In particular, we first clean the dataset to remove outlier and impute the missing value. Then we used a RFE framework for electing most significant predictors. Finally, we construct models with classification algorithms, tune the best parameters and compare the performances among them. Findings The results reveal that ML classification techniques can work well with CRM data in Korean retailing industry. Moreover, customer loyalty is impacted by not only unique factor such as net promoter score but also other purchase habits such as expensive goods preferring or multi-branch visiting and so on. We also prove that with retailing customer's dataset the model constructed by SVMs algorithm has given better performance than others. We expect that the models in this study can be used by other retailing companies to classify their customers, then they can focus on giving services to these potential vip group. We also hope that the results of this ML algorithm using R language could be useful to other researchers for selecting appropriate ML algorithms.

Classification method for failure modes of RC columns based on key characteristic parameters

  • Yu, Bo;Yu, Zecheng;Li, Qiming;Li, Bing
    • Structural Engineering and Mechanics
    • /
    • 제84권1호
    • /
    • pp.1-16
    • /
    • 2022
  • An efficient and accurate classification method for failure modes of reinforced concrete (RC) columns was proposed based on key characteristic parameters. The weight coefficients of seven characteristic parameters for failure modes of RC columns were determined first based on the support vector machine-recursive feature elimination. Then key characteristic parameters for classifying flexure, flexure-shear and shear failure modes of RC columns were selected respectively. Subsequently, a support vector machine with key characteristic parameters (SVM-K) was proposed to classify three types of failure modes of RC columns. The optimal parameters of SVM-K were determined by using the ten-fold cross-validation and the grid-search algorithm based on 270 sets of available experimental data. Results indicate that the proposed SVM-K has high overall accuracy, recall and precision (e.g., accuracy>95%, recall>90%, precision>90%), which means that the proposed SVM-K has superior performance for classification of failure modes of RC columns. Based on the selected key characteristic parameters for different types of failure modes of RC columns, the accuracy of SVM-K is improved and the decision function of SVM-K is simplified by reducing the dimensions and number of support vectors.

Runoff Prediction from Machine Learning Models Coupled with Empirical Mode Decomposition: A case Study of the Grand River Basin in Canada

  • Parisouj, Peiman;Jun, Changhyun;Nezhad, Somayeh Moghimi;Narimani, Roya
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.136-136
    • /
    • 2022
  • This study investigates the possibility of coupling empirical mode decomposition (EMD) for runoff prediction from machine learning (ML) models. Here, support vector regression (SVR) and convolutional neural network (CNN) were considered for ML algorithms. Precipitation (P), minimum temperature (Tmin), maximum temperature (Tmax) and their intrinsic mode functions (IMF) values were used for input variables at a monthly scale from Jan. 1973 to Dec. 2020 in the Grand river basin, Canada. The support vector machine-recursive feature elimination (SVM-RFE) technique was applied for finding the best combination of predictors among input variables. The results show that the proposed method outperformed the individual performance of SVR and CNN during the training and testing periods in the study area. According to the correlation coefficient (R), the EMD-SVR model outperformed the EMD-CNN model in both training and testing even though the CNN indicated a better performance than the SVR before using IMF values. The EMD-SVR model showed higher improvement in R value (38.7%) than that from the EMD-CNN model (7.1%). It should be noted that the coupled models of EMD-SVR and EMD-CNN represented much higher accuracy in runoff prediction with respect to the considered evaluation indicators, including root mean square error (RMSE) and R values.

  • PDF

Landslide susceptibility assessment using feature selection-based machine learning models

  • Liu, Lei-Lei;Yang, Can;Wang, Xiao-Mi
    • Geomechanics and Engineering
    • /
    • 제25권1호
    • /
    • pp.1-16
    • /
    • 2021
  • Machine learning models have been widely used for landslide susceptibility assessment (LSA) in recent years. The large number of inputs or conditioning factors for these models, however, can reduce the computation efficiency and increase the difficulty in collecting data. Feature selection is a good tool to address this problem by selecting the most important features among all factors to reduce the size of the input variables. However, two important questions need to be solved: (1) how do feature selection methods affect the performance of machine learning models? and (2) which feature selection method is the most suitable for a given machine learning model? This paper aims to address these two questions by comparing the predictive performance of 13 feature selection-based machine learning (FS-ML) models and 5 ordinary machine learning models on LSA. First, five commonly used machine learning models (i.e., logistic regression, support vector machine, artificial neural network, Gaussian process and random forest) and six typical feature selection methods in the literature are adopted to constitute the proposed models. Then, fifteen conditioning factors are chosen as input variables and 1,017 landslides are used as recorded data. Next, feature selection methods are used to obtain the importance of the conditioning factors to create feature subsets, based on which 13 FS-ML models are constructed. For each of the machine learning models, a best optimized FS-ML model is selected according to the area under curve value. Finally, five optimal FS-ML models are obtained and applied to the LSA of the studied area. The predictive abilities of the FS-ML models on LSA are verified and compared through the receive operating characteristic curve and statistical indicators such as sensitivity, specificity and accuracy. The results showed that different feature selection methods have different effects on the performance of LSA machine learning models. FS-ML models generally outperform the ordinary machine learning models. The best FS-ML model is the recursive feature elimination (RFE) optimized RF, and RFE is an optimal method for feature selection.

무인기 기반 영상과 SVM 모델을 이용한 가을수확 작물 분류 - 충북 괴산군 이담리 지역을 중심으로 - (Classification of Fall Crops Using Unmanned Aerial Vehicle Based Image and Support Vector Machine Model - Focusing on Idam-ri, Goesan-gun, Chungcheongbuk-do -)

  • 정찬희;고승환;박종화
    • 농촌계획
    • /
    • 제28권1호
    • /
    • pp.57-69
    • /
    • 2022
  • Crop classification is very important for estimating crop yield and figuring out accurate cultivation area. The purpose of this study is to classify crops harvested in fall in Idam-ri, Goesan-gun, Chungcheongbuk-do by using unmanned aerial vehicle (UAV) images and support vector machine (SVM) model. The study proceeded in the order of image acquisition, variable extraction, model building, and evaluation. First, RGB and multispectral image were acquired on September 13, 2021. Independent variables which were applied to Farm-Map, consisted gray level co-occurrence matrix (GLCM)-based texture characteristics by using RGB images, and multispectral reflectance data. The crop classification model was built using texture characteristics and reflectance data, and finally, accuracy evaluation was performed using the error matrix. As a result of the study, the classification model consisted of four types to compare the classification accuracy according to the combination of independent variables. The result of four types of model analysis, recursive feature elimination (RFE) model showed the highest accuracy with an overall accuracy (OA) of 88.64%, Kappa coefficient of 0.84. UAV-based RGB and multispectral images effectively classified cabbage, rice and soybean when the SVM model was applied. The results of this study provided capacity usefully in classifying crops using single-period images. These technologies are expected to improve the accuracy and efficiency of crop cultivation area surveys by supplementing additional data learning, and to provide basic data for estimating crop yields.

A MA-plot-based Feature Selection by MRMR in SVM-RFE in RNA-Sequencing Data

  • Kim, Chayoung
    • 한국정보기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.25-30
    • /
    • 2018
  • 유전자 규정 네트워크 (GRN)에 RNA-시퀀싱 데이터를 활용할 때, 해당 유전자와 환경과의 상호 작용에 의해서 생기는 형질들 중에서 연관성이 높은 유전자로 GRN을 구성하는 것은 상당히 어려운 일이다. 본 연구에서는 Big-Data의 RNA-시퀀싱 자료들로, 지지 벡터 머신 회귀 특징 추출(SVM-RFE) 에 근거하여, 연관성이 높은 유전자(maximum-relevancy)는 추출하고, 연관성이 낮은 유전자(minimum-redundancy)는 제거하는 MRMR 필터 방법을 집중도 의존 정규화(intensity-dependent normalization, DEGSEQ)에 기반 하여 데이터의 정밀성을 높여, 소수 연관성 높은 유전자만 판별해 내는 방법을 사용한다. 제안한 방법은 R 언어 패키지를 사용하여 편리함과 동시에, 다른 기존의 방법을 비교하였을 때, Big-Data의 시간 활용도를 높이면서, 동시에 높은 연관성 있는 유전자만을 잘 추출해 냄을 확인하였다.