• 제목/요약/키워드: selection of features

검색결과 904건 처리시간 0.024초

HMR 상품의 선택속성이 1인 가구의 소비자 구매의도에 미치는 영향 - 소비자 온라인 리뷰의 조절효과 중심으로 - (The Effect of Selection Attribute of HMR Product on the Consumer Purchasing Intention of an Single Household - Centered on the Regulation Effect of Consumer Online Reviews -)

  • 김희연
    • 한국조리학회지
    • /
    • 제22권8호
    • /
    • pp.109-121
    • /
    • 2016
  • This study analyzed the effect of five sub-variables' attribute of HMR: features of information, diversity, promptness, price and convenience, on the consumer purchasing intention. In addition, the regulation effect of positive reviews and negative reviews of consumers' online reviews between HMR selection attribute and purchasing intention was also tested. Results are following. First, convenience feature (B=.577, p<.001) and diversity feature (B=.093, p<.01) among the effect of HMR selection attribute had a positive (+) effect on purchasing intention. On the other hand, promptness feature (B=.235, p<.001) and price feature (B=.161, p<.001), and information feature (B=.288, p<.001) were not significant effect on purchasing intention. Second, result of regulation effect of the positive reviews of consumer's online review between the selection attribute of the HMR product and consumers' purchasing intention, in the first-stage model in which the selection attribute of the HMR product is input as an independent variable, there was a significant positive (+) effect on all the features of convenience, diversity, promptness, price, and information. In addition, there was significant positive (+) main effect (B=.472, p<.001) in the second step model in which the consumers' positive reviews, that is a regulation variable. Furthermore, the feature of price (B=.068, p<.05) had a significant positive (+) effect in the third stage in which the selection attribute of the HMR product that is an independent variable and the interaction of the positive review. However, the feature of information (B=-.063, p<.05) showed negative (-) effect, and there was no effect on the features of convenience, diversity, and promptness. Third, as a result of testing the regulation effect of the negative reviews of consumers' online reviews between HMR product selection attribute and consumers' purchasing intention, in the first-stage model in which the selection attribute of the HMR product was a positive (+) effect on all the features of convenience, diversity, promptness, price, and information. In the second-stage model in which consumers' negative reviews (B=-.113, p<.001) had negative (-) effect. In the third-stage in which the selection attribute of the HMR product and the interactions of the negative reviews was a positive (+) effect with the feature of price (B=.113, p<.01). Last, there was no effect at all on the features of convenience, promptness, and information.

개별 속성의 선택 및 제거효과 순위를 이용한 사례기반 추론의 속성 선정 (Feature Selection for Case-Based Reasoning using the Order of Selection and Elimination Effects of Individual Features)

  • 이재식;이혁희
    • 지능정보연구
    • /
    • 제8권2호
    • /
    • pp.117-137
    • /
    • 2002
  • 사례기반 추론은 과거의 사례를 기반으로 새로운 사례에 대한 답을 제시하는 기계학습의 한 분야이다. 과거의 사례는 일정한 형식으로 사례 베이스에 저장되는데, 저장의 형식을 결정하는 것이 속성이다. 속성은 사례의 특징을 가장 잘 표현할 수 있는 것들로 구성되며, 속성값간의 유사도 도출을 통해서 유사 사례를 검색하게 된다. 따라서, 사례기반 추론은 사용되는 속성에 따라서 성능이 달라지게 된다 본 연구에서는 먼저 속성을 하나씩만 사용하여 사례기반 추론을 수행하여 각 속성의 선택효과를 측정하고, 하나씩만 제거하고 사례기반 추론을 수행하여 각 속성의 제거효과를 측정하였다. 이 측정치들을 근거로 속성의 부분집합을 구성하여 사례기반 추론을 구현한 결과, 속성을 전부 사용했을 때보다 성능과 효율성이 우수한 사례기반 추론 시스템을 구축할 수 있었다.

  • PDF

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

Set Covering 기반의 대용량 오믹스데이터 특징변수 추출기법 (Set Covering-based Feature Selection of Large-scale Omics Data)

  • 마정우;안기동;김광수;류홍서
    • 한국경영과학회지
    • /
    • 제39권4호
    • /
    • pp.75-84
    • /
    • 2014
  • In this paper, we dealt with feature selection problem of large-scale and high-dimensional biological data such as omics data. For this problem, most of the previous approaches used simple score function to reduce the number of original variables and selected features from the small number of remained variables. In the case of methods that do not rely on filtering techniques, they do not consider the interactions between the variables, or generate approximate solutions to the simplified problem. Unlike them, by combining set covering and clustering techniques, we developed a new method that could deal with total number of variables and consider the combinatorial effects of variables for selecting good features. To demonstrate the efficacy and effectiveness of the method, we downloaded gene expression datasets from TCGA (The Cancer Genome Atlas) and compared our method with other algorithms including WEKA embeded feature selection algorithms. In the experimental results, we showed that our method could select high quality features for constructing more accurate classifiers than other feature selection algorithms.

순차적으로 선택된 특성과 유전 프로그래밍을 이용한 결정나무 (A Decision Tree Induction using Genetic Programming with Sequentially Selected Features)

  • 김효중;박종선
    • 경영과학
    • /
    • 제23권1호
    • /
    • pp.63-74
    • /
    • 2006
  • Decision tree induction algorithm is one of the most widely used methods in classification problems. However, they could be trapped into a local minimum and have no reasonable means to escape from it if tree algorithm uses top-down search algorithm. Further, if irrelevant or redundant features are included in the data set, tree algorithms produces trees that are less accurate than those from the data set with only relevant features. We propose a hybrid algorithm to generate decision tree that uses genetic programming with sequentially selected features. Correlation-based Feature Selection (CFS) method is adopted to find relevant features which are fed to genetic programming sequentially to find optimal trees at each iteration. The new proposed algorithm produce simpler and more understandable decision trees as compared with other decision trees and it is also effective in producing similar or better trees with relatively smaller set of features in the view of cross-validation accuracy.

Gait-Based Gender Classification Using a Correlation-Based Feature Selection Technique

  • Beom Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.55-66
    • /
    • 2024
  • 성별 분류 기술은 법의학, 감시 시스템, 인구 통계 연구 등 다양한 분야에서 활용될 수 있기 때문에, 연구자들로부터 많은 관심을 받고 있다. 남성과 여성의 보행 사이에는 서로 구별되는 특징이 있다는 것이 기존 연구들에서 밝혀지면서, 3차원 보행 데이터에서 성별을 분류하는 다양한 기술들이 제안됐다. 하지만, 기존 기술들을 사용해 3차원 보행 데이터로부터 추출한 보행 특징 중에는 서로 유사 또는 중복되거나 성별 분류에 도움이 되지 않는 특징들도 있다. 이에 본 연구에서는 상관관계 기반 특징 선별 기술을 활용해, 성별 분류에 도움이 되는 특징들을 선별하는 방법을 제안한다. 그리고 제안하는 특징 선별 기술의 효용성을 입증하기 위해서, 인터넷상에 공개된 3차원 보행 데이터 세트(Dataset)를 활용하여 제안하는 특징 선별 기술을 적용하기 전과 후에 대해 성별 분류 모델들의 성능을 비교 분석하였다. 실험에는 이진 분류 문제에 적용할 수 있는 여덟 가지의 머신러닝 알고리즘(Machine Learning Algorithms)을 활용하였다. 실험 결과, 제안하는 특징 선별 기술을 사용하면 성별 분류 성능은 유지하면서, 특징의 개수를 82개에서 60개까지, 22개를 줄일 수 있다는 것을 입증하였다.

Sparse and low-rank feature selection for multi-label learning

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다.

Data Mining-Aided Automatic Landslide Detection Using Airborne Laser Scanning Data in Densely Forested Tropical Areas

  • Mezaal, Mustafa Ridha;Pradhan, Biswajeet
    • 대한원격탐사학회지
    • /
    • 제34권1호
    • /
    • pp.45-74
    • /
    • 2018
  • Landslide is a natural hazard that threats lives and properties in many areas around the world. Landslides are difficult to recognize, particularly in rainforest regions. Thus, an accurate, detailed, and updated inventory map is required for landslide susceptibility, hazard, and risk analyses. The inconsistency in the results obtained using different features selection techniques in the literature has highlighted the importance of evaluating these techniques. Thus, in this study, six techniques of features selection were evaluated. Very-high-resolution LiDAR point clouds and orthophotos were acquired simultaneously in a rainforest area of Cameron Highlands, Malaysia by airborne laser scanning (LiDAR). A fuzzy-based segmentation parameter (FbSP optimizer) was used to optimize the segmentation parameters. Training samples were evaluated using a stratified random sampling method and set to 70% training samples. Two machine-learning algorithms, namely, Support Vector Machine (SVM) and Random Forest (RF), were used to evaluate the performance of each features selection algorithm. The overall accuracies of the SVM and RF models revealed that three of the six algorithms exhibited higher ranks in landslide detection. Results indicated that the classification accuracies of the RF classifier were higher than the SVM classifier using either all features or only the optimal features. The proposed techniques performed well in detecting the landslides in a rainforest area of Malaysia, and these techniques can be easily extended to similar regions.

기계학습을 이용한 밴드갭 예측과 소재의 조성기반 특성인자의 효과 (Compositional Feature Selection and Its Effects on Bandgap Prediction by Machine Learning)

  • 남충희
    • 한국재료학회지
    • /
    • 제33권4호
    • /
    • pp.164-174
    • /
    • 2023
  • The bandgap characteristics of semiconductor materials are an important factor when utilizing semiconductor materials for various applications. In this study, based on data provided by AFLOW (Automatic-FLOW for Materials Discovery), the bandgap of a semiconductor material was predicted using only the material's compositional features. The compositional features were generated using the python module of 'Pymatgen' and 'Matminer'. Pearson's correlation coefficients (PCC) between the compositional features were calculated and those with a correlation coefficient value larger than 0.95 were removed in order to avoid overfitting. The bandgap prediction performance was compared using the metrics of R2 score and root-mean-squared error. By predicting the bandgap with randomforest and xgboost as representatives of the ensemble algorithm, it was found that xgboost gave better results after cross-validation and hyper-parameter tuning. To investigate the effect of compositional feature selection on the bandgap prediction of the machine learning model, the prediction performance was studied according to the number of features based on feature importance methods. It was found that there were no significant changes in prediction performance beyond the appropriate feature. Furthermore, artificial neural networks were employed to compare the prediction performance by adjusting the number of features guided by the PCC values, resulting in the best R2 score of 0.811. By comparing and analyzing the bandgap distribution and prediction performance according to the material group containing specific elements (F, N, Yb, Eu, Zn, B, Si, Ge, Fe Al), various information for material design was obtained.

2차원 웨이브렛 패킷에 기반한 필기체 문자인식의 특징선택방법 (A Feature Selection for the Recognition of Handwritten Characters based on Two-Dimensional Wavelet Packet)

  • 김민수;백장선;이귀상;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권8호
    • /
    • pp.521-528
    • /
    • 2002
  • 본 논문에서는 문자인식의 특징선택방법으로 2차원 웨이브렛 패킷을 이용하는 새로운 방법을 제안한다. 영상자료의 특징들로부터 중심특징을 선택하기 위한 차원축소 기법으로 주성분분석 기법이 주로 사용된다. 하지만, 주성분분석 기법은 고유시스템에 의존하기 때문에, 이상치나 잡음 등에 민감할 뿐만 아니라, 전역적 특징만을 선택하는 경향이 있다. 때때로, 영상자료의 중요한 특징이 가장자리 부분이나 뽀족한 부분 같은 지역적 정보일 수 있다. 이러한 경우, 주성분분석 기법은 좋은 결과를 줄 수 없다. 또한 고유시스템은 많은 계산시간을 요구한다. 본 논문에서 원 자료는 2차원 웨이브렛 패킷기저에 의해 변환되고, 최적 판별 기저가 탐색된 후, 그것으로부터 적절한 특징이 선택된다. 주성분분석 기법과 비교하여, 제안된 방법은 웨이브렛의 좋은 특성에 의해 전역적 특징뿐만 아니라 지역적 특징의 선택이 빠른 계산시간으로 이루어진다. 제안된 방법의 성능을 보이기 위해 PCA와 제안된 방법의 인식률의 실험결과가 분석되었다.