• 제목/요약/키워드: Feature Selection Methods

검색결과 318건 처리시간 0.031초

Identification of Chinese Event Types Based on Local Feature Selection and Explicit Positive & Negative Feature Combination

  • Tan, Hongye;Zhao, Tiejun;Wang, Haochang;Hong, Wan-Pyo
    • Journal of information and communication convergence engineering
    • /
    • 제5권3호
    • /
    • pp.233-238
    • /
    • 2007
  • An approach to identify Chinese event types is proposed in this paper which combines a good feature selection policy and a Maximum Entropy (ME) model. The approach not only effectively alleviates the problem that classifier performs poorly on the small and difficult types, but improve overall performance. Experiments on the ACE2005 corpus show that performance is satisfying with the 83.5% macro - average F measure. The main characters and ideas of the approach are: (1) Optimal feature set is built for each type according to local feature selection, which fully ensures the performance of each type. (2) Positive and negative features are explicitly discriminated and combined by using one - sided metrics, which makes use of both features' advantages. (3) Wrapper methods are used to search new features and evaluate the various feature subsets to obtain the optimal feature subset.

퍼지 클러스터 분석 기반 특징 선택 방법 (A Feature Selection Method Based on Fuzzy Cluster Analysis)

  • 이현숙
    • 정보처리학회논문지B
    • /
    • 제14B권2호
    • /
    • pp.135-140
    • /
    • 2007
  • 특징선택은 문제 영역에서 관찰된 다차원데이터로부터 데이터가 묘사하는 구조를 잘 반영하는 속성을 선택하여 효과적인 실험 데이터를 구성하는 데이터 준비과정이다. 이 과정은 문서분류, 영상인식, 유전자 선택 분야에서의 같은 분류시스템의 성능향상에 중요한 구성요소로서 상관관계 기법, 차원축소 및 상호 정보 처리 등의 통계학이나 정보이론의 접근방법을 중심으로 연구되어왔다. 이와 같은 선택 분야의 연구는 다루는 데이터의 양이 방대해지고 복잡해지면서 더욱 중요시 되고 있다. 본 논문에서는 데이터가 가지는 특성을 반영하면서 새로운 데이터에 대하여 일반화 할 수 있는 특징선택 방법을 제안하고자 한다. 준비된 데이터의 각 속성 데이터에 대하여 퍼지 클러스터 분석에 의하여 최적의 클러스터 정보를 얻고 이를 바탕으로 근접성과 분리성의 경로를 측정하여 그 값에 따라 특징을 선택하는 매카니즘을 제공한다. 제안된 방법을 실세계의 컴퓨터 바이러스 분류에 적용하여 기존의 대비에 의한 휴리스틱 방법에 의해 선택된 데이터를 가지고 분류한 것과 비교하고자 한다. 이를 통하여 주어진 특징에 시연을 부여할 수 있고 효과적으로 특징을 선택하여 시스템의 성능을 향상 시킬 수 있음을 확인한다.

Hybrid Feature Selection Using Genetic Algorithm and Information Theory

  • Cho, Jae Hoon;Lee, Dae-Jong;Park, Jin-Il;Chun, Myung-Geun
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제13권1호
    • /
    • pp.73-82
    • /
    • 2013
  • In pattern classification, feature selection is an important factor in the performance of classifiers. In particular, when classifying a large number of features or variables, the accuracy and computational time of the classifier can be improved by using the relevant feature subset to remove the irrelevant, redundant, or noisy data. The proposed method consists of two parts: a wrapper part with an improved genetic algorithm(GA) using a new reproduction method and a filter part using mutual information. We also considered feature selection methods based on mutual information(MI) to improve computational complexity. Experimental results show that this method can achieve better performance in pattern recognition problems than other conventional solutions.

한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구 (A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering)

  • 김영기
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.45-58
    • /
    • 2005
  • 이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다음으로 학습문서에서 카이제곱 통계량$(X^2)$, 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음. 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 석기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 '최댓간 자질 선정기법'을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 $ 72.3\%$, 동시링크 $74.3\%$, 단어-링크 혼합 $74.8\%$, $X^2\;79.6\%\;Max\;X^2\;83.8\%$로 나타났다. 전통적 자질 선정 기법 중에서는 $X^2$가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓간 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러스터링을 위한 간단하면서도 효과적인 수단이다.

사용자의 False belief를 이용한 새로운 기능 선택방식에 대한 연구 (Development of a feature selection technique on users' false beliefs)

  • 이장선;최경현;김지은;류호경
    • 한국HCI학회논문지
    • /
    • 제9권2호
    • /
    • pp.33-40
    • /
    • 2014
  • 신제품/서비스를 설계함에 있어 해당 제품 혹은 서비스가 제공하여야 할 기능을 선정하는 것(feature selection)은 디자이너의 매우 어려운 의사결정 문제이지만, 기존 방법론들은 특정 제품-서비스에 대한 사용자의 니즈를 효과적으로 파악하기에는 한계점이 있다. 특히 기존의 선호도 서베이를 통한 방법은 사용자의 멘탈모델에 대한 분석에 기반하지 않기에 기능과부화(feature creep) 현상의 한 원인으로 지적되고 있다. 본 연구는 사용자에게 새로운 기능을 제공할 경우(혹은 제공된 기능을 제거해야 할 경우), 그 기능으로부터 추론되는 제품-서비스의 멘탈모델을 탐지하는 새로운 기법인 'False belief technique'을 제안하고, 이를 통해 디자이너의 기능 선정(feature selection) 의사결정에 활용될 수 있도록 하고자 한다.

단변량 분석과 LVF 알고리즘을 결합한 하이브리드 속성선정 방법 (A Hybrid Feature Selection Method using Univariate Analysis and LVF Algorithm)

  • 이재식;정미경
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.179-200
    • /
    • 2008
  • 본 연구에서는 사례기반 추론 기법을 대상으로 효율성과 효과성을 함께 증진시킬 수 있는 속성선정 방법을 개발하였다. 기본적으로, 본 연구에서 개발한 속성선정 방법은 기존에 개발된 단변량 분석 방법과 LVF 알고리즘을 통합하는 것이다. 먼저, 단변량 분석 방법 중 선택효과를 사용하여 전체 속성 중에서 예측력이 우수하다고 판단되는 일부분의 속성들을 추려낸다. 이 속성들로부터 생성해낼 수 있는 모든 가능한 부분집합을 생성해낸 후에, LVF 알고리즘을 이용하여 이 부분집합들이 가지는 불일치 비율을 평가함으로써 최종적으로 속성 부분집합을 선정한다. 본 연구에서 개발한 속성선정 방법을 UCI에서 제공하는 데이터 집합들에 적용하여 성능을 측정한 후, 기존 기법의 성능들과 비교한 결과, 본 연구에서 개발된 속성선정 방법이 선정된 속성의 개수도 만족할만하고 적중률도 향상되어서, 효율성과 효과성 모두의 측면에서 우수함을 보였다.

  • PDF

신경망 AE 신호 형상인식을 위한 특징값 선택법의 개발과 용접부 및 회전체 결함 분류에의 적용 연구 (Development of Feature Selection Method for Neural Network AE Signal Pattern Recognition and Its Application to Classification of Defects of Weld and Rotating Components)

  • 이강용;황인범
    • 비파괴검사학회지
    • /
    • 제21권1호
    • /
    • pp.46-53
    • /
    • 2001
  • 음향방출 신호를 이용하여 분류기를 설계하는 과정에서의 특징값 선택법에 관해 연구하였다. 분류기는 역전파법을 이용한 신경망 분류기를 사용하였다. Fisher's criterion, class mean scatter criterion, eigenvector analysis와 함께 본 논문에서 새로 제안하는 특징값 공간에서의 특징값 좌표사이의 차이를 이용하는 2-D criterion, 3-D criterion을 이용해서 특징값을 선택하고 각각에 대해 분류기를 설계하여, 인식률과 수렴속도를 비교하였다. 분류를 위한 자료를 얻기 위하여 용접부 결함시편과 로터리 압축기 금속 접촉부 결함시편을 사용하였다. 인식률 면에서 2-D criterion과 3-D criterion이 우수한 결과를 나타내었다.

  • PDF

고차원 범주형 자료를 위한 비지도 연관성 기반 범주형 변수 선택 방법 (Association-based Unsupervised Feature Selection for High-dimensional Categorical Data)

  • 이창기;정욱
    • 품질경영학회지
    • /
    • 제47권3호
    • /
    • pp.537-552
    • /
    • 2019
  • Purpose: The development of information technology makes it easy to utilize high-dimensional categorical data. In this regard, the purpose of this study is to propose a novel method to select the proper categorical variables in high-dimensional categorical data. Methods: The proposed feature selection method consists of three steps: (1) The first step defines the goodness-to-pick measure. In this paper, a categorical variable is relevant if it has relationships among other variables. According to the above definition of relevant variables, the goodness-to-pick measure calculates the normalized conditional entropy with other variables. (2) The second step finds the relevant feature subset from the original variables set. This step decides whether a variable is relevant or not. (3) The third step eliminates redundancy variables from the relevant feature subset. Results: Our experimental results showed that the proposed feature selection method generally yielded better classification performance than without feature selection in high-dimensional categorical data, especially as the number of irrelevant categorical variables increase. Besides, as the number of irrelevant categorical variables that have imbalanced categorical values is increasing, the difference in accuracy between the proposed method and the existing methods being compared increases. Conclusion: According to experimental results, we confirmed that the proposed method makes it possible to consistently produce high classification accuracy rates in high-dimensional categorical data. Therefore, the proposed method is promising to be used effectively in high-dimensional situation.

Feature Selection to Mine Joint Features from High-dimension Space for Android Malware Detection

  • Xu, Yanping;Wu, Chunhua;Zheng, Kangfeng;Niu, Xinxin;Lu, Tianling
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4658-4679
    • /
    • 2017
  • Android is now the most popular smartphone platform and remains rapid growth. There are huge number of sensitive privacy information stored in Android devices. Kinds of methods have been proposed to detect Android malicious applications and protect the privacy information. In this work, we focus on extracting the fine-grained features to maximize the information of Android malware detection, and selecting the least joint features to minimize the number of features. Firstly, permissions and APIs, not only from Android permissions and SDK APIs but also from the developer-defined permissions and third-party library APIs, are extracted as features from the decompiled source codes. Secondly, feature selection methods, including information gain (IG), regularization and particle swarm optimization (PSO) algorithms, are used to analyze and utilize the correlation between the features to eliminate the redundant data, reduce the feature dimension and mine the useful joint features. Furthermore, regularization and PSO are integrated to create a new joint feature mining method. Experiment results show that the joint feature mining method can utilize the advantages of regularization and PSO, and ensure good performance and efficiency for Android malware detection.

주성분 분석 로딩 벡터 기반 비지도 변수 선택 기법 (Unsupervised Feature Selection Method Based on Principal Component Loading Vectors)

  • 박영준;김성범
    • 대한산업공학회지
    • /
    • 제40권3호
    • /
    • pp.275-282
    • /
    • 2014
  • One of the most widely used methods for dimensionality reduction is principal component analysis (PCA). However, the reduced dimensions from PCA do not provide a clear interpretation with respect to the original features because they are linear combinations of a large number of original features. This interpretation problem can be overcome by feature selection approaches that identifying the best subset of given features. In this study, we propose an unsupervised feature selection method based on the geometrical information of PCA loading vectors. Experimental results from a simulation study demonstrated the efficiency and usefulness of the proposed method.