• 제목/요약/키워드: Multi-label Feature Selection

검색결과 7건 처리시간 0.024초

Effective Multi-label Feature Selection based on Large Offspring Set created by Enhanced Evolutionary Search Process

  • Lim, Hyunki;Seo, Wangduk;Lee, Jaesung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권9호
    • /
    • pp.7-13
    • /
    • 2018
  • Recent advancement in data gathering technique improves the capability of information collecting, thus allowing the learning process between gathered data patterns and application sub-tasks. A pattern can be associated with multiple labels, demanding multi-label learning capability, resulting in significant attention to multi-label feature selection since it can improve multi-label learning accuracy. However, existing evolutionary multi-label feature selection methods suffer from ineffective search process. In this study, we propose a evolutionary search process for the task of multi-label feature selection problem. The proposed method creates large set of offspring or new feature subsets and then retains the most promising feature subset. Experimental results demonstrate that the proposed method can identify feature subsets giving good multi-label classification accuracy much faster than conventional methods.

Sparse and low-rank feature selection for multi-label learning

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다.

효과적인 의사결정을 위한 다중레이블 기반 속성선택 방법에 관한 연구: 감성 분석을 중심으로 (Exploring the Performance of Multi-Label Feature Selection for Effective Decision-Making: Focusing on Sentiment Analysis)

  • 원종윤;이건창
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.47-73
    • /
    • 2023
  • 본 연구는 인공지능 기법 중 다중레이블 속성선택 방법을 적용하여 복잡한 경영환경에서 의사결정의 효과성을 증대시키는 방안을 설명한다. 인공지능 기반의 의사결정 시스템은 의사결정자의 선택과 판단을 돕거나, 대신하는 중요한 역할을 한다. 더욱이 최근 인공지능을 중심으로 한 비즈니스 의사결정은 기업의 성장 동력으로 평가받는데, 이를 위해서는 효과적인 의사결정 방법이 수반되어야 한다. 이에 본 연구는 의미 있는 속성값을 선별하는 CFS-BR(이진연관성 접근 기반의 상관관계 속성선택 모델)을 제안하여, 효과적인 의사결정을 지원하는 것을 돕는다. 예시데이터와 실증데이터의 분석 결과, CFS-BR은 유의미한 속성을 최상우선선별 알고리즘 기반으로 최상의 조합을 선별하므로 효율적 의사결정을 지원할 수 있고, 기존의 다중 레이블 속성선택 방법과 비교하였을 때 정확도가 높은 것으로 보아 효과적인 의사결정을 증대시키는 데 유용하다.

Approach to diagnosing multiple abnormal events with single-event training data

  • Ji Hyeon Shin;Seung Gyu Cho;Seo Ryong Koo;Seung Jun Lee
    • Nuclear Engineering and Technology
    • /
    • 제56권2호
    • /
    • pp.558-567
    • /
    • 2024
  • Diagnostic support systems are being researched to assist operators in identifying and responding to abnormal events in a nuclear power plant. Most studies to date have considered single abnormal events only, for which it is relatively straightforward to obtain data to train the deep learning model of the diagnostic support system. However, cases in which multiple abnormal events occur must also be considered, for which obtaining training data becomes difficult due to the large number of combinations of possible abnormal events. This study proposes an approach to maintain diagnostic performance for multiple abnormal events by training a deep learning model with data on single abnormal events only. The proposed approach is applied to an existing algorithm that can perform feature selection and multi-label classification. We choose an extremely randomized trees classifier to select dedicated monitoring parameters for target abnormal events. In diagnosing each event occurrence independently, two-channel convolutional neural networks are employed as sub-models. The algorithm was tested in a case study with various scenarios, including single and multiple abnormal events. Results demonstrated that the proposed approach maintained diagnostic performance for 15 single abnormal events and significantly improved performance for 105 multiple abnormal events compared to the base model.

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

랜덤포레스트를 이용한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Using Random Forest)

  • 김판준
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.57-77
    • /
    • 2019
  • 대표적인 앙상블 기법으로서 랜덤포레스트(RF)를 문헌정보학 분야의 학술지 논문에 대한 자동분류에 적용하였다. 특히, 국내 학술지 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 트리 수, 자질선정, 학습집합 크기 등 주요 요소들에 대한 다각적인 실험을 수행하였다. 이를 통해, 실제 환경의 불균형 데이터세트(imbalanced dataset)에 대하여 랜덤포레스트(RF)의 성능을 최적화할 수 있는 방안을 모색하였다. 결과적으로 국내 학술지 논문의 자동분류에서 랜덤포레스트(RF)는 트리 수 구간 100~1000(C)과 카이제곱통계량(CHI)으로 선정한 소규모의 자질집합(10%), 대부분의 학습집합(9~10년)을 사용하는 경우에 가장 좋은 분류 성능을 기대할 수 있는 것으로 나타났다.

A Nature-inspired Multiple Kernel Extreme Learning Machine Model for Intrusion Detection

  • Shen, Yanping;Zheng, Kangfeng;Wu, Chunhua;Yang, Yixian
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권2호
    • /
    • pp.702-723
    • /
    • 2020
  • The application of machine learning (ML) in intrusion detection has attracted much attention with the rapid growth of information security threat. As an efficient multi-label classifier, kernel extreme learning machine (KELM) has been gradually used in intrusion detection system. However, the performance of KELM heavily relies on the kernel selection. In this paper, a novel multiple kernel extreme learning machine (MKELM) model combining the ReliefF with nature-inspired methods is proposed for intrusion detection. The MKELM is designed to estimate whether the attack is carried out and the ReliefF is used as a preprocessor of MKELM to select appropriate features. In addition, the nature-inspired methods whose fitness functions are defined based on the kernel alignment are employed to build the optimal composite kernel in the MKELM. The KDD99, NSL and Kyoto datasets are used to evaluate the performance of the model. The experimental results indicate that the optimal composite kernel function can be determined by using any heuristic optimization method, including PSO, GA, GWO, BA and DE. Since the filter-based feature selection method is combined with the multiple kernel learning approach independent of the classifier, the proposed model can have a good performance while saving a lot of training time.