• 제목/요약/키워드: Redundant Feature

검색결과 88건 처리시간 0.027초

희소주성분분석을 이용한 텍스트데이터의 단어선택 (Feature selection for text data via sparse principal component analysis)

  • 손원
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.501-514
    • /
    • 2023
  • 텍스트데이터는 일반적으로 많은 단어로 이루어져 있다. 텍스트데이터와 같이 많은 변수로 구성된 데이터의 경우 과적합 등의 문제로 분석에 있어서의 정확성이 떨어지고, 계산과정에서의 효율성에도 문제가 발생하는 경우를 흔히 볼 수 있다. 이렇게 변수가 많은 데이터를 분석하기 위해 특징선택, 특징추출 등의 차원 축소 기법이 자주 사용되고 있다. 희소주성분분석은 벌점이 부여된 최소제곱법 중 하나로 엘라스틱넷 형태의 목적함수를 사용하여 유용하지 않은 주성분을 제거하고 각 주성분에서도 중요도가 큰 변수만 식별해내기 위해 활용되고 있다. 이 연구에서는 희소주성분분석을 이용하여 많은 변수를 가진 텍스트데이터를 소수의 변수만으로 요약하는 절차를 제안한다. 이러한 절차를 실제 데이터에 적용한 결과, 희소주성분분석을 이용하여 단어를 선택하는 과정을 통해 목표변수에 대한 정보를 이용하지 않고도 유용성이 낮은 단어를 제거하여 텍스트데이터의 분류 정확성은 유지하면서 데이터의 차원을 축소할 수 있음을 확인하였다. 특히 차원축소를 통해 고차원 데이터 분석에서 분류 정확도가 저하되는 KNN 분류기 등의 분류 성능을 개선할 수 있음을 알 수 있었다.

An Application of Affective-Cognitive Ambivalence Theory in Environmental Risk Attitude: The Case Study of Marion County, Ohio in the U.S.

  • Lee, Jae-Young;Lee, Hyon-Yong;Fortner, Rosanne W.
    • 한국지구과학회지
    • /
    • 제28권5호
    • /
    • pp.635-642
    • /
    • 2007
  • Using data from 132 telephone interviewees, we examined the role of affective-cognitive ambivalence in forming overall attitude and behavior toward toxic chemical and radioactive waste issues in Marion, Ohio in the U.S. In order to compare attitudinal preference, participants were divided into four A-C groups: action-group (Affective+/Cognitive+), detached-group (A-/C+), concerned-group (A+/C-), and inaction-group (A-/C-). Affective and cognitive components interacted, producing redundant influences on overall attitudes and judgments as frequently observed and postulated in previous attitude studies. The results showed that the action-group who were feeling unsafe and believed that environmental accidents had happened or are happening in Marion were less willing to move to the area than other three groups who were feeling safe and/or doubted reports of contamination and its relation with leukemia. Affective and cognitive components were found to have redundant influences on overall attitude. It was also observed that affective-cognitive ambivalence theory has a great potential for explaining the mechanism by which people form attitudes, especially when people have moderate or positive feelings (e.g. sympathy or eagerness for resources) toward the objects and/or when uncertainty is a major feature of environmental issue under consideration (e.g. global climate change).

분할-획득 제어를 이용한 이동매니퓰레이터의 최적 자세에 관한 연구 (A Study on Optimal Configuration for Mobile Manipulator Using Divide-and-Conquer Control)

  • 강진구;이관형
    • 한국정보통신학회논문지
    • /
    • 제9권6호
    • /
    • pp.1395-1401
    • /
    • 2005
  • 이동매니퓰레이터란 이동로봇과 작업로봇을 직렬로 결합하여 이동능력과 작업능력을 가지는 로봇이다. 이동매니퓰레이터의 중요한 특징중의 하나는 잉여의 자유도를 가진다는 것이다. 이를 이용하여 이동매니퓰레이터는 여러 가지 모드로 이동이 가능하고 다양한 작업을 수행할 수 있다. 이동매니퓰레이터는 고정베이스 구조의 로봇에 비해 넓은 작업공간과 특이자세 회피 및 장애물 회피에서 더 좋은 성능을 가진다. 두 대의 로봇이 협동하여 작업을 수행할 때 주어진 작업공간에서 여유자유도를 가지고 있는 이점을 이용하여 작업의 성능을 향상시킬 수 있다. 본 논문은 이동매니퓰레이터가 수행되어질 작업을 세분화 시키고 로봇의 작업 성능 지수를 사용하여 로봇이 최적자세로 작업을 수행할 수 있는 연구를 하였다. 제안된 알고리즘을 검증하기위해 이동매니퓰레이터를 제작하였고, 실험에 사용한 이동매니퓰레이터 PURL-II는 3자유도를 가지는 이동로봇과 5자유도를 가지는 작업로봇으로 구성되어 있다.

데이터의 공간적 분포를 고려한 퍼지 이산화와 특징선택에의 응용 (Fuzzy discretization with spatial distribution of data and Its application to feature selection)

  • 손창식;신아미;이인희;박희준;박형섭;김윤년
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.165-172
    • /
    • 2010
  • 임상 데이터마이닝에서 최적의 특징 집합을 선택하는 것은 주어진 데이터로부터 생성된 모델의 복잡성을 줄일 뿐만 아니라 유용성을 향상시키는 데에 매우 중요하고, 선택된 특징들의 임계값은 질병의 감별진단을 위해 임상 전문가의 결정기준으로 사용된다. 본 논문에서는 데이터의 공간적인 분포, 즉 중첩영역에서 중복 속성값을 포함하는 데이터의 분리성 정도를 평가함으로써 연속형 속성을 가진 데이터에 대한 퍼지 이산화기법을 제안한다. 제안된 방법에서 중복 속성값의 가중치 평균값은 각 특징의 임계값(즉 경계값)을 결정하기 위해서 사용되었고, 러프집합은 전체 특징들 중에서 중요특징들의 집합을 선택하기 위해서 이용하였다. 제안된 방법의 타당성을 검증하기 위해 호흡곤란을 주호소로 내원한 668명의 환자 데이터를 근거로 3가지 이산화방법과 제안된 이산화방법에 대한 실험을 수행하였다. 실험결과, 퍼지분할을 기반으로 한 이산화방법이 하드분할을 기반으로 한 이산화방법에 비해서 평균 분류정확도와 G-mean 성능에서 보다 좋은 결과를 제공함을 확인하였다.

A Hybrid Algorithm for Online Location Update using Feature Point Detection for Portable Devices

  • Kim, Jibum;Kim, Inbin;Kwon, Namgu;Park, Heemin;Chae, Jinseok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.600-619
    • /
    • 2015
  • We propose a cost-efficient hybrid algorithm for online location updates that efficiently combines feature point detection with the online trajectory-based sampling algorithm. Our algorithm is designed to minimize the average trajectory error with the minimal number of sample points. The algorithm is composed of 3 steps. First, we choose corner points from the map as sample points because they will most likely cause fewer trajectory errors. By employing the online trajectory sampling algorithm as the second step, our algorithm detects several missing and important sample points to prevent unwanted trajectory errors. The final step improves cost efficiency by eliminating redundant sample points on straight paths. We evaluate the proposed algorithm with real GPS trajectory data for various bus routes and compare our algorithm with the existing one. Simulation results show that our algorithm decreases the average trajectory error 28% compared to the existing one. In terms of cost efficiency, simulation results show that our algorithm is 29% more cost efficient than the existing one with real GPS trajectory data.

Sparse Autoencoder의 데이터 특징 추출과 ProGReGA-KF를 결합한 새로운 부하 분산 알고리즘 (Combing data representation by Sparse Autoencoder and the well-known load balancing algorithm, ProGReGA-KF)

  • 김차영;박정민;김혜영
    • 한국게임학회 논문지
    • /
    • 제17권5호
    • /
    • pp.103-112
    • /
    • 2017
  • 많은 사용자가 함께 즐기는 온라인 게임(MMOGs)에서 IoT의 확장은 서버에 엄청난 부하를 지속적으로 증가시켜, 모든 데이터들이 Big-Data화 되어가는 환경에 있다. 이에 본 논문에서는 딥러닝 기법 중에서 가장 많이 사용되는 Sparse Autoencoder와 이미 잘 알려진 부하분산 알고리즘(ProGReGA-KF)을 결합한다. 기존 알고리즘 ProGReGA-KF과 본 논문에서 제안한 알고리즘을 이동 안정성으로 비교하였고, 제안한 알고리즘이 빅-데이터 환경에서 좀 더 안정적이고 확장성이 있음 시뮬레이션을 통해 보였다.

Reviving GOR method in protein secondary structure prediction: Effective usage of evolutionary information

  • Lee, Byung-Chul;Lee, Chang-Jun;Kim, Dong-Sup
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.133-138
    • /
    • 2003
  • The prediction of protein secondary structure has been an important bioinformatics tool that is an essential component of the template-based protein tertiary structure prediction process. It has been known that the predicted secondary structure information improves both the fold recognition performance and the alignment accuracy. In this paper, we describe several novel ideas that may improve the prediction accuracy. The main idea is motivated by an observation that the protein's structural information, especially when it is combined with the evolutionary information, significantly improves the accuracy of the predicted tertiary structure. From the non-redundant set of protein structures, we derive the 'potential' parameters for the protein secondary structure prediction that contains the structural information of proteins, by following the procedure similar to the way to derive the directional information table of GOR method. Those potential parameters are combined with the frequency matrices obtained by running PSI-BLAST to construct the feature vectors that are used to train the support vector machines (SVM) to build the secondary structure classifiers. Moreover, the problem of huge model file size, which is one of the known shortcomings of SVM, is partially overcome by reducing the size of training data by filtering out the redundancy not only at the protein level but also at the feature vector level. A preliminary result measured by the average three-state prediction accuracy is encouraging.

  • PDF

영상 화질 평가 딥러닝 모델 재검토: 스트라이드 컨볼루션이 풀링보다 좋은가? (Revisiting Deep Learning Model for Image Quality Assessment: Is Strided Convolution Better than Pooling?)

  • 우딘 에이에프엠 사합;정태충;배성호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.29-32
    • /
    • 2020
  • Due to the lack of improper image acquisition process, noise induction is an inevitable step. As a result, objective image quality assessment (IQA) plays an important role in estimating the visual quality of noisy image. Plenty of IQA methods have been proposed including traditional signal processing based methods as well as current deep learning based methods where the later one shows promising performance due to their complex representation ability. The deep learning based methods consists of several convolution layers and down sampling layers for feature extraction and fully connected layers for regression. Usually, the down sampling is performed by using max-pooling layer after each convolutional block. We reveal that this max-pooling causes information loss despite of knowing their importance. Consequently, we propose a better IQA method that replaces the max-pooling layers with strided convolutions to down sample the feature space and since the strided convolution layers have learnable parameters, they preserve optimal features and discard redundant information, thereby improve the prediction accuracy. The experimental results verify the effectiveness of the proposed method.

  • PDF

다중구조관리자 특성이 반영된 확률모델 기반의 몬테카를로 신뢰도 해석 기법 연구 (Reliability Analysis of a System with Redundancy Management Based on Monte-Carlo Probability Model)

  • 김성수;박상혁;김성환;최기영;박춘배;하철근
    • 제어로봇시스템학회논문지
    • /
    • 제17권11호
    • /
    • pp.1132-1137
    • /
    • 2011
  • Critical systems with high reliability feature fault tolerant redundancy. Conventional analytical reliability analysis methods that use the Reliability Block Diagram do not adequately reflect characteristics of the redundancy management system and are not suitable for this applications. This paper uses Monte-Carlo method to calculate the reliability of complicated redundant systems. The method was first validated for cases with analytical solutions. Then, the tool was successfully applied to analyze reliability of the flight control systems with a voter as redundancy management system.

Mailing List Characteristic from Electronic Mail

  • Khaitiyakun, N.;Khunkitti, A.
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.917-921
    • /
    • 2004
  • Principle of mailing list was distributed messages to all subscribers in one time. But mailing list operation has constructed a network traffic problem. Because mailing list manager distributed mails without concentrate on subscriber network. If our network has many of subscribers, there will be redundant data in traffic channel. Submailing list has purpose to reduce problems. Analyses of mailing list characteristic in electronic mail were a feature of submailing list system, which manage by human hand (Network Administrator). That will cause trouble for network traffic if Network Administrator could not seek for mailing list characteristic from e-mails in due time. This article will present ideas and recognize methodology for automatic working in submailing list system. Recognize step begin with capture process, which use to trap e-mail information from transfer channel. Next process is preparing raw data into recognition format. Then the third one is recognize part and find out confidential factor. The last process is make decision and determine which electronic mail has properties of mailing list characteristic. Afterward deliver result to submailing list for carry on.

  • PDF