• Title/Summary/Keyword: 데이터 특징

Search Result 4,879, Processing Time 0.036 seconds

Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping (특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법)

  • Lee, Jae-Sung;Kim, Dae-Won
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.12
    • /
    • pp.1024-1027
    • /
    • 2009
  • In this letter, we evaluate the classification performance of mixed numeric and categorical data for comparing the efficiency of feature filtering and feature wrapping. Because the mixed data is composed of numeric and categorical features, the feature selection method was applied to data set after discretizing the numeric features in the given data set. In this study, we choose the feature subset for improving the classification performance of the data set after preprocessing. The experimental result of comparing the classification performance show that the feature wrapping method is more reliable than feature filtering method in the aspect of classification accuracy.

A Study on PCA using Adaptive Correlation (적응적 상관도를 이용한 주성분 분석에 관한 연구)

  • Ko, Myung-Sook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.13-14
    • /
    • 2020
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하며 주성분분석 방법은 대표적인 특징 추출 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석의 주성분 변수 선정시 적응적 상관도(Correlation)를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 실제 데이터의 특징을 나타내는 세분화 변수 선정 시 데이터 편향성의 영향을 줄이기 위한 방법이다.

PCA-based Feature Extraction using Class Information (클래스 정보를 이용한 PCA 기반의 특징 추출)

  • Park Myoung Soo;Na Jin Hee;Choi Jin Young
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.428-432
    • /
    • 2005
  • 영상 데이터와 같은 대용량의 데이터를 분류하고자 할 경우, 입력 데이터의 차원을 줄여서 특징 벡터를 뽑아내는 전처리 과정은 필수적이다. 이 경우 특징 벡터가 입력 데이터의 정보를 최대한 포함하도록 하는 것이 중요하다. 특징 벡터를 뽑는 대표적인 방법으로는 PCA, ICA, LDA, MLP와 같은 특징 추출(feature extraction) 방법을 들 수 있다. PCA와 LDA는 무감독 학습 방식이고, LDA, MLP는 감독 학습 방식에 해당한다. 감독학습 방식의 경우 입력 정보와 함께 클래스 정보를 사용하기 때문에 데이터를 분류하기에 더 좋은 특징들을 뽑아낼 수 있는 장점이 있다. 본 논문에서는 무감독 학습 방식인 PCA에 클래스에 대한 정보를 함께 사용하여 특징을 추출함으로써 데이터 분류에 더욱 적합한 특징들을 뽑는 방법을 제안하였다. 그리고, Yale face database를 사용하여 제안한 알고리즘의 성능을 기존의 알고리즘과 비교, 테스트하였다.

  • PDF

A scalable and automated feature data extraction system for AI analysis of computational science data (계산과학 데이터의 인공지능 분석을 위한 확장성 있는 특징 데이터 추출 자동화 시스템)

  • Ahn, Sunil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.102-105
    • /
    • 2020
  • AI 분석 과정에서 특징 데이터 추출은 분석 성능에 큰 영향을 미칠 뿐만 아니라 가장 많은 시간을 소요하는 과정 중의 하나이다. 계산과학 데이터는 HPC를 활용하여 생산되므로 데이터가 크고 복잡할 뿐 아니라 데이터의 수도 방대한 경우가 많다. 이 때문에 계산과학 데이터로부터 특징 데이터 추출하는 과정은 복잡성이 크고, 소요 시간도 매우 크다. 본 논문은 먼저 계산과학 데이터로부터 특징 데이터 추출하는 과정에 대한 요구사항과 이슈들을 분석한다. 그리고 확장성을 고려한 계산과학 데이터의 인공지능 분석을 위한 특징 데이터 추출 자동화 시스템을 제안한다.

IoT-based Feature Selection Technique Research Trend (IoT 기반의 특징 선택 기법 연구 동향)

  • Lim, Hwan-Hee;Lee, Tae-Ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.41-42
    • /
    • 2018
  • 특징 선택이란, 기계학습에서 분류 정확도를 향상시키기 위해서 많은 특징들을 분석해 가장 좋은 성능을 나타낼 수 있게끔 특징의 부분집합을 찾아내는 방법이다. 특징 선택 연구는 수십만개의 변수가 있는 데이터 세트를 이용하는 응용분야에서 주로 연구된다. 이러한 응용 분야는 주로 텍스트 처리, 유전자 배열 분석과 같은 고차원 데이터를 분석하는 분야이다. 또한, IoT 환경은 많은 데이터를 처리하기 때문에, 데이터 분류나 데이터의 가공을 위해서는 특징 선택 기법이 필수적이다. 본 논문에서는 특징 선택 기법에 대해 설명하고, IoT 환경에서 특징 선택 기법을 제안한다.

  • PDF

A Study on the Feature Extraction using the Wavelet Transform in Satellite Remote Sensing Image (웨이브렛 변환을 이용한 원격탐사 이미지 데이터의 특징 추출에 관한 연구)

  • 전영준;김진일
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.237-240
    • /
    • 2000
  • 본 논문에서는 원격탐사 이미지 데이터의 분석과정중의 하나인 이미지의 분류를 위해서 적용되는 다중분광 영상에서 특징 추출을 위한 효율적인 방법을 제안한다. 즉, 웨이브렛 변환을 이용하여 위성탐사 이미지 데이터의 특성을 분석하여 실제 이미지 분류에 기여도가 높은 특징을 추출하는 방법을 제안하였다. 효과적인 특징을 추출하기 위하여 이미지 데이터의 텍스쳐 특징을 이용하였다.

  • PDF

Applying Speciated GA to Huge-scale Feature Selection in Bioinformatics (생명정보학에서의 거대규모 특징추출을 위한 종분화 GA의 활용)

  • 황금성;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.229-231
    • /
    • 2002
  • 최근 생물 유전자 정보에 대한 관심이 커지면서 이를 위한 효과적인 분석 방법이 요구되고 있다. 특히, 분류기의 데이터로 사용하기 위해서 필요한 특징만을 뽑는 과정인 특징 추출은 대량의 유전자 정보에서 의미 있는 정보를 선별하는 중요한 과정이다. 그러나 유전자 정보는 사용되는 데이터의 특징규모가 매우 크기 때문에 일반적인 데이터 마이닝 기법으로는 분석이 힘들다. 본 논문에서는 효율적인 거대규모 특징 추출을 위해 유전자 알고리즘(GA)파 신경망을 사용한 특징추출 방법을 소개하고, 종분화 기법을 사용한 효과적인 특징추출 방법을 제시한다. 그리고, CAMDA 2000에 공개된 암 DNA Microarray로 안종류를 분류하는 문제에 대하여 성능을 평가하였다.

  • PDF

특징형상 테이터를 이용한 선행관계 추출과 작업순서 결정

  • 이충수;노형민;김성식
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 1996.04a
    • /
    • pp.352-357
    • /
    • 1996
  • 특징형상 데이터는 공정설계의 입력 정보로 사용되며, 부품 서술 데이터, 기하학적 데이터, 가공 기술적 데이터로 분류할 수 있다. 또한 공정순서및 작업순서 결정에서 선행관계는 반드시 고려하여 위배되지 않도록 해야하는 중요한 요소이다. 본 연구에서는 작업순서 결정시 만족해야하는 선행관계를 기하형상에 의한 선행관계, 단위 특징형상의 작업내용들간의 선행관계, 가공 경험에 의한 선행관계 등으로 분류/정의하였고, 특징형상 데이터와 가공지식을 이용하여 분류된 선행관계를 자동으로 추출하는 방법을 제안하였다. 그리고 추출한 선행관계를, 공구 교환횟수를 최소로 하는 작업순서 결정 알고리즘에 적용한 사례를 정리하였다.

  • PDF

Deep Learning Model Validation Method Based on Image Data Feature Coverage (영상 데이터 특징 커버리지 기반 딥러닝 모델 검증 기법)

  • Lim, Chang-Nam;Park, Ye-Seul;Lee, Jung-Won
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.9
    • /
    • pp.375-384
    • /
    • 2021
  • Deep learning techniques have been proven to have high performance in image processing and are applied in various fields. The most widely used methods for validating a deep learning model include a holdout verification method, a k-fold cross verification method, and a bootstrap method. These legacy methods consider the balance of the ratio between classes in the process of dividing the data set, but do not consider the ratio of various features that exist within the same class. If these features are not considered, verification results may be biased toward some features. Therefore, we propose a deep learning model validation method based on data feature coverage for image classification by improving the legacy methods. The proposed technique proposes a data feature coverage that can be measured numerically how much the training data set for training and validation of the deep learning model and the evaluation data set reflects the features of the entire data set. In this method, the data set can be divided by ensuring coverage to include all features of the entire data set, and the evaluation result of the model can be analyzed in units of feature clusters. As a result, by providing feature cluster information for the evaluation result of the trained model, feature information of data that affects the trained model can be provided.

Extraction of Feature Parameter for Performance Enhancement on Hand-Geometry Recognition System (손 모양 인식시스템에서 성능 향상을 위한 특징 파라메터 추출)

  • 박주원;김영탁;김수정;탁한호;이상배
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.85-89
    • /
    • 2004
  • 최근 몇 년 동안 사람들의 고유한 생리적인 특징을 이용한 생체 인식은 새로운 학문으로서 연구 및 개발이 활발하게 진행되고 있다. Hand-Geometry는 생체 인식의 확인 그리고 취득의 편리 때문에 식별 그리고 확인을 위하여 사용되고 있다. 그러므로, 본 논문은 이러한 특징을 가지는 손의 기하학적인 Hand-Geometry 인식 시스템을 제안하고자 한다. 해부학적인 관점에서, 인간의 손은 길이, 폭, 두께, 기하학적인 모양, 손바닥의 모양, 그리고 손가락들의 기하학적인 모양까지 특성으로 나타내어 질 수 있다. 그러나 특징 데이터 가운데 사용자의 Hand-GeoMetry의 특징에 따라 길이 데이터가 변하는 것을 실험적으로 발견하였다. 따라서 이와 같은 가변적인 길이 데이터를 안정화시키기 위하여 본 논문에서는 길이 데이터의 기준점을 손톱 아래 점으로 정하고, GA를 적용하여 보다 안정된 특징점을 추출하였다. 본 논문에서 제안한 Hand-Geometry 인식 시스템은 성인 20명의 개인에 대해 100개의 측정 데이터에 기인한 확인 결과를 제시한다. 인식 과정은 320$\times$240의 이미지로 실험하였고 인식 과정의 결과는 95 %의 적중률과 0.020의 FAR로 나타났다.

  • PDF