• 제목/요약/키워드: 데이터 선별

검색결과 570건 처리시간 0.027초

특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법 (Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1024-1027
    • /
    • 2009
  • 본 논문에서는 혼합형 데이터에 대한 특징 선별 기법의 효율성을 비교하기 위해 특징 필터링과 특징 래핑을 통한 특징 선별 후, 클래스 분류 성능을 측정하였다. 혼합형 데이터는 숫자형 특징과 범주형 특징이 함께 혼합되어 있으므로, 숫자형 특징을 범주형 특징으로 이산화를 하여 단일형 데이터로 변환한 뒤 특징 선별 기법 등을 적용할 수 있다. 본 연구에서는 혼합형 데이터를 전처리하여 단일형 데이터로 변환하고, 널리 활용되는 특징 필터링 기법과 특징 래핑 기법을 통해 클래스 분류 성능을 높일 수 있는 특징 집합을 선별하였다. 선별된 특징 집합을 통한 클래스 분류 성능을 비교한 결과, 특징 필터링에 비해 특징 래핑을 통해 선별한 특징 집합을 활용하여 클래스 분류를 하였을 때 분류 정확도가 높은 것을 확인할 수 있었다.

Unsupervised feature selection using orthogonal decomposition and low-rank approximation

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.77-84
    • /
    • 2022
  • 본 논문에서는 새로운 비지도 특징 선별 기법을 제안한다. 기존 비지도 방식의 특징 선별 기법들은 특징을 선별하기 위해 가상의 레이블 데이터를 정하고 주어진 데이터를 이 레이블 데이터에 사영하는 회귀 분석 방식으로 특징을 선별하였다. 하지만 가상의 레이블은 데이터로부터 생성되기 때문에 사영된 공간이 비슷하게 형성될 수 있다. 따라서 기존의 방법들에서는 제한된 공간에서만 특징이 선택될 수 있었다. 이를 해소하기 위해 본 논문에서는 직교 사영과 저랭크 근사를 이용하여 특징을 선별한다. 이 문제를 해소하기 위해 가상의 레이블을 직교 사영하고 이 공간에 데이터를 사영할 수 있도록 한다. 이를 통해 더 주요한 특징 선별을 기대할 수 있다. 그리고 사영을 위한 변환 행렬에 저랭크 제한을 두어 더 효과적으로 저차원 공간의 특징을 선별할 수 있도록 한다. 이 목표를 달성하기 위해 본 논문에서는 비용 함수를 설계하고 효율적인 최적화 방법을 제안한다. 여섯 개의 데이터에 대한 실험 결과는 제안된 방법이 대부분의 경우 기존의 비지도 특징 선별 기법보다 좋은 성능을 보여주었다.

k-NN 기법을 이용한 학습자 데이터의 노이즈 선별 방법 (Noise-Reduction of Student's Learning Data using k-NN Method)

  • 윤태복;이지형;정영모;차현진;박선희;김용세
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.135-138
    • /
    • 2006
  • 사용자 모델링을 위해서는 사용자의 성향 및 행위 등의 다양한 정보를 수집하여 분석에 이용한다. 하지만 사용자(인간)로 부터 얻은 데이터는 기계나 환경에서 수집된 데이터 보다 패턴을 찾기 힘들어 모델링하기 어렵다. 그 이유는 사용자는 사용자의 현재 상태와 상황에 따라 다양한 결과를 보이며, 일관성을 유지 하지 않는 경우가 있기 때문이다. 사용자 모델링을 위해서는 분산되어 있는 데이터에서 노이즈를 선별하고 연관성 있는 데이터를 분류할 수 있는 기술이 필요하다. 본 논문은 사용자로 부터 수집된 데이터를 k-NN(Nearest Neighbor) 기법을 이용하여 노이즈를 선별한다. 노이즈가 제거된 데이터는 의사결정나무(Decision Tree)방법을 이용하여 학습하였고, 노이즈가 분류되기 전과 비교 분석 하였다. 실험에서는 홈 인테리어 학습 컨텐츠인 DOLLS-HI를 이용하여 수집된 학습자의 데이터를 이용하였고, 생성된 학습자 모델링의 신뢰도가 높아지는 것을 확인하였다.

  • PDF

A-SMGCS에 전달되는 항공기 및 차량의 감시정보 도출을 위한 레이더 데이터 분석

  • 정영호;구영일;정세진
    • 한국항공운항학회:학술대회논문집
    • /
    • 한국항공운항학회 2015년도 추계학술대회
    • /
    • pp.170-174
    • /
    • 2015
  • 본 논문에서는 레이더로부터 수신한 공항으로의 접근 항공기 또는 공항 이동지역 내 항공기 및 차량에 대한 감시 데이터를 선별하고, 선별된 데이터를 ASTERIX 표준에 따라 분석하는 방법에 대해 기술한다.

  • PDF

효모 마이크로어레이 유전자 발현데이터에 대한 가우시안 과정 회귀를 이용한 유전자 선별 및 군집화 (Screening and Clustering for Time-course Yeast Microarray Gene Expression Data using Gaussian Process Regression)

  • 김재희;김태훈
    • 응용통계연구
    • /
    • 제26권3호
    • /
    • pp.389-399
    • /
    • 2013
  • 본 연구에서는 가우시안 과정회귀방법을 소개하고 시계열 마이크로어레이 유전자 발현데이터에 대해 가우시안 과정회귀를 적용한 사례를 보이고자한다. 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용한 유전자를 선별방법에 대한 모의실험을 통해 민감도, 특이도, 위발견율 등을 계산하여 선별방법으로의 활용성을 보였다. 실제 효모세포주기 데이터에 대해 제곱지수공분산함수를 고려한 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용하여 차변화된 유전자를 선별한 후, 선별된 유전자들에 대해 가우시안 모형기반 군집화를 하고 실루엣 값으로 군집유효성을 보였다.

히스토그램 분석 기반 파손 영상 선별 알고리즘 (Broken Image Selection Algorithm based on Histogram Analysis)

  • 조진환;장시웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.72-74
    • /
    • 2021
  • 최근 딥러닝 환경의 확산으로 인하여 데이터셋 생성의 중요성이 높아지고 있어, 효율적인 데이터 셋 생성을 위하여 GAN을 활용하여 데이터를 증강시키고 있다. 그러나 GAN을 활용하여 생성되는 데이터에는 학습 초기 발생하는 문제점 및 생성되는 영상 내에 픽셀 깨짐 현상이 발생하는 등 여러 문제점이 발견되고 있다. 본 논문에서는 기존 GAN에서 발생하는 여러 문제점을 해결하기 위하여 파손 영상 데이터 선별 알고리즘을 구현하고자 한다. 파손 영상 선별 알고리즘은 영상 내의 히스토그램 분포를 분석하고 해당 결과값이 지정한 임곗값에 만족하는지에 따라 생성된 영상의 저장 여부를 결정하도록 구현하였다.

  • PDF

행정정보 데이터세트 평가선별을 위한 평가지표 개선방안 연구 (A Study on Improvement of Evaluation Indicators for Archival Appraisal of Administrative Information Dataset)

  • 전한역;강변구;송채은;양동민
    • 한국기록관리학회지
    • /
    • 제23권2호
    • /
    • pp.27-48
    • /
    • 2023
  • 국내 공공기관에서 행정정보 데이터세트는 체계적인 관리가 필요한 전자기록물로 인식된다. 이와 관련해 최근 국가기록원과 학계를 중심으로 기록관리 실행을 위한 구체적인 방안이 논의되고 있다. 본 연구의 목적은 향후 공공기관의 기록관리 실무 현장에서 데이터세트 평가선별 시 고려할 사항과 행정정보 데이터세트의 가치를 효과적으로 파악할 수 있는 평가지표의 개선방안을 도출하는 것이다. 본 논문은 이론적 배경 및 데이터세트의 평가선별 현황을 분석하여 데이터세트 평가선별에 필요한 고려사항을 도출하고, 기존 연구에서 제시된 평가지표의 개선방안을 제안하였다. 본 연구의 결과가 향후 공공기관 데이터세트 관리체계 정비와 관리 프로세스 보완에 관한 논의 활성화로 이어지기를 기대한다.

도메인 변화에 강건한 사전학습 표 언어모형 (Domain-agnostic Pre-trained Language Model for Tabular Data)

  • 조상현;최제훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

비전 인공지능 기반 생활폐기물 선별에서 성능최적화를 위한 감독학습 기법 (A Method of Supervised Learning for Optimized Household Waste Detection based on Vision AI)

  • 박상희;이쁜별;정중은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.637-639
    • /
    • 2021
  • 인공지능 기반의 생활폐기물의 인식 및 선별에서, 선별 정확도의 저하는 인식 대상의 형태적 다양성과 학습데이터 부족 및 불균등성에 기인한다. 본 연구에서는 비전 인공지능 기반의 효과적인 폐기물 선별을 위한 인식 시스템 및 감독학습 기반의 인공지능 학습 기법을 제안한다. 생활폐기물 중 순환자원적 가치가 높은 CAN, PET, 그리고 이와 형상적으로 유사한 폐기물에 대해 본 연구에서 제안된 시스템에서 물체원형 및 훼손된 형태의 총 18 종 이미지 데이터를 대상으로, 감독학습기반의 인공지능 모델 제작에서 최적의 데이터 레이블링을 위한 분류체계를 제시한다.

데이터 탐색을 활용한 딥러닝 기반 제천 지역 산사태 취약성 분석 (Assessment of Landslide Susceptibility in Jecheon Using Deep Learning Based on Exploratory Data Analysis)

  • 안상아;이정현;박혁진
    • 지질공학
    • /
    • 제33권4호
    • /
    • pp.673-687
    • /
    • 2023
  • 데이터 탐색은 수집한 데이터를 다양한 각도에서 관찰 및 이해하는 과정으로 데이터 구조 및 특성 분석을 통해 데이터의 분포와 상관관계를 파악하는 과정이다. 일반적으로 산사태는 다양한 인자들에 의해 유발되고 발생 지역에 따라 유발 인자들이 미치는 영향이 상이하기 때문에 산사태 취약성 분석 이전에 데이터 탐색을 통해 유발 인자 사이의 상관관계를 파악하고 특징적인 유발 인자를 선별한다면 효과적인 분석을 수행할 수 있다. 따라서 본 연구는 데이터 탐색이 예측 모델의 성능에 미치는 결과를 확인하기 위해 두 단계에 걸친 데이터 탐색을 수행하여 인자를 선별하고, 선별된 유발 인자들 사이의 조합과 23개의 전체 유발 인자 조합을 활용하여 딥러닝 기반의 산사태 취약성 분석을 진행하였다. 데이터 탐색 과정에서는 Pearson 상관계수 heat map과 random forest의 인자 중요도 histogram을 활용하였으며, 딥러닝 기반 산사태 취약성 분석 결과의 정확도는 분석을 통해 획득한 산사태 취약 지수 값을 이용해 제작한 산사태 취약성 지도를 confusion matrix 기반의 정확도 검증 방법을 통해 분석하였다. 분석 결과, 전체 23개의 인자를 사용한 산사태 취약성 해석 결과는 55.90%의 낮은 정확도를 보였지만 한 단계의 탐색을 거쳐 선별한 13개 인자를 활용한 취약성 해석 결과는 81.25%의 분석 정확도를 보였고, 두 단계 데이터 탐색을 모두 수행하여 선별된 9개의 유발 인자를 활용한 산사태 취약성 분석 결과는 92.80%로 가장 높은 정확도를 보였다. 따라서 데이터 탐색을 통해 특징적인 유발 인자를 선별하고 분석에 활용하는 것이 산사태 취약성 분석에서 더 좋은 분석 성능을 기대할 수 있음을 확인하였다.