• 제목/요약/키워드: 불균형데이터 처리

검색결과 120건 처리시간 0.035초

무선 센서 네트워크에서의 에너지 효율적인 불균형 클러스터링 알고리즘 (An Energy Efficient Unequal Clustering Algorithm for Wireless Sensor Networks)

  • 이성주;김성천
    • 정보처리학회논문지C
    • /
    • 제16C권6호
    • /
    • pp.783-790
    • /
    • 2009
  • 무선 센서 네트워크의 필요성이 증가함에 따라 관련된 연구 또한 활발히 진행되고 있다. 특히, 에너지 제약적인 무선 센서 네트워크의 생존 시간을 증가시키고자 하는 클러스터링 기법들이 많이 연구되고 있다. 대표적인 LEACH와는 달리, 최근의 클러스터링 기법들은 다중 홉으로 데이터를 전송하기 때문에 데이터 병목 현상 문제가 발생한다. 불균형 클러스터링(unequal clustering) 기법들은 라우팅 경로를 증가시켜 데이터 병목 현상 문제를 해결하였다. 불균형 클러스터링 기법들의 대부분은 BS(Base Station)와의 거리만을 고려하여 클러스터의 크기를 결정하였기 때문에, 클러스터 헤드의 에너지 소모가 커지는 문제점이 있다. 본 논문에서는 클러스터 헤드의 에너지 소모를 최소화하고, 데이터 병목 현상 문제도 해결할 수 있는 불균형 클러스터링 알고리즘을 제안하였다. 기본 아이디어는 적절한 클러스터 헤드를 선출한 이후, BS와의 거리와 노드의 에너지 상태, 이웃 노드의 수를 고려하여 클러스터의 크기를 결정하고, 동시에 클러스터 헤드의 전송기능을 분담하는 노드를 선정하는 것이다. 이처럼 클러스터 헤드의 에너지 소모를 최소화함으로써 클러스터링의 반복횟수를 감소시킬 수 있었으며, 더불어 전체 네트워크의 에너지 소모도 감소시킬 수 있었다.

Conditional GAN을 활용한 오버샘플링 기법 (Oversampling scheme using Conditional GAN)

  • 손민재;정승원;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.609-612
    • /
    • 2018
  • 기계학습 분야에서 분류 문제를 해결하기 위해 다양한 알고리즘들이 연구되고 있다. 하지만 기존에 연구된 분류 알고리즘 대부분은 각 클래스에 속한 데이터 수가 거의 같다는 가정하에 학습을 진행하기 때문에 각 클래스의 데이터 수가 불균형한 경우 분류 정확도가 다소 떨어지는 현상을 보인다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 데이터 수가 적은 클래스에 속한 데이터 특징을 학습하고 실제 데이터와 유사한 데이터를 생성한다. 이를 통해 클래스별 데이터의 수를 맞춰 분류 알고리즘의 분류 정확도를 높인다. 실제 수집된 데이터를 이용하여 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

비디오 데이터 보강을 이용한 인물 개체 분할 (Human Instance Segmentation using Video Data Augmentation)

  • 전현진;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.532-534
    • /
    • 2022
  • 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 비디오 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오의 시공간적 맥락을 충분히 고려해서 부족한 인물 클래스의 훈련 비디오 데이터들을 추가 생성함으로써, 비디오 개체 분할 신경망 모델의 성능을 효과적으로 개선시킬 수 있다. 본 논문에서는 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 우수성을 입증한다.

대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교 (Performance comparison between Decision tree model and TabNet for loan repayment prediction)

  • 한수진 ;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가 (Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster)

  • 장용일;이충호;이재동;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

인물 개체 분할을 위한 맥락-의존적 비디오 데이터 보강 (Context-Dependent Video Data Augmentation for Human Instance Segmentation)

  • 전현진;이종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권5호
    • /
    • pp.217-228
    • /
    • 2023
  • 비디오 개체 분할은 비디오를 구성하는 영상 프레임 각각에 대해 관심 개체 분할을 수행해야 할 뿐만 아니라, 해당 비디오를 구성하는 프레임 시퀀스 전체에 걸쳐 개체들에 대한 정확한 트래킹을 요구하기 때문에 난이도가 높은 기술이다. 특히 드라마 비디오에서 인물 개체 분할은 다양한 장소와 시간대에서 상호 작용하는 복수의 주요 등장인물들에 대한 정확한 트래킹을 요구하는 특징을 가지고 있다. 또한, 드라마 비디오 인물 개체분할은 주연 인물들과 조연 혹은 보조 출연 인물들 간의 등장 빈도에 상당한 차이가 있어 일종의 클래스 불균형 문제도 있다. 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오들의 시-공간적 맥락을 충분히 고려해서 목표 인물이 삽입되어야 할 배경 클립 내의 위치를 결정함으로써, 보다 더 현실적인 보강 비디오들을 생성한다. 따라서 본 논문에서 제안하는 새로운 비디오 데이터 보강 기법인 CDVA는 비디오 개체 분할을 위한 심층 신경망 모델의 성능을 효과적으로 향상시킬 수 있다. 본 논문에서는 MHIS 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 유용성과 효과를 입증한다.

딥러닝 모델과 비침습적 데이터를 활용한 수술 중 저혈압 예측에 관한 연구 (A Study on Intraoperative Hypotension Prediction using Deep Learning Model and Non-Invasive Data)

  • 김동원;신유정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.509-512
    • /
    • 2022
  • 수술 중 저혈압 예측은 환자의 안전과 직결되는 중요한 과제이다. 그러나 인간이 저혈압을 예측하는 것은 많은 경험과 노하우를 필요로 하며, 현재 연구되고 있는 예측 기술은 단일 정보를 활용하여 복합적인 원인을 반영하지 못하거나, 침습적으로 데이터를 획득하여 환자에게 불편함을 준다. 비침습적으로 수집한 데이터를 통한 저혈압 발생 예측에 대한 연구는 꾸준히 진행되어 왔으나, 기존 딥러닝을 이용한 접근방법으로는 정확도가 낮다. 본 논문에서는 그 원인을 1)데이터 전처리 2)데이터 불균형 3)기존 모델의 한계로 구분하고, 이를 해결 가능한 방안을 제시한다. 실험 결과 CNN*CNN에서 Focal Loss를 사용할 때, 가장 높은 성능을 내는 것을 확인했다.

자율주행 트랙터 환경에서 쓰러진 사람에 대한 데이터 증강 (Dataset Augmentation on Fallen Person Objects in a Autonomous Driving Tractor Environment)

  • 백화평;안한세;채희성;정용화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.553-556
    • /
    • 2023
  • 데이터 증강은 데이터 불균형 문제를 해결하기 위해 일반화 성능을 향상시킨다. 이는 과적합 문제를 해결하고 정확도를 높이는 데 도움을 준다. 과적합을 해결하기 위해서 본 논문에서는 분할 마스크 라벨링을 자동화하여 효율성을 높이고, RoI를 활용한 분할 Copy-Paste 데이터 증강 기법을 제안한다. 본 논문의 제안 방법을 적용한 결과 YOLOv8 모델에서 기존의 분할, 박스 Copy-Paste 데이터 증강 기법과 비교해서 쓰러진 사람 객체에 대한 정확도가 10.2% 증가함으로써 제안한 방법이 일반화 성능을 높이는 데 효과가 있음을 확인하였다.

딥러닝기반 감정인식에서 데이터 불균형이 미치는 영향 분석 (Effect Analysis of Data Imbalance for Emotion Recognition Based on Deep Learning)

  • 노하진;임유진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권8호
    • /
    • pp.235-242
    • /
    • 2023
  • 최근 들어 영유아를 대상으로 한 비대면 상담이 증가함에 따라 감정인식 보조 도구로 CNN기반 딥러닝 모델을 많이 사용하고 있다. 하지만 대부분의 감정인식 모델은 성인 데이터 위주로 학습되어 있어 영유아 및 청소년을 대상으로 적용하기에는 성능상의 제약이 있다. 본 논문에서는 이러한 성능제약의 원인을 분석하기 위하여 XAI 기법 중 하나인 LIME 기법을 통해 성인 대비 영유아와 청소년의 감정인식을 위한 얼굴 표정의 특징을 분석한다. 뿐만 아니라 남녀 집단에도 동일한 실험을 수행함으로써 성별 간 얼굴 표정의 특징을 분석한다. 그 결과로 연령대별 실험 결과와 성별별 실험 결과를 CNN 모델의 사전 훈련 데이터셋의 데이터 분포를 바탕으로 설명하고 균형 있는 학습 데이터의 중요성을 강조한다.