• 제목/요약/키워드: Imbalanced Dataset

검색결과 49건 처리시간 0.022초

심층신경망을 활용한 Cochlodinium polykrikoides 적조 발생 예측 연구 (Study on Cochlodinium polykrikoides Red tide Prediction using Deep Neural Network under Imbalanced Data)

  • 박수호;정민지;황도현;엥흐자리갈 운자야;김나경;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1161-1170
    • /
    • 2019
  • 본 연구에서는 심층 신경망을 이용하여 Cochlodinium polykrikoides 적조 발생을 예측하는 모델을 제안한다. 적조 발생 예측을 위해 8개의 은닉층을 가진 심층 신경망을 구축하였다. 위성 재분석 자료와 기상수치모델 자료를 이용하여 과거 적조 발생해역의 해양 및 기상인자 총 59개를 추출하여 신경망 모델 학습에 활용하였다. 전체 데이터셋 중 적조 발생 사례는 적조 미발생 사례에 비해 매우 적어 불균형 데이터 문제가 발생하였다. 본 연구에서는 이를 해결하기 위해 과표집화(Over sampling) 기반 데이터 증식(Data augmentation) 기법을 적용하였다. 과거자료를 활용하여 모형의 정확도를 평가한 결과 약 97%의 정확도를 보였다.

다중분광밴드 위성영상의 작물재배지역 추출을 위한 Attention Gated FC-DenseNet (Attention Gated FC-DenseNet for Extracting Crop Cultivation Area by Multispectral Satellite Imagery)

  • 성선경;모준상;나상일;최재완
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.1061-1070
    • /
    • 2021
  • 본 연구에서는 국내 농업지역에 대한 작물재배지역의 분류를 위하여 FC-DenseNet 모델에 attention gate를 적용하여 딥러닝 모델의 성능을 향상시키고자 하였다. Attention gate는 특징맵의 공간/분광적 중요도에 따른 가중치를 추가적으로 학습하여 딥러닝 모델의 학습을 용이하게 하고, 모델의 성능을 향상시킬 수 있다. Attention gate를 FC-DenseNet의 스킵 연결 부분에 추가한 딥러닝 모델을 이용하여 양파 및 마늘 지역의 작물분류를 수행하였다. PlanetScope 위성영상을 이용하여 훈련자료를 제작하였으며, 훈련자료의 불균형 문제를 해결하기 위하여 전처리 과정을 적용하였다. 다양한 평가자료를 이용하여 작물재배분류 결과를 평가한 결과, 제안된 딥러닝 모델은 기존의 FC-DenseNet과 비교하여 효과적으로 양파 및 마늘 지역을 분류할 수 있는 것을 확인하였다.

기계학습 기반 유전자 발현 데이터를 이용한 치주질환 예측 (Prediction for Periodontal Disease using Gene Expression Profile Data based on Machine Learning)

  • 이제근
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.903-909
    • /
    • 2019
  • 치주질환은 상당수의 성인들이 가지고 있는 질환이지만 아직 분자적인 수준에서의 발생 기작과 치료 방법에 대해서는 많은 것이 밝혀져 있지 않다. 본 연구에서는 치주질환 조직과 정상 조직에서 얻어진 유전자 발현 데이터를 이용하여 치주질환 조직과 정상 조직 사이에 분자적 차이가 있는지를 확인한다. 특히 기계학습 알고리즘을 이용하여 유전자 발현양 기반 치주질환 조직과 정상 조직의 분류가 가능한지를 확인하고, 각 조직에서 발현양 차이가 나는 유전자들이 주로 어떤 기능을 하는 것인지 살펴본다. t-SNE를 이용한 분석 결과 정상 조직과 치주질환 조직 샘플이 명확히 구분되어 군집화 될 수 있음이 확인되었다. 또한, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신을 이용한 분류 알고리즘을 적용한 결과 불균형 데이터임에도 높은 정확도와 민감도, 특이도를 보였으며, 염증 반응 및 면역 반응 관련 유전자들이 주로 두 집단 간에 차이를 보임이 확인되었다.

메탄 가스 기반 가스 누출 위험 예측을 위한 다변량 특이치 제거 (Multivariate Outlier Removing for the Risk Prediction of Gas Leakage based Methane Gas)

  • 홍고르출;김미혜
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.23-30
    • /
    • 2020
  • 본 연구에서는, 천연가스(NG) 데이터와 가스 관련 환경 요소 간의 관계를 기계학습 알고리즘을 사용하여 가스 누출 데이터를 직접 측정하지 않고 가스 누출 위험 수준을 예측하였다. 이번 연구는 서버가 제공하는 오픈 데이터인 IoT 기반 원격 제어 피카로(Picarro) 가스 센서 사양을 기반으로 사용했다. 천연 가스는 공기 중으로 누출이 되며, 대기 오염, 환경, 그리고 건강에 큰 문제가 된다. 본 연구에서 제안하는 방법은 천연 가스의 누출 위험 예측을 위한 랜덤 포레스트(Random Forest) 분류 기반 다변량 특이치 제거 방법이다. 비지도 k-평균 클러스터링 후에 실험 데이터 집합은 불균형 데이터이다. 따라서 우리는 제안된 모델이 중간과 높은 위험 수준을 가장 잘 예측할 수 있다는 점에 초점을 맞춘다. 이 경우 각 분류 모델에 대한 수신자 조작 특성(ROC) 곡선, 정확도, 평균 표준 오차(MSE)를 비교했다. 실험 결과로 정확도, 수신자 조작 특성의 곡선 아래 영역(AUC, Area Under the ROC Curve), MSE가 각각 MOL_RF의 경우 99.71%, 99.57%, 및 0.0016의 결과 값을 얻었다.

소규모 합성곱 신경망을 사용한 연령 및 성별 분류 (Age and Gender Classification with Small Scale CNN)

  • ;류재흥
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.99-104
    • /
    • 2022
  • 인공지능은 놀라운 이점으로 우리 삶의 중요한 부분을 차지하고 있다. 기계는 이미지에서 물체를 인식하는 것, 특히 사람들을 정확한 나이와 성별 그룹으로 분류하는 것에 있어서 인간을 능가하고 있다. 이러한 측면에서 나이와 성별 분류는 최근 수십 년 동안 컴퓨터 비전 연구자들 사이에서 뜨거운 주제 중 하나였다. 심층 합성곱 신경망(CNN) 모델의 배포는 최첨단 성능을 달성했다. 그러나 대부분의 CNN 기반 아키텍처는 수십 개의 훈련 매개 변수로 매우 복잡하기 때문에 많은 계산 시간과 자원이 필요하다. 이러한 이유로 기존 방법에 비해 훈련 매개 변수와 훈련 시간이 현저히 적은 새로운 CNN기반 분류 알고리즘을 제안한다. 덜 복잡함에도 불구하고 우리 모델은 UTKFace 데이터 세트에서 연령 및 성별 분류의 더 나은 정확도를 보여준다.

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

  • Jingxiao Liu;Yujie Wei ;Bingqing Chen;Hae Young Noh
    • Smart Structures and Systems
    • /
    • 제31권4호
    • /
    • pp.325-334
    • /
    • 2023
  • Computer vision-based damage detection enables non-contact, efficient and low-cost bridge health monitoring, which reduces the need for labor-intensive manual inspection or that for a large number of on-site sensing instruments. By leveraging recent semantic segmentation approaches, we can detect regions of critical structural components and identify damages at pixel level on images. However, existing methods perform poorly when detecting small and thin damages (e.g., cracks); the problem is exacerbated by imbalanced samples. To this end, we incorporate domain knowledge to introduce a hierarchical semantic segmentation framework that imposes a hierarchical semantic relationship between component categories and damage types. For instance, certain types of concrete cracks are only present on bridge columns, and therefore the noncolumn region may be masked out when detecting such damages. In this way, the damage detection model focuses on extracting features from relevant structural components and avoid those from irrelevant regions. We also utilize multi-scale augmentation to preserve contextual information of each image, without losing the ability to handle small and/or thin damages. In addition, our framework employs an importance sampling, where images with rare components are sampled more often, to address sample imbalance. We evaluated our framework on a public synthetic dataset that consists of 2,000 railway bridges. Our framework achieves a 0.836 mean intersection over union (IoU) for structural component segmentation and a 0.483 mean IoU for damage segmentation. Our results have in total 5% and 18% improvements for the structural component segmentation and damage segmentation tasks, respectively, compared to the best-performing baseline model.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.

공원 분석 지표 개발 및 현황 분석: 대전광역시를 중심으로 (The Development of Park Analysis Indicators and Current Status: A Case Study of Daejeon Metropolitan City)

  • 황재연;곽승연;김상규;박민주
    • 토지주택연구
    • /
    • 제13권1호
    • /
    • pp.99-112
    • /
    • 2022
  • 최근 무분별한 택지개발과 아파트 건설 등으로 도시공원의 확보와 접근성이 크게 강조되고 있다. 이에 따라 대전광역시도 낙후공원을 정비하고 새로운 공원을 조성하는 도시공원 관리사업을 추진하고 있다. 대전광역시는 행정구역별 공원 관리를 위해 공원데이터를 생성·관리하고 있는데 행정구별로 다른 데이터 양식을 가지고 있다. 본 연구는 행정구역별로 생성된 공원 데이터를 하나의 양식으로 통합하고, 공원의 면적 정보를 반영하는 지리 정보 데이터를 생성해 대전 전체에 존재하는 공원들의 현황을 분석했다. 공원의 현황을 분석했을 때 행정구역별 공원의 불균형이 심하다는 사실을 확인할 수 있었고, 불균형을 해소하기 위한 새로운 정책 방안이 필요하다는 결과를 도출할 수 있었다. 또한 현황 진단 결과를 정규화한 후 순위로 도출하여 세부적인 분석을 진행하여 실제 공원들과 분석 결과를 비교 후 데이터가 공원에 대한 정보를 잘 담고 있는지 살펴봤다. 본 연구에서 도출된 평가 결과를 바탕으로 도시공원에 대한 개선방안을 강구할 수 있고, 선행연구를 기반으로 공원 평가 지표를 구성하여 공원을 객관화할 수 있는 기초 자료를 형성하여 행정구역별 통합된 데이터 양식과 꾸준한 관리를 위해 데이터베이스의 필요성에 대해 제안하고자 한다.