• 제목/요약/키워드: 불균형

검색결과 2,208건 처리시간 0.032초

공공기술 사업화를 위한 CTGAN 기반 데이터 불균형 해소 (Resolving CTGAN-based data imbalance for commercialization of public technology)

  • 황철현
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.64-69
    • /
    • 2022
  • 공공기술 사업화는 정부가 주도하는 과학기술의 혁신과 R&D 성과를 민간에 이전하는 것으로 경제 성장을 주도하는 핵심 성과로 인식되고 있다. 따라서 기술 이전을 활성화시키기 위해 성공 요인을 식별하거나 사업화 가능성이 높은 공공기술과 수요기업을 매칭하는 다양한 기계학습의 방법들이 연구되고 있다. 하지만 공공기술 사업화 데이터는 표 형태로 구성되어 있고, 성공-실패 비율이 큰 차이를 보이는 불균형 상태이기 때문에 기계학습 성능이 높지 않는 문제점을 가지고 있다. 이 논문에서는 표 형태로 구성된 공공기술 데이터에서 불균형을 해소하기 위해 CTGAN을 활용하는 방법을 제시한다. 또한 제시된 방법의 효과를 검증하기 위해 실제 공공기술 사업화 데이터를 활용하여 통계적 접근방법인 SMOTE와 비교 실험을 수행하였다. 다수의 실험 사례에서 CTGAN은 공공기술 사업화 성공사례를 안정적으로 예측하는 것을 확인하였다.

데이터셋 유형 분류를 통한 클래스 불균형 해소 방법 및 분류 알고리즘 추천 (Class Imbalance Resolution Method and Classification Algorithm Suggesting Based on Dataset Type Segmentation)

  • 김정훈;곽기영
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.23-43
    • /
    • 2022
  • AI(Artificial Intelligence)를 다양한 산업에서 접목하기 위해 알고리즘 선택에 대한 관심이 증가하고 있다. 알고리즘 선택은 대부분 데이터 과학자의 경험에 의해 결정되는 경우가 많다. 하지만 경험이 부족한 데이터 과학자의 경우 데이터셋 특성 기반의 메타학습(meta learning) 을 통해 알고리즘을 선택한다. 기존의 알고리즘 추천은 선정 과정이 블랙박스이기 때문에 어떠한 근거에 의해 도출되는지 알 수 없었다. 이에 따라 본 연구에서는 k-평균 군집분석을 활용하여 데이터셋 특성에 따라 유형을 나누고 적합한 분류 알고리즘과 클래스 불균형 해소 방법을 탐색한다. 본 연구 결과 네 가지 유형을 도출하였으며 데이터셋 유형에 따라 적합한 클래스 불균형 해소 방법과 분류 알고리즘을 추천하였다.

수급 불균형을 고려한 전력망의 최적 자원 할당을 위한 일치 기반의 분산 알고리즘 (Consensus-Based Distributed Algorithm for Optimal Resource Allocation of Power Network under Supply-Demand Imbalance)

  • 임영훈
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권6호
    • /
    • pp.440-448
    • /
    • 2022
  • 최근 분산 에너지 자원들의 도입으로 전력망의 최적 자원 할당 문제의 중요성이 강조되고 있고, 대규모 전력망의 방대한 양의 데이터를 처리하기 위해 분산 자원 할당 기법이 요구되고 있다. 최적 자원 할당 문제에서 각 발전기의 발전 용량의 한계로 인하여 수급의 균형이 만족하는 경우를 고려한 연구는 많이 진행되고 있지만, 총 요구량이 최대 발전 용량을 초과하는 경우인 수급 불균형을 고려한 연구는 아직 미미한 실정이다. 본 논문에서는 수급 균형인 상황뿐만 아니라 수급 불균형 상황을 고려하여 전력망의 최적 자원 할당을 위한 일치 기반의 분산 알고리즘을 제안한다. 제안하는 분산 알고리즘은 수급 균형을 만족하는 경우에는 최적의 자원을 할당하고, 수급이 불균형한 경우에는 부족한 자원의 양을 계측할 수 있도록 설계하였다. 마지막으로 모의실험을 통하여 제안된 알고리즘의 성능을 검증하였다.

검증데이터 기반의 차별화된 이상데이터 처리를 통한 데이터 불균형 해소 방법 (Resolving data imbalance through differentiated anomaly data processing based on verification data)

  • 황철현
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.179-190
    • /
    • 2022
  • 데이터 불균형은 한 분류의 데이터 수가 다른 분류에 비해 지나치게 크거나 작은 현상을 의미하며. 이로 인해 분류 알고리즘을 활용하는 기계학습에서 성능을 저하시키는 주요 요인으로 제기되고 있다. 데이터 불균형 문제 해결을 위해서 소수 분포 데이터를 증폭하는 다양한 오버 샘플링(Over Sampling) 방법들이 제안되고 있다. 이 가운데 SMOTE는 가장 대표적인 방법으로 소수 분포 데이터의 증폭 효과를 극대화하기 위해 데이터에 포함된 잡음을 제거(SMOTE-IPF)하거나, 경계선만을 강화(Borderline SMOTE) 시키는 다양한 방법들이 출현하였다. 이 논문은 소수분류 데이터를 증폭하는 전통적인 SMOTE 방법에서 이상데이터(Anomaly Data)에 대한 처리방법개선을 통해 궁극적으로 분류성능을 높이는 방법을 제안한다. 제안 방법은 실험을 통해 기존 방법에 비해 상대적으로 높은 분류성능을 일관성 있게 제시하였다.

SVM 기반 Bagging과 OoD 탐색을 활용한 제조공정의 불균형 Dataset에 대한 예측모델의 성능향상 (Boosting the Performance of the Predictive Model on the Imbalanced Dataset Using SVM Based Bagging and Out-of-Distribution Detection)

  • 김종훈;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.455-464
    • /
    • 2022
  • 제조업의 공정에서 생성되는 데이터셋은 크게 두 가지 특징을 가진다. 타겟 클래스의 심각한 불균형과 지속적인 Out-of-Distribution(OoD) 샘플의 발생이다. 클래스 불균형은 SMOTE 및 다양한 샘플링 전략을 통해서 대응할 수 있다. 그러나, OoD 탐색은 현재까지 인공신경망 영역에서만 다뤄져 왔다. OoD 탐색의 적용이 가능한 인공신경망은 제조공정 데이터셋에 대해서 만족스러운 성능을 발현하지 못한다. 원인은 제조공정의 데이터셋이 인공신경망에서 일반적으로 다루는 이미지, 텍스트 데이터셋과 비교해서 크기가 매우 작고, 노이즈가 심하다는 것이다. 또한 인공신경망의 과적합(overfitting) 문제도 제조업 데이터셋에서 인공신경망의 성능을 저하하는 원인으로 지적된다. 이에 현재까지 시도된 바 없는 SVM 알고리즘과 OoD 탐색의 접목을 시도하였다. 또한 예측모델의 정밀도 향상을 위해 배깅(Bagging) 알고리즘을 모델링에 반영하였다.

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

토마토 잎 병해 분류를 위한 최소 라벨 데이터 활용: YOLOv8 기반 재귀적 학습 방식을 통한 접근 (Utilizing Minimal Label Data for Tomato Leaf Disease Classification: An Approach through Recursive Learning Based on YOLOv8)

  • 이준혁;김남형
    • 한국빅데이터학회지
    • /
    • 제9권1호
    • /
    • pp.61-73
    • /
    • 2024
  • 클래스 불균형은 딥러닝 작업에서 중요한 문제 중 하나이며, 이는 특히 데이터가 제한적인 분야에서 두드러진다. 본 연구에서는 토마토 잎의 병해를 효과적으로 분류하기 위해 최소한의 라벨 데이터만을 활용하는 새로운 접근법을 제안한다. 이를 위해 YOLOv8 모델을 사용한 재귀적 학습 방식을 도입하였다. 학습 데이터에 대한 이미지 탐지 예측 결과를 다시 학습 데이터로 활용함으로써 라벨 데이터의 개수를 점진적으로 증가시켰다. 이 방식은 기존의 데이터 증강 및 업-다운 샘플링 기법과는 달리 실제 데이터의 활용도를 극대화하여 클래스 불균형 문제를 보다 근본적으로 해결하려 한다. 이를 통해 확보된 라벨 데이터를 바탕으로, 토마토잎을 추출하고 EfficientNet 모델을 이용해 병해를 분류했다. 이 과정을 통해 98.92%라는 높은 정확도를 달성하였다. 특히, 가장 적은 데이터를 가진 클래스인 잎마름역병 병해에서 기존 대비 12.9% 향상된 결과를 확인할 수 있었다. 이 연구는 데이터 불균형 문제를 해결하는 동시에, 높은 정확도로 병해를 분류할 수 있는 방법론을 제시함으로써 다른 작물에서도 적용될 수 있을 것으로 기대된다.

I/Q 불균형이 고려된 DVB-S2 시스템의 심벌 오류 확률 (Symbol Error Probability of DVB-S2 System with I/Q Unbalances)

  • 임인철;원승찬;윤동원;박상규
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.810-819
    • /
    • 2007
  • 90도 위상 천이기나 필터와 같은 불완전한 시스템 요소에 의해 생성되는 I(inphase)축과 Q(quadrature)축 간의 불균형은 피할 수 없는 물리적 현상으로 동기 변/복조 시스템(coherent modulation/demodulation system) 구현에 있어서 성능 열화를 유발한다. 본 논문에서는 AWGN (additive white Gaussian noise) 채널 환경에서 수신기의 I/Q 불균형이 존재하는 경우, DVB(digital video broadcasting)-S2 시스템에서 사용되는 변조방식에 대한 정확하고 일반화된 심벌 오류 확률을 2차원 결합 가우시안 Q-함수(two-dimensional joint Gaussian Q-function)의 선형 결합(linear combination)의 형태로 유도한다.

다양한 조건하에서 모세관력 불균형에 의해 구동되는 수평 표면 위의 액적 거동 (Behavior of Liquid Droplet Driven by Capillarity Force Imbalance on Horizontal Surface Under Various Conditions)

  • 명현국;권영후
    • 대한기계학회논문집B
    • /
    • 제39권4호
    • /
    • pp.359-370
    • /
    • 2015
  • 본 연구는 다양한 조건하에서 모세관력 불균형에 의해 구동되는 수평 표면 위의 액적 거동을 수치해석적으로 연구한 것이다. 액적 거동은 자체개발 코드(PowerCFD)를 사용하여 수치해석하였다. 수치해석에 사용된 코드는 보존적인 압력기반 유한체적방법에 기초한 비정렬 셀 중심 방법 및 VOF 방법에 체적포착법인 CICSAM을 채용하고 있다. 상세한 액적 거동이 다양한 초기 액적형상, 접촉각 및 표면장력(또는 Bond 수)의 조건하에서 얻어졌다. 또한 액적 이송 메커니즘이 액적 형상에 대한 수치해석 결과로부터 검토되었다.

보험산업(保險産業)의 가격자유화(價格自由化)에 관한 연구(硏究)

  • 나동민
    • KDI Journal of Economic Policy
    • /
    • 제16권2호
    • /
    • pp.91-109
    • /
    • 1994
  • 본고(本稿)는 피보험자(被保險者)의 위험정도(危險程度)에 관하여 정보의 불균형이 존재하고 있는 보험시장에서 전체(全體) 시장참여자(市場參與者)의 효용(效用)과 기대이익(期待利益)을 증대시키기 위하여 어떠한 가격정책을 수립하여야 하는지를 분석(分析)하고, 이 분석을 토대로 현재 정부가 추진중인 가격자유화 추진계획방향을 평가하고 개선방향(改善方向)을 제시하고자 하였다. 본고(本稿)의 분석결과(分析結果)에 따르면 정보(情報)의 불균형하(不均衡下)에서 자유화 초기단계의 제한적인 가격자유화는 전체 보험이용자의 효용을 증대시키는 효과를 가져오나 자유화의 폭이 커질수록 사회전체적인 효용증대효과는 불명확해진다. 이 경우 일정범위에 대해서는 요율(料率)과 보장범위(保障範圍)를 위험에 따라 차별화하지 않는 단일(單一) 공동요율(共同料率)을 제시하는 계약(契約)을 주계약(主契約)으로 구매하게 하고, 보충계약(補充契約)인 특약부분(特約部分)에서 각 이용자가 위험정도에 따라 차별화된 가격으로 적절한 보장범위를 선택하게 하도록 정부가 유도하는 것이 바람직하다. 주계약과 보충계약으로 구성된 이러한 보조계약(補助契約)은 기존의 단일(單一) 공동요율(共同料率)에 의한 계약보다 파레토개념에서 우월한 계약으로 시장전체에 순효용증대(純效用增大)의 효과(效果)를 가져올 것이다. 또한 고지의무(告知義務)의 강화(强化), 위험분류(危險分類) 및 선택(選擇) 업무(業務)의 효율화(效率化) 등으로 보험시장내에서 정보의 불균형현상이 해소되고 나면 실질적(實質的)인 가격(價格)의 완전자유화(完全自由化)를 실시하여 파레토최적(最適)을 이루어야 할 것이다. 따라서 정부는 보험시장(保險市場)의 특성(特性)을 고려하여 주어진 조건에서 전체 시장참여자의 효용과 기대이익을 극대화하는 가격정책(價格政策)을 펴야 하며, 현재 추진중인 보험상품(保險商品) 가격자유화계획(價格自由化計劃)도 이런 관점에서 재조명되어야 할 것이다.

  • PDF