• Title/Summary/Keyword: 불균형비율

Search Result 179, Processing Time 0.022 seconds

Fault Detection of Unbalanced Cycle Signal Data Using SOM-based Feature Signal Extraction Method (SOM기반 특징 신호 추출 기법을 이용한 불균형 주기 신호의 이상 탐지)

  • Kim, Song-Ee;Kang, Ji-Hoon;Park, Jong-Hyuck;Kim, Sung-Shick;Baek, Jun-Geol
    • Journal of the Korea Society for Simulation
    • /
    • v.21 no.2
    • /
    • pp.79-90
    • /
    • 2012
  • In this paper, a feature signal extraction method is proposed in order to enhance the low performance of fault detection caused by unbalanced data which denotes the situations when severe disparity exists between the numbers of class instances. Most of the cyclic signals gathered during the process are recognized as normal, while only a few signals are regarded as fault; the majorities of cyclic signals data are unbalanced data. SOM(Self-Organizing Map)-based feature signal extraction method is considered to fix the adverse effects caused by unbalanced data. The weight neurons, mapped to the every node of SOM grid, are extracted as the feature signals of both class data which are used as a reference data set for fault detection. kNN(k-Nearest Neighbor) and SVM(Support Vector Machine) are considered to make fault detection models with comparisons to Hotelling's $T^2$ Control Chart, the most widely used method for fault detection. Experiments are conducted by using simulated process signals which resembles the frequent cyclic signals in semiconductor manufacturing.

Estimation of Haplotype Proportions in Single Necleotide Polymorphism Group Using EM Algorithm (EM 알고리듬을 이용한 단일염기변이 (SNP;SINGLE NUCLEOTIDE POLYMORPHISM)군의 일배체형 (HAPLOTYPE) 비율 추정)

  • 김선우;김종원;이경아
    • The Korean Journal of Applied Statistics
    • /
    • v.16 no.2
    • /
    • pp.195-202
    • /
    • 2003
  • Haplotype analysis in SNP is very useful for the study of complex genetic disease due to low cost and high efficiency comparing to individual analysis of each SNP, and is functionally important in biological view. But, the gametic phase of haplotypes is usually unknown in SNP group, and it is difficult to predict haplotype proportions. In this study, haplotype proportions were estimated using EM algorithm from diploid data of SNP group in solid tumor group and normal group. From these results, linkage disequilibrium among SNPs was analyzed.

An Empirical Study on the Role of M&A initiated by Banks to the Insolvent Firms which File Petitions to the Court of Law in Korea (부실기업에 대한 M&A 시의 채권 금융기관의 역할에 관한 실증연구)

  • Kim, Young-Kyu;Son, Sang-Hyeon
    • The Korean Journal of Financial Management
    • /
    • v.16 no.1
    • /
    • pp.33-59
    • /
    • 1999
  • 본 연구는 부실기업의 갱생에 있어 중요한 요인인 청구권자들 사이의 정보불균형 및 이해갈등 문제에 초점을 맞추어 부실채권 정상화를 위하여 채권자주도로 시도되는 M&A의 성공여부에 영향을 미치는 요인을 실증적으로 분석하였다. 로지트(logit)모형에 의하여 M&A의 성공여부를 회귀분석한 결과, '청산가치비율'(+)은 1%의 유의수준에서, '구경영진 부실경영책임여부 가변수'(-)와 '파산이후 순이익 정리계획안 계획대비 달성률'(+)은 5%의 유의수준에서 관련성을 가지는 것으로 나타났다. 그리고 '광고연구개발비율'(+) 및 '파산이후 매출액증가율'(+)은 1%의 유의수준에서 관련성을 가지는 것으로 나타났다. 따라서 채권자가 주도하는 M&A의 성공요인으로 파산전후 청구권자들 사이의 정보불균형 문제가 적은 부실기업일수록 그리고 '광고연구개발비율'이 높은 부실기업으로서 상대적으로 무형적인 자산의 가치가 높고, 전문적인 제품을 생산하는 기업은 M&A의 성공 가능성이 높은 것으로 나타났다. 또한 부실기업에 대한 부채조정 등 재무구조의 변화에 따라 '파산이후 매출액증가율'이 높은 기업일수록 M&A의 성공가능성이 높다고 추론할 수 있을 것이다 그러나 '담보권 있는 금융기관 수 비율'(+), '금융비용부담률'(-)과 '대주주지분율'(-) 등은 비유의적인 것으로 나타나서 부실기업의 부채조달내역의 우선권 구조, 재무구조 불안정성 및 소유구조 등은 M&A의 성공여부와 관련성이 거의 없는 것으로 나타났다.

  • PDF

Improved Focused Sampling for Class Imbalance Problem (클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링)

  • Kim, Man-Sun;Yang, Hyung-Jeong;Kim, Soo-Hyung;Cheah, Wooi Ping
    • The KIPS Transactions:PartB
    • /
    • v.14B no.4
    • /
    • pp.287-294
    • /
    • 2007
  • Many classification algorithms for real world data suffer from a data class imbalance problem. To solve this problem, various methods have been proposed such as altering the training balance and designing better sampling strategies. The previous methods are not satisfy in the distribution of the input data and the constraint. In this paper, we propose a focused sampling method which is more superior than previous methods. To solve the problem, we must select some useful data set from all training sets. To get useful data set, the proposed method devide the region according to scores which are computed based on the distribution of SOM over the input data. The scores are sorted in ascending order. They represent the distribution or the input data, which may in turn represent the characteristics or the whole data. A new training dataset is obtained by eliminating unuseful data which are located in the region between an upper bound and a lower bound. The proposed method gives a better or at least similar performance compare to classification accuracy of previous approaches. Besides, it also gives several benefits : ratio reduction of class imbalance; size reduction of training sets; prevention of over-fitting. The proposed method has been tested with kNN classifier. An experimental result in ecoli data set shows that this method achieves the precision up to 2.27 times than the other methods.

한우 사육 농가의 유기순환 체계

  • Park, Jun-Hyeok;Yun, Gi-Yong;Lee, Ju-Sam
    • Proceedings of the Korean Society of Organic Agriculture Conference
    • /
    • 2008.12a
    • /
    • pp.139-145
    • /
    • 2008
  • 1) 밭 토양의 질소공급능력은 밭작물 양분요구량의 1.2배였고, 논토양에서는 1.02로, 평균 1.11이었다. 2) 밭 토양에서 Ca, K 함량은 CNCs보다 낮았고, TN, Mg 함량은 CNCs보다 높았다. 논토양에서는 Ca, Mg, K는 CNCs보다 낮아서 양분의 불균형을 이루고 있다. 3) 작물생산량 중의 조사료 생산비율은 68.1%였다. 4) 조농비는 41:59(조사료 자급비율 91.4%) 5) 토양으로의 가축분뇨 질소환원 가능량은 1,034kg(발생 질소량의 60%)로 추정되었다. 6) 토양으로부터 작물로의 질소공급량은 토양 질소량의 72.4%인 1,383.3kg N으로 추정되었고, 천연양분공급량은 298.6 kg N, 잔류양분 287.7 kg N으로 추정되었다. 7) 토양-작물-가축간의 물질수지는 거의 균형을 이루고 있다고 판단되지만, 토양진단을 통한 양분불균형의 개선이 필요하고, 벼 재배 후 월동 사료작물 재배면적의 확대로 조사료 자급 율을 높이므로, 조농비의 개선이 필요 8) 특히 논 토양의 유박비료 시용량을 가축분뇨로 전량 대체하는 것이 경지 내에서의 물질순환 유지에 필요하다고 판단된다.

  • PDF

AI-based fitness system for body shape correction for the disabled (장애인 체형교정을 위한 AI 기반 피트니스 시스템)

  • Joon-Seok Lee;Jae-Won Lee;In-Soo Kim
    • Annual Conference of KIPS
    • /
    • 2024.10a
    • /
    • pp.1068-1069
    • /
    • 2024
  • 장애인은 일반인보다 비만율과 체형 불균형 비율이 높다. 정상적인 체형을 유지하기 위해서는 운동이 필수적이지만 경제적·환경적인 이유로 운동을 하지 못하는 경우가 많다. 이러한 문제점을 해결하기 위해 본 논문에서는 편한 장소에서 혼자 운동을 할 수 있는 AI 기반 피트니스 시스템을 제안한다. 제안하는 시스템의 주요 기능은 첫째, 정확한 체형측정을 위해 액추에이터 기반 카메라 높이 조절 기능. 둘째, 체형 불균형을 개선하기 위해 일대일로 코칭하는 올바른 운동자세 교정 기능. 셋째, 운동 일정을 관리하여 체형교정 비율과 비만율을 관리하는 기능. 넷째, 자신의 기록을 타인의 기록과 비교하는 랭킹 시스템을 도입하여 목표와 경쟁 심리를 자극하여 지속해서 운동하기 위한 동기를 부여한다.

Machine Learning Based Intrusion Detection Systems for Class Imbalanced Datasets (클래스 불균형 데이터에 적합한 기계 학습 기반 침입 탐지 시스템)

  • Cheong, Yun-Gyung;Park, Kinam;Kim, Hyunjoo;Kim, Jonghyun;Hyun, Sangwon
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.27 no.6
    • /
    • pp.1385-1395
    • /
    • 2017
  • This paper aims to develop an IDS (Intrusion Detection System) that takes into account class imbalanced datasets. For this, we first built a set of training data sets from the Kyoto 2006+ dataset in which the amounts of normal data and abnormal (intrusion) data are not balanced. Then, we have run a number of tests to evaluate the effectiveness of machine learning techniques for detecting intrusions. Our evaluation results demonstrated that the Random Forest algorithm achieved the best performances.

Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance (데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율)

  • Shin, Seung-Soo;Cho, Hwi-Yeon;Kim, Yong-Hyuk
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.1
    • /
    • pp.49-55
    • /
    • 2021
  • Recently, with the development of database, it is possible to store a lot of data generated in finance, security, and networks. These data are being analyzed through classifiers based on machine learning. The main problem at this time is data imbalance. When we train imbalanced data, it may happen that classification accuracy is degraded due to over-fitting with majority class data. To overcome the problem of data imbalance, oversampling strategy that increases the quantity of data of minority class data is widely used. It requires to tuning process about suitable method and parameters for data distribution. To improve the process, In this study, we propose a strategy to explore and optimize oversampling combinations and ratio based on various methods such as synthetic minority oversampling technique and generative adversarial networks through genetic algorithms. After sampling credit card fraud detection which is a representative case of data imbalance, with the proposed strategy and single oversampling strategies, we compare the performance of trained classifiers with each data. As a result, a strategy that is optimized by exploring for ratio of each method with genetic algorithms was superior to previous strategies.

Dynamic Sampling Scheduler for Unbalanced Data Classification (불균형 범주 분류를 위한 동적 샘플링 스케줄러)

  • Seong, Su-Jin;Park, Won-Joo;Lee, Yong-Tae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.221-226
    • /
    • 2021
  • 우리는 범주 불균형 분류 문제를 해결하기 위해 학습 과정 중 범주 크기 기반 배치 샘플링 방법 전환을 위한 스케줄링 방법을 제안한다. 범주별 샘플링 확률로 범주 크기의 역수(LWRS-Reciporcal)와 범주 비율의 반수(LWRS-Ratio)를 적용하여 각각 실험을 진행하였고, LWRS-Reciporcal 방법이 F1 성능 개선에 더 효과적인 것을 확인하였다. 더하여 고정된 샘플링 확률값으로 인해 발생할 수 있는 또 다른 편향 문제를 완화하기 위해 학습 과정 중 샘플링 방법을 전환하는 스케줄링 방법을 설계하였다. 결과적으로 검증 성능의 갱신 유무로 샘플링 방법을 전환하였을 때 naver shopping 데이터셋과 KLUE-TC에 대하여 f1 score와 accuracy의 성능 합이 베이스라인보다 각각 0.7%, 0.8% 향상된 가장 이상적인 성능을 보임을 확인하였다.

  • PDF

A Study on the Efficiency of Imbalanced Data Processing Techniques for Exercise Prediction in COPD Patients (COPD 환자 운동 예측을 위한 불균형 데이터 처리 기법의 효율성에 관한 연구)

  • Hyeonseok Jin;Sehyun Cho;Jayun Choi;Kyungbaek Kim
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.652-655
    • /
    • 2024
  • COPD(Chronic Obstructive Pulmonary Disease)는 장기간에 걸쳐 기도가 좁아지는 폐질환으로, 규칙적 운동은 호흡을 용이하게 하고 증상을 개선할 수 있는 주요 자가관리 중재법 중 하나이다. 건강정보 데이터와 인공지능을 사용하여 규직적 운동 이행군과 불이행군을 선별하여 자가관리 취약 집단을 파악하는 것은 질병관리 측면에서 비용효과적인 전략이다. 하지만 많은 양의 데이터를 확보하기 어렵고, 규칙적 운동군과 그렇지 않은 환자의 비율이 상이하기 때문에 인공지능 모델의 전체적인 선별 능력을 향상시키기 어렵다는 한계가 있다. 이러한 한계를 극복하기 위해 본 연구에서는 국민건강영양조사 데이터를 사용하여 머신러닝 모델인 XGBoost와 딥러닝 모델인 MLP에 오버샘플링, 언더샘플링, 가중치 부여 등 불균형 데이터 처리 기법을 적용 후 성능을 비교하여 가장 효과적인 불균형 데이터 처리 기법을 제시한다.