• Title/Summary/Keyword: 오분류 비용

Search Result 36, Processing Time 0.029 seconds

A Study on the Fraud Detection of Industrial Accident Compensation Insurance (산재보험 부정수급 식별모형에 관한 연구)

  • Ham, Seung-O;Hong, Jeong-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.342-345
    • /
    • 2008
  • 산재 발생 시 산재근로자는 근로복지공단을 통해서 각종 급여를 받게 된다. 본 논문은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000년$\sim$2007년)의 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 하였고, 종속변수에 영향을 미치는 8개의 독립변수를 선택해서 사용한다. 데이터 마이닝을 적용함에 있어서 가장 효율적인 허위 부정 탐지 모델을 만들기 위해 의사결정나무분석(Decision Tree)과 로지스틱 회귀분석(Logistic Regresion)등의 다양한 기법을 적용하여 결과를 비교분석 하고, 오분류 비용을 적용하여, 최적의 분류결정 값을 가지는 모델을 도출한다. 분석결과, 로지스틱 회귀분석이 산재보험 부정수급 유형 발견에 보다 효과적인 모델로 판명되었다. 또한 판별점(Cut-Off) 0.01로 했을 때 4개변수(요양기간, 업종형태, 의료기관, 재해발생형태)가 부정수급에 탐지하는데 영향력이 큰 변수로 선정되었다.

  • PDF

Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems (클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석)

  • Hwang, Doo-Sung
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.45 no.6
    • /
    • pp.179-186
    • /
    • 2008
  • In this paper we analyse the effects of Bayesian algorithm in teaming class imbalance problems and compare the performance evaluation methods. The teaming performance of the Bayesian algorithm is evaluated over the class imbalance problems generated by priori data distribution, imbalance data rate and discrimination complexity. The experimental results are calculated by the AUC(Area Under the Curve) values of both ROC(Receiver Operator Characteristic) and PR(Precision-Recall) evaluation measures and compared according to imbalance data rate and discrimination complexity. In comparison and analysis, the Bayesian algorithm suffers from the imbalance rate, as the same result in the reported researches, and the data overlapping caused by discrimination complexity is the another factor that hampers the learning performance. As the discrimination complexity and class imbalance rate of the problems increase, the learning performance of the AUC of a PR measure is much more variant than that of the AUC of a ROC measure. But the performances of both measures are similar with the low discrimination complexity and class imbalance rate of the problems. The experimental results show 4hat the AUC of a PR measure is more proper in evaluating the learning of class imbalance problem and furthermore gets the benefit in designing the optimal learning model considering a misclassification cost.

An Empirical Study on Electronic Commerce Critical Success Factors and Electronic Commerce Management Skill Classification Framework Development (전자상거래 주요성공요인 경영기술분류 프레임웤 개발)

  • 오상영;김영렬
    • The Journal of the Korea Contents Association
    • /
    • v.1 no.1
    • /
    • pp.32-40
    • /
    • 2001
  • EC(Electronic Commerce) reduces the middle love of business process and makes the gap doser between suppliers and consumers. EC also makes it possible to products and much more satisfaction to consumers reducing costs. Thus when we study EC, we need to consider business side of EC as well as its technical side. With that point, this study classifies the business factors of EC systematically. This study does not enumerate bits of the factors but present a business technology framework to analyze the mutual relations among the factors.

  • PDF

Personalized Mobile Junk Message Filtering System (사용자 맞춤형 스팸 문자 필터링 시스템)

  • Lee, Seung-Jae;Choi, Deok-Jai
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.12
    • /
    • pp.122-135
    • /
    • 2011
  • Mobile spam message is a harmful factor which makes receivers to be annoyed and leads to unnecessary social cost. Unwanted junk messages flowing to a smart phone ruin main purpose of the smart work system to enhance the productivity, so we need to study on this area. In this paper, we proposed a novel spam filter on the smartphone in order to reduce computing process and improve the accuracy rate by feedback of error results to a training sample set. As the spam classifier operates on the smartphone independently with training on only user's received data, it could reflect user preference. The authorized personal computer takes on heavy works, such as preprocessing, feature selecting and training process, and the smartphone takes on light works to block junk messages. Experimental results showed reasonable accuracy rate of over 95%, and we found that the application occupied constant computing resources while running on the phone.

Hierarchically penalized support vector machine for the classication of imbalanced data with grouped variables (그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신)

  • Kim, Eunkyung;Jhun, Myoungshic;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.5
    • /
    • pp.961-975
    • /
    • 2016
  • The hierarchically penalized support vector machine (H-SVM) has been developed to perform simultaneous classification and input variable selection when input variables are naturally grouped or generated by factors. However, the H-SVM may suffer from estimation inefficiency because it applies the same amount of shrinkage to each variable without assessing its relative importance. In addition, when analyzing imbalanced data with uneven class sizes, the classification accuracy of the H-SVM may drop significantly in predicting minority class because its classifiers are undesirably biased toward the majority class. To remedy such problems, we propose the weighted adaptive H-SVM (WAH-SVM) method, which uses a adaptive tuning parameters to improve the performance of variable selection and the weights to differentiate the misclassification of data points between classes. Numerical results are presented to demonstrate the competitive performance of the proposed WAH-SVM over existing SVM methods.

An Study on Decision Tree Analysis with Imbalanced Data Set : A Case of Health Insurance Bill Audit in General Hospital (의사결정나무 분석에서 불균형 자료의 분석 연구 : 종합병원의 건강보험료 청구 심사 사례)

  • Heo Jun;Kim Jong-U
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.1667-1676
    • /
    • 2006
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내의 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중의 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모형을 만들어 내기 위하여 데이터 불균형 문제의 기본 해법인 과, Sampling 오분류 비용의 다양하고 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모형을 도출하였다.

  • PDF

Classification and evaluation of river environment using Hyperspectral images (초분광 영상정보를 활용한 하천환경 분류 및 평가)

  • Han, Hyeong Jun;Lee, Chang Hun;Kang, Joon Gu;Kim, Jong Tae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.423-423
    • /
    • 2019
  • RGB나 다중분광영상은 높은 공간 해상도로 인해 크기가 작은 물질의 클래스를 부여하는데 있어서는 효과적이지만 분광해상도가 낮아 다양한 종류의 지표물 분류 및 분광적으로 미세한 차이를 보이는 대상 체간의 분류에는 한계를 가지고 있다. 그러나 초분광 영상(Hyperspectral Image)은 대상 객체의 분광 반사곡선을 수백개의 연속적인 분광 파장대 영역으로 상세하게 해당 물체의 정보를 취득할 수 있는 기능을 가지고 있다. 최근 국내에서도 초분광 영상을 이용한 토지피복도 작성 및 환경 모니터링 등 다양한 분야에 적용하기 위한 연구가 시도되고 있다. 최근에는 드론과 같은 소형 UAV를 활용하여 경제적인 비용으로 시공간해상도가 높은 영상을 획득하는 것이 가능하게 되었으며 분광정보를 수집하는 영상 장비의 발전으로 드론에 탑재가 가능한 경량의 소형 초분광센서가 개발됨으로써 보다 높은 분광해상도의 영상을 취득할 수 있게 되었다. 본 연구에서는 효율적인 하천환경조사를 위해 UAV를 활용하여 고해상도 초분광 영상을 취득하였으며, 차원축소법과 분류기 적용에 따른 공간 분류 정확도 분석을 통해 하천환경에 대한 분류 및 평가를 실시하였다. 연구지역에서 획득한 초분광 영상은 노이즈로 인한 영향을 줄이고자 MNF와 PCA 기법으로 차원축소를 수행하였으며, MLC(Maximum Likelihood Classification)와 SVM(Support Vector Machine), SAM(Spectral Angle Mapping) 감독분류기법을 적용하여 하천환경특성에 따른 공간분류를 수행하였다. 연구 결과 MNF기법으로 차원 축소한 영상을 적용하여 MLC 감독분류를 수행하였을 때 가장 높은 분류정확도를 얻을 수 있었으나, 일부 클래스 및 수역의 경계와 그림자 공간에서 주로 오분류가 나타나는 것을 확인할 수 있었다.

  • PDF

Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital (불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례)

  • Hur, Joon;Kim, Jong-Woo
    • Information Systems Review
    • /
    • v.9 no.1
    • /
    • pp.45-65
    • /
    • 2007
  • In medical industry, health insurance bill audit is unique and essential process in general hospitals. The health insurance bill audit process is very important because not only for hospital's profit but also hospital's reputation. Particularly, at the large general hospitals many related workers including analysts, nurses, and etc. have engaged in the health insurance bill audit process. This paper introduces a case of health insurance bill audit for finding reducible health insurance bill cases using decision tree induction techniques at a large general hospital in Korea. When supervised learning methods had been tried to be applied, one of major problems was data imbalance problem in the health insurance bill audit data. In other words, there were many normal(passing) cases and relatively small number of reduction cases in a bill audit dataset. To resolve the problem, in this study, well-known methods for imbalanced data sets including over sampling of rare cases, under sampling of major cases, and adjusting the misclassification cost are combined in several ways to find appropriate decision trees that satisfy required conditions in health insurance bill audit situation.

Governance for the negotiation and Management of Water Resources related Conflicts (수자원과 관련된 분쟁 및 갈등의 조정을 위한 거버넌스)

  • Lee, Joo-Heon;Kim, Hyung-Soo;Hong, Il-Pyou;Kang, Bu-Sik;Kim, Kwang-Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.1530-1535
    • /
    • 2008
  • 수자원과 관련된 많은 분쟁 및 갈등들은 국내뿐만 아니라 전 세계적으로 발생하고 있다. 따라서 분쟁 및 갈등해결을 위한 많은 연구들이 진행되고 있지만 수자원과 관련된 분쟁들은 대부분 원활한 해결을 이루지 못하고 있으며, 특히 국내의 경우에는 더욱 심각하다 할 수 있다. 따라서 제한된 자원인 수자원을 둘러싸고 수자원분쟁이 일어나는 것은 당연한 일이라 할 수 있으며, 분쟁의 양상도 다양하다. 댐 건설로 인한 상류지역과 하류지역의 갈등, 수로의 건설로 인해 수자원을 빼앗기는 지역과 수자원을 얻게 되는 지역 간의 갈등, 새로운 공단이나 개발로 인하여 하류지역에서 수질악화를 우려하여 반대하는 경우 등 여러 종류의 수자원으로 인한 분쟁이 있다. 수자원을 둘러싼 갈등이 쉽게 해결이 되지 않고, 또한 갈등 및 분쟁이 쉽게 발생되는 이유도 주체자들간 입장 차이에서 오는 성격이라 할 수 있겠다. 수자원과 관련된 분쟁에서 오는 여러 가지 갈등들은 사회적으로 많은 문제들을 발생시켜 수자원의 원활한 공급이 저해될 수 있다. 이로 인해 사회적으로 수자원과 관련된 분쟁 해결에 들어가는 많은 시간과 노력, 비용을 생각해 볼 때, 효과적인 갈등 및 분쟁의 해결은 국가적 발전에 있어서 영향을 줄 수 있다. 그러므로 갈등 및 분쟁의 원활한 해결이 국가적 발전에 많은 비중을 차지 한다고 할 수 있다는 것은 이런 이유들 때문이라 할 수 있다. 본 연구에서는 국내 수자원과 관련된 분쟁사례들을 하천의 기능에 따른 분류, 발생 원인에 따른 분류, 분쟁주체에 따른 분류 등을 유형별로 구분하여 수자원분쟁의 여러 가지 사례들을 조사하였다. 또한 분쟁 및 갈등을 해결하기 위한 방안으로 거버넌스 시스템을 적용하였고 분쟁의 원활한 합의 조정방안 및 문제점을 제시하기 위한 외국의 시민참여 모델을 특징 및 특성을 분석하였다. 또한, 공영시각모형, 게임이론, 제도설계이론의 공학적 모형을 바탕으로 물분쟁의 해결을 위한 대안을 모색할 수 있는 과학적 접근 방안을 제시하여 향후 여러 가지형태의 국책사업 시행 시 발생 할 수 있는 분쟁의 해결 및 조정을 위한 방안으로 활용할 수 있는 토대를 마련하고자 한다.

  • PDF

Sleep/Wake Dynamic Classifier based on Wearable Accelerometer Device Measurement (웨어러블 가속도 기기 측정에 의한 수면/비수면 동적 분류)

  • Park, Jaihyun;Kim, Daehun;Ku, Bonhwa;Ko, Hanseok
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.52 no.6
    • /
    • pp.126-134
    • /
    • 2015
  • A sleep disorder is being recognized as one of the major health issues related to high levels of stress. At the same time, interests about quality of sleep are rapidly increasing. However, diagnosing sleep disorder is not a simple task because patients should undergo polysomnography test, which requires a long time and high cost. To solve this problem, an accelerometer embedded wrist-worn device is being considered as a simple and low cost solution. However, conventional methods determine a state of user to "sleep" or "wake" according to whether values of individual section's accelerometer data exceed a certain threshold or not. As a result, a high miss-classification rate is observed due to user's intermittent movements while sleeping and tiny movements while awake. In this paper, we propose a novel method that resolves the above problems by employing a dynamic classifier which evaluates a similarity between the neighboring data scores obtained from SVM classifier. A performance of the proposed method is evaluated using 50 data sets and its superiority is verified by achieving 88.9% accuracy, 88.9% sensitivity, and 88.5% specificity.