• 제목/요약/키워드: 오분류 비용

검색결과 36건 처리시간 0.029초

대안적인 분류기준: 오분류율곱 (Alternative Optimal Threshold Criteria: MFR)

  • 홍종선;김효민;김동규
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.773-786
    • /
    • 2014
  • 본 연구는 ROC 곡선에서 형성되는 면적 형태로 나타나는 분류정확도기준인 오분류율곱(multiplication of false rates; MFR)를 제안한다. MFR 기준과 다른 기준로부터 구한 최적분류점의 분류성과에 대하여 비교 분석한다. 다양한 분포함수에 대하여 최적분류점을 구하고 이에 대응하는 FNR과 FPR을 비교하면서 MFR의 특징과 장점을 유도한다. 일반적인 비용함수를 바탕으로 분류점에 대한 비용비율을 다양한 분류기준을 이용하여 구한다. 비용곡선에 대한 비용비율의 관계를 정리하여 MFR 기준의 장점을 탐색한다. MFR 기준의 정의를 다차원 ROC 분석으로 확장하고 다차원의 다른 분류기준과의 관계를 설명하면서 토론한다.

신용카드 사기 검출을 위한 비용 기반 학습에 관한 연구 (Cost-sensitive Learning for Credit Card Fraud Detection)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.545-551
    • /
    • 2005
  • 사기 검출의 주목적은 사기 거래로 인해 발생하는 손실을 최소화하는 것이다. 하지만, 사기 검출 문제의 특이한 속성, 즉 불균형하고 중첩이 심한 클래스 분포와 비균일한 오분류 비용으로 인해, 실제로 희망하는 거절율 동작 영역에서의 분류비용 측면의 최적 분류기를 생성하는 것이 용이하지 않다. 본 논문에서는, 특정 동작 영역에서의 분류기의 분류 비용을 정의하고, 진화 탐색을 이용하여 이를 직접적으로 최적화함으로써, 실제 신용카드 사기 검출에 적합한 분류기를 학습할 수 있는 비용 기반 학습 방법을 제시한다. 신용카드 거래 데이터를 사용한 실험을 통해, 제시한 방법이 타 학습 방법에 비해 비용에 민감한 분류기를 학습할 수 있는 효과적인 방법임을 보인다.

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

프랙탈 분석을 통한 비용효과적인 기준자료추출 알고리즘에 관한 연구 (A Cost Effective Reference Data Sampling Algorithm Using Fractal Analysis)

  • 김창재;이병길;김용일
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2000년도 춘계 학술대회 논문집 통권 3호 Proceedings of the 2000 KSRS Spring Meeting
    • /
    • pp.149-154
    • /
    • 2000
  • 분류기법을 통해 얻어진 원격탐사 자료는 사용되기 이전에 그 정확성에 관한 신뢰도 검증을 해야 한다. 분류 정확도를 평가하기 위해서는 오분류행렬(confusion matrix)을 사용하여 정확도 평가를 하게 되는데, 이때 오분류행렬을 구성하기 위해서는 기준자료(reference data)에 대한 표본추출이 이루어져야 한다. 기준자료의 표본을 추출하는 기법간의 비교 및 표본 크기를 줄이고자 하는 연구는 많이 이루어져 왔으난, 추출된 표본들간의 거리를 줄임으로써 정확도 평가 비용을 감소시키고자 하는 연구는 미미한 실정이다. 따라서, 본 연구에서는 프랙탈 분석을 통하여 기준자료의 표본을 추출하였으며, 이를 바탕으로 기존의 표본추출 기법과 정확도 차이 및 비용효과 측면을 비교 분석하였다. 연구 결과, 프랙탈 분석을 통하여 표본을 추출하는 기법은 그 정확도 추정에 있어 기존적 표본 추출 기법과 큰 차이가 보이지 않았으며, 추출된 화소들이 가까운 거리에 군집해 있어 비용효과측면에서 보다 유리함을 확인하였다.

  • PDF

불균형 자료의 분류분석을 위한 가중 L1-norm SVM (Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.9-21
    • /
    • 2015
  • SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.

다수의 분류 기법의 예측 결과를 결합하기 위한 혼합 정수 계획법의 사용 (Aggregating Prediction Outputs of Multiple Classification Techniques Using Mixed Integer Programming)

  • Jo, Hongkyu;Han, Ingoo
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.71-89
    • /
    • 2003
  • 경영 분류 문제에 대한 많은 연구들은 여러가지 기법들간의 성과 비교에 대한 것이었지만, 각각의 연구들마다 가장 좋은 기법이 어떤 것인가에 대해서는 상이한 결론을 내고 있다. 다수의 분류 기법 중에서 가장 좋은 것을 사용하는 방법에 대한 대안으로,분류 기법을 통합하여 성과를 향상시키는 방법이 있다. 본 연구에서는 개별 분류 기법의 결과를 선형 결합하여 예측력을 높이는 방법을 제시하였다. 최 적 선형 결합 가중치를 계산하기 위해 혼합 정수 계 획 법을 사용하였다. 목적 함수로 사용한 오분류 비용의 최소화에서 오분류 비용은 부도 기업을 모형에서 정상으로 예측한 오류와 정상기업을 모형에서 부도 기업으로 예측한 오류의 합으로 정의하였다. 문제 풀이 과정을 단순화하기 위하여 본 논문에서는 절사점 (cutoff value)을 고정하였고, 경계 함수 (threshold function)를 배제하였다. 정수계획법의 계산을 위해 branch 8, bound 방법을 사용하였다. 선형 결합에 의한 모형의 예측력이 개별 기법에 의해 구축된 모형의 예측력을 상회하였고, 그 차이가 통계적으로도 유의하였다.

  • PDF

반응 모델링을 위한 이상탐지 기법 (Novelty Detection Methods for Response Modeling)

  • 이형주;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.1825-1831
    • /
    • 2006
  • 본 논문에서는 반응 모델링에서의 집단 불균형을 해소하기 위한 이상탐지 기법의 활용을 제안한다. DMEF4 데이터셋의 카탈로그 발송 작업에 대하여 두 가지의 이상탐지 기법, one-class support vector machine (1-SVM)과 learning vector quantization for novelty detection (LVQ-ND)을 적용하여 이진분류기법들과 비교한다. 반응률이 낮은 경우에는 이상 탐지 기법들이 더 높은 정확도를 보인 반면, 반응률이 상대적으로 높은 경우에는 오분류 비용을 조정한 SVM 기법이 가장 좋은 성능을 보였다. 또한, 이상탐지 기법들은 발송비용이 낮은 경우에 높은 이익을 달성하였고, 발송비용이 높은 경우에는 SVM 모델이 가장 높은 이익을 달성하였다.

  • PDF

프랙탈 분석을 통한 비용효과적인 기준 자료추출알고리즘에 관한 연구 (A Cost Effective Reference Data Sampling Algorithm Using Fractal Analysis)

  • 김창재
    • Spatial Information Research
    • /
    • 제8권1호
    • /
    • pp.171-182
    • /
    • 2000
  • 분류기법에 의해 원격탐사 영상으로부터 취득된 면속성 수치 지도는 GIS 의사결정자료로 사용되기 이전에 그 정확성에 관한 신뢰도 검증과정을 거쳐야 한다. 분류 정확도를 평가하기 위해서는 오분류행렬(confusion matrix)을 사용하여 전체 정확도, 사용자 정확도, 제작자 정확도 등을 얻게 되는데, 이때 오분류행렬을 구성하기 위해서는 기준자료(reference data)에 대한 표본추출이 이루어져야한다. 기준자료의 표본을 추출하는 기법간의 비교 및 표본 크기를 줄이고자 하는 연구는 많이 이루어져 왔으나, 추출된 표본들간의 거리를 줄임으로서 정확도 평가 비용을 감소시키고자 하는 연구는 미비한 실정이다. 따라서 본 연구에서는 프랙탈 분석을 통하여 기준자료의 표본을 추출하였으며, 이를 바탕으로 기존의 표본추출의 기법과 정확도 차이 및 비용효과 측면을 비교 분석하였다. 연구 결과 , 프랙탈 분석을 통하여 표본을 추출하는 기법은 그 정확도 추정에 있어 기존의 표본추출 기법과 큰 차이를 보이지 않았으며, 추출된 화소들이 가까운 저리에 군집에 있어 비용효과측면에서 유리함을 확인하였다.

  • PDF

통합 수리계획법을 이용한 개인신용평가모형 (Consumer Credit Scoring Model with Two-Stage Mathematical Programming)

  • 이성욱;노태협
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제16권1호
    • /
    • pp.1-21
    • /
    • 2007
  • 신용평점을 위한 부도예측의 분류 문제를 다루는데 있어서 통계적 판별분석 및 인공신경망 및 유전자알고리즘 등을 이용한 데이터 마이닝의 방법들이 일반적으로 고려되어왔다. 이 연구에서는 수리계획법을 응용하여 classification gap을 고려한 이단계 수리계획 접근방법을 신용평가에 적용하는 방법론을 제안하여 수리계획법을 통한 신용평가모형 구축의 가능성을 제시한다. 1단계에서는 선형계획법을 이용해서 대출 신청자에게 대출을 허가할 것 인지의 여부를 결정하게 되는 대출 심사 filtering으로의 적용단계이고, 2단계에서는 정수계획법을 이용하여 오분류 비용이 최소가 되도록 하는 판별점수를 찾는 과정으로 모형을 구성한다. 개인 대출 신청자의 데이터(German Credit Data)에 대하여 피셔의 선형 판별함수, 로지스틱 회귀모형 및 기존의 수리계획 기법들과의 비교를 통해서 제안된 모델의 성능을 평가한다. 이단계 수리계획 접근법의 평가 결과를 통하여 신용평가모형에의 적용가능성을 기존 통계적인 접근방법 및 수리계획 접근법과 비교하여 제시하고 있다.

  • PDF