• 제목/요약/키워드: Random Over Sampling Examples

검색결과 2건 처리시간 0.016초

효과적인 기업부도 예측모형을 위한 ROSE 표본추출기법의 적용 (Application of Random Over Sampling Examples(ROSE) for an Effective Bankruptcy Prediction Model)

  • 안철휘;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.525-535
    • /
    • 2018
  • 분류 문제에서 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 경우, 왜곡된 기계 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 기업부도 예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 이러한 데이터 불균형 문제를 해결하기 위해서는 적절한 표본추출 기법이 적용될 필요가 있으며, 지금껏 소수 범주 데이터를 복원 추출함으로써 다수 범주 데이터와 비율을 맞추어 데이터 불균형을 해결하는 오버 샘플링(oversampling) 기법이 주로 활용되어 왔다. 그러나 전통적인 오버 샘플링은 과적합화(overfitting)가 발생할 위험이 높아질 수 있는 단점이 있다. 이러한 배경에서 본 연구는 효과적인 기업부도 예측 모형 학습을 위한 표본추출 기법으로 2014년에 Menardi와 Torelli가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 학습에 사용될 사례를 반복적으로 새롭게 합성하여 생성(synthetic generation)하는 기법으로, 과적합화 문제를 회피하면서도 분류 예측 정확도 개선에 도움을 줄 수 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 이분류기로 알려진 SVM(support vector machine)과 결합하여 국내 한 대형 은행의 기업부도 예측에 적용해 보고, 다른 표본추출 기법들과의 비교연구를 수행하였다. 실험 결과, ROSE 기법이 다른 기법에 비해 통계적으로 유의한 수준으로 SVM의 예측정확도 개선에 기여할 수 있음을 확인하였다. 이러한 본 연구의 결과는 부도예측 외에 다른 사회과학 분야 예측문제의 데이터 불균형 문제 해결에도 ROSE가 우수한 대안이 될 수 있다는 사실을 시사한다.

사회안전망과 지역사회주민의 안전생활만족의 관계: 사회안전망 척도개발과 적용 (The Relationship Between Social Security Network and Security Life Satisfaction in Community Residents: Scale Development and Application of Social Security Network)

  • 김찬선
    • 한국콘텐츠학회논문지
    • /
    • 제14권6호
    • /
    • pp.108-118
    • /
    • 2014
  • 본 연구의 목적은 사회안전망 측정도구를 개발하여 타당도와 신뢰도를 검증하고 이를 적용 하여 지역사회주민의 안전생활만족과의 관계를 규명하는데 있다. 이 연구는 2013년 서울시 시민들을 모집단으로 설정하여 집락무선표집법을 이용해 최종분석에 사용한 자료는 203명이다. 사회안전망 측정도구는 문헌고찰, 개념적 정의 및 설문지 초안 작성, 전문가 회의, 예비검사 및 본 조사, 설문지의 타당도 및 신뢰도 검증 등의 과정을 통하여 개발되었다. 이 연구에서는 설문지의 타당도를 검증하기 위해 전문가 회의를 하였으며, 탐색적 요인분석을 통해 범죄예방설계, 거리 CCTV시설, 지역자율방범활동, 지자체안전교육, 경찰치안서비스, 민간경비서비스 등의 6개 요인을 추출 하였다. 통계처리는 SPSSWIN 18.0 프로그램을 활용하여 빈도분석, 일원변량분석, 요인분석 및 신뢰도 분석, 상관분석, 다중회귀분석 등을 실시하였다. 결론은 다음과 같다. 첫째, 사회안전망 척도의 타당도는 매우 높다. 즉, 사회안전망 구성 요인은 범죄예방설계, 거리 CCTV시설, 지역자율방범활동, 지자체안전교육, 경찰치안서비스, 민간경비서비스 등으로 탐색되었으며, 범죄예방설계 요인의 설명력이 가장 높다. 둘째, 사회안전망 척도의 신뢰도는 매우 높다. 즉, 사회안전망은 문항과 영역간, 문항과 전반적 사회안전망간의 상관정도가 매우 높으며, 내적일관성 신뢰도 Cronbach's ${\alpha}$값이 .865 이상이다. 셋째, 사회안전망은 지역사회주민의 안전생활만족에 영향을 미친다. 즉, 범죄예방설계, 경찰치안서비스가 체계적으로 구축 된다면 시민들의 사회불안감은 감소한다.