• 제목/요약/키워드: Skewed class distribution

검색결과 8건 처리시간 0.018초

Bayesian Hierarchical Model with Skewed Elliptical Distribution

  • 정윤식
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2000년도 추계학술발표회 논문집
    • /
    • pp.5-12
    • /
    • 2000
  • Meta-analysis refers to quantitative methods for combining results from independent studies in order to draw overall conclusions. We consider hierarchical models including selection models under a skewed heavy tailed error distribution and it is shown to be useful in such Bayesian meta-analysis. A general class of skewed elliptical distribution is reviewed and developed. These rich class of models combine the information of independent studies, allowing investigation of variability both between and within studies, and weight function. Here we investigate sensitivity of results to unobserved studies by considering a hierarchical selection model and use Markov chain Monte Carlo methods to develop inference for the parameters of interest.

  • PDF

애착 Q-set의 국내 준거 개발 연구 (A Study on the development of Criterion Scores for the Attachment Q-set in Korea)

  • 이영;박경자;나유미
    • 아동학회지
    • /
    • 제18권2호
    • /
    • pp.131-148
    • /
    • 1997
  • The purpose of this study was to develop criterion scores for the Korean version of the Attachment Q-set. It further examined distribution of security of attachment scores of Korean infants and differences in attachment scores by the cultural background. The criterion scores of attachment security were developed by 8 judges who are knowledgable in attachment theory and research. They used the Q-set to describe behavior characteristics of ideally secure infants of 12 and 36 months of age. Distribution of the attachment scores was analyzed with 191 infants, compiled from 4 studies including infants selected for this study. The attachment security criterion scores developed for Korean infants correlated highly with the Waters' criterion scores (1987) for American infants, .90 for 12 months and .88 for 36 months of age. Correlations between attachment scores developed for 12-and 36-month-olds was .89. The attachment security scores of the Korean version was a little higher and more negatively skewed than scores calculated using the American criterion. There were significant differences in the security of attachment scores by socioeconomic background of the infants, but not with employment status of the mothers. Infants of nonemployed middle class mothers had significantly higher security of attachment scores than infants of nonemployed lower class mothers. Infants from lower class families had higher "difficulty" scores, and "enjoying physical contact" scores were higher among infants from the middle class.

  • PDF

Topic Classification for Suicidology

  • Read, Jonathon;Velldal, Erik;Ovrelid, Lilja
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.143-150
    • /
    • 2012
  • Computational techniques for topic classification can support qualitative research by automatically applying labels in preparation for qualitative analyses. This paper presents an evaluation of supervised learning techniques applied to one such use case, namely, that of labeling emotions, instructions and information in suicide notes. We train a collection of one-versus-all binary support vector machine classifiers, using cost-sensitive learning to deal with class imbalance. The features investigated range from a simple bag-of-words and n-grams over stems, to information drawn from syntactic dependency analysis and WordNet synonym sets. The experimental results are complemented by an analysis of systematic errors in both the output of our system and the gold-standard annotations.

Optimization of Classifier Performance at Local Operating Range: A Case Study in Fraud Detection

  • Park Lae-Jeong;Moon Jung-Ho
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제5권3호
    • /
    • pp.263-267
    • /
    • 2005
  • Building classifiers for financial real-world classification problems is often plagued by severely overlapping and highly skewed class distribution. New performance measures such as receiver operating characteristic (ROC) curve and area under ROC curve (AUC) have been recently introduced in evaluating and building classifiers for those kind of problems. They are, however, in-effective to evaluation of classifier's discrimination performance in a particular class of the classification problems that interests lie in only a local operating range of the classifier, In this paper, a new method is proposed that enables us to directly improve classifier's discrimination performance at a desired local operating range by defining and optimizing a partial area under ROC curve or domain-specific curve, which is difficult to achieve with conventional classification accuracy based learning methods. The effectiveness of the proposed approach is demonstrated in terms of fraud detection capability in a real-world fraud detection problem compared with the MSE-based approach.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

신용카드 사기 검출을 위한 비용 기반 학습에 관한 연구 (Cost-sensitive Learning for Credit Card Fraud Detection)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.545-551
    • /
    • 2005
  • 사기 검출의 주목적은 사기 거래로 인해 발생하는 손실을 최소화하는 것이다. 하지만, 사기 검출 문제의 특이한 속성, 즉 불균형하고 중첩이 심한 클래스 분포와 비균일한 오분류 비용으로 인해, 실제로 희망하는 거절율 동작 영역에서의 분류비용 측면의 최적 분류기를 생성하는 것이 용이하지 않다. 본 논문에서는, 특정 동작 영역에서의 분류기의 분류 비용을 정의하고, 진화 탐색을 이용하여 이를 직접적으로 최적화함으로써, 실제 신용카드 사기 검출에 적합한 분류기를 학습할 수 있는 비용 기반 학습 방법을 제시한다. 신용카드 거래 데이터를 사용한 실험을 통해, 제시한 방법이 타 학습 방법에 비해 비용에 민감한 분류기를 학습할 수 있는 효과적인 방법임을 보인다.

장기산림경영계획의 목표수확량 산출을 위한 목표계획법의 적용 (Estimation of Optimal Harvest Volume for the Long-term Forest Management Planning using Goal Programming)

  • 원현규;김영환;권순덕
    • 한국산림과학회지
    • /
    • 제98권1호
    • /
    • pp.125-131
    • /
    • 2009
  • 산림청에서는 지속가능한 산림경영의 실현과 국내 목재수급 및 우량 목재자원 확보를 위해서 전국 450개 단지, 292만ha의 산림을 경제림육성단지로 지정하고, 경제림육성단지별 관리계획을 수립하도록 하였으며, 이를 통해 각 지자체에서 보다 체계적이고 집약적으로 산림사업을 관리할 수 있도록 유도하고 있다. 현재 우리나라 산림의 대부분은 III, IV영급에 집중되어 있기 때문에 지속가능한 산림경영을 위해서는 이러한 불균형한 영급구조를 개선하는 것이 무엇보다 시급한 과제이다. 본 연구에서는 충북 영동군의 경제림육성단지를 대상으로 이 지역의 산림을 지속가능한 영급구조로 유도할 수 있도록 경영목표를 설정하고, 이를 위해 필요한 벌채수확량을 산출하였다. 벌채수확량의 최적화를 위해서 목표계획법(Goal Programming)을 적용하였으며, 그 결과 연구대상지의 산림을 지속가능한 영급구조로 유도하기 위해서는 50년을 전체사업기간으로 하여 매 분기(10년)별로 약 124만$m^3$의 벌채수확이 필요한 것으로 나타났다. 본 연구결과는 앞으로 영급구조 개선을 위한 관련 정책 및 사업들을 수립하는데 활용될 것으로 기대된다.

균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발 (Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm)

  • 김승훈;이수일;김태호
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.241-250
    • /
    • 2022
  • COVID-19 여파로 인한 비대면 서비스와 가정 재정 불안정성의 증가로 이륜차 보험사기 발생이 예상되고 있다. 이와 함께 보험사기 수법도 갈수록 교묘해지고 있다. 하지만 비대면 배달 수요와 연관된 이륜차 교통사고와 보험사기 적발 모형 관련 연구는 매우 미흡한 실정이다. 이에 본 연구는 보험사기의 표본 편중문제를 해결하기 위해 균형 랜덤포레스트 알고리즘을 이용하고 보험사기 조사 전문가의 정성적인 판단 기준을 반영한 변수를 모델에 포함하여 적용성을 향상시키며 적발력 높은 이륜차 보험사기 모형을 개발하고자 한다. 보험사기 적발 모형 개발 결과, 기존의 비균형 랜덤 포레스트 모형에 비해 균형 랜덤 포레스트가 보험 사기혐의자를 분류하는 데 있어 통계적으로 우수한 점을 확인할 수 있었다. 특히, 총 26개의 변수를 토대로 탐색적 변수 조합을 적용한 모형의 예측 성능이 가장 높았지만 일부 변수만을 사용한 확인적 모형의 예측 성능도 크게 떨어지지 않은 와중에, 정성적인 보험사기 전문가가 선정한 변수만을 사용한 확인적 모형은 예측력이 떨어지는 것을 확인하였다. 또한, 총 26개의 변수 중 운전자 성별, 연령, 운전자 피보험자 일치 여부, 미수선 청구금액, 대인보험금 등이 중요한 변수로 확인되어 이를 활용해 이륜차 보험사기 혐의자 선별을 위한 적극적인 대처가 필요해 보인다.