• 제목/요약/키워드: 이항자료

검색결과 241건 처리시간 0.022초

이항자료에 대한 예측구간 (On prediction intervals for binomial data)

  • 류제복
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.579-588
    • /
    • 2021
  • 신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.

포아송으로부터 부의 이항분포로의 이탈에 대한 검정통계량의 확장 (On the Extension of Test Statistics for Detecting Negative Binomial Departures from the Poisson Assumption)

  • 이선호
    • Journal of the Korean Statistical Society
    • /
    • 제22권2호
    • /
    • pp.171-190
    • /
    • 1993
  • 포아송분포로부터 부의 이항분포로의 이탈을 검색하는 통계량들이 자료의 형태에 따라 여러가지 제시되었다. 그런데 대립가설인 부의 이항분포의 모수화 방법에 따라 분산과 평균의 구조가 변하고 국소 최적 검정 통계량도 달라진다는 것이 알려졌다. 본 논문에서는 대립가설을 일반적인 포아송 혼합분포로까지 확장시키고, 일반적인 형태의 분산과 평균의 구조에도 검정 가능한 새로운 통계량 L을 소개하고 있다. 또한 L 통계량은 포아송 분포로부터 부의 이항분포로의 이탈을 다루는 기존의 여러 통계량들의 일반화된 형태임을 보였다. 점근적 상대효율과 모의 실험을 통하여 L 통계량과 기존의 통계량들을 비교한 결과 분산과 평균사이의 구조에 상관없이 L 통계량이 우수한 것임을 입증하였다.

  • PDF

베이지안 음이항 분기과정을 이용한 한국 메르스 발생 연구 (A study on MERS-CoV outbreak in Korea using Bayesian negative binomial branching processes)

  • 박유하;최일수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.153-161
    • /
    • 2017
  • 전염병 확산에 대한 확률과정모형으로 활용되는 분기과정은 실제 데이터를 통해 모수를 추정할 수 있다는 장점이 있다. 음이항 분포를 분기과정의 생산 분포 모형으로 적용할 수 있는데 음이항 분포를 적용하기 위해서는 평균과 산포 모수를 추정하여야한다. 기존의 생물학 연구와 역학 연구 분야에서는 이를 최대우도법을 이용하여 추정하고 있다. 그러나 대부분의 역학 자료의 특성상 분기과정에서 이용되는 음이항 분포는 소표본이어서 최대우도 추정량의 정도를 충족시킬 수 없다. 본 논문에서는 소표본 자료에서 좋은 통계량의 성질을 만족한다고 알려져 있는 베이지안을 이용하여 모수를 추정하는 방법을 제안한다. 2015년 국내 메르스 사례에 베이지안 방법을 적용하여 모수를 추정하고 사후 분포를 적합하였다. 그 결과 어떠한 사전 분포를 가정하더라도 안정적으로 모수를 추정하는 것을 알 수 있었다. 추정된 산포 모수를 이용하여 분기과정에서의 전염병 소멸 확률을 유도하였다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

자연휴양지 방문편익 추정모형의 비교 연구 - 영산강 하구를 대상으로 (A Comparative Study on Estimation Models for the Value of Access to a Natural Recreation Site: Focusing on the Estuary Area of Yeongsan River)

  • 신영철
    • 자원ㆍ환경경제연구
    • /
    • 제21권4호
    • /
    • pp.981-998
    • /
    • 2012
  • 이 논문에서는 영산강 하구 방문객을 대상으로 하여 자연휴양지의 수요함수를 추정하여 방문 편익을 도출하기 위해 카운트 자료 모형(count data model)을 적용하였다. 여행지 방문객 자료의 속성을 고려할 때, 포와송 모형의 경우 평균과 분산이 동일하다는 제약적 가정에 의한 과도분산(overdispersion) 속성의 왜곡과 더불어 자료의 1에서 절단 속성을 고려하지 않는 경우의 왜곡이 문제가 된다. 실증 분석 결과에 따르면 방문객 자료의 속성은 반영하는 절단 음이항(truncated negative binomial) 모형이 고려한 모형 중에서 최적이고, 그 모형에 의해 도출된 영산강 하구 1회 방문 편익(즉, 소비자 잉여)는 전라권 거주자들의 경우 89,350원이며, 비전라권 거주자의 경우는 432,526원으로 전라권 거주자의 4.8배 수준이었다. 또한 과도분산의 속성을 반영하지 못하는 포와송 모형으로부터 추정된 영산강 하구의 방문 편익(소비자 잉여)은 과소평가되며, 절단의 속성을 고려하지 못하는 경우의 모형으로부터 추정된 영산강 하구의 방문 편익은 과대평가되는 경향도 확인할 수 있었다. 그러므로 단일 휴양지 방문객에 대한 자료로부터 여행수요 함수 및 방문 편익을 추정하기 위해서는 절단 음이항 회귀모형이 적용되어야 한다.

  • PDF

목표변수의 형태에 따른 신용평점 모형 구축 (Building credit scoring models with various types of target variables)

  • 우현석;이석형;조형준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.85-94
    • /
    • 2013
  • 금융시장의 규모가 점점 더 커짐에 따라 고객정보 관리 미숙 또는 부실한 의사결정, 즉 신용 리스크 관리 실패로 인한 손실이 막대하게 증가하고 있다. 따라서 신용 리스크 관리가 점차 더 중요해지고, 이런 신용 리스크를 최소화하는 기본적인 도구인 신용 평점 모형이 절실히 요구된다. 신용평점 모형은 주로 이항형 목표변수만 이용하여 개발 연구되었다. 본 논문에서는 순서형 다항 자료 또는 경시적 이항 자료 같은 다른 형태의 목표 변수를 고려한 신용평점 모형구축 방법을 제시한다. 그 개발된 모형을 실제 자료와 랜덤화한 자료에 적용하여 Kolmogorov-Smirnov 통계량으로 비교 분석한다.

`카탈란수의 탐구`에 관련된 창의적 산출물 중심의 수학영재 교수-학습 자료의 개발 (Developing Teaching and Learning Materials for the Gifted Students Based upon a Creative Output Related to Catalan Number)

  • 이상근;정기영
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제21권1호
    • /
    • pp.65-79
    • /
    • 2007
  • 본 연구는 창의적 산출물을 지향하는 수학 영재교육을 위한 교수-학습 자료 개발 연구로, 카탈란수의 성질 및 다양한 표현방법을 탐구하여, 창의적인 산출물의 발명으로 이어질 수 있는 수학 영재를 위한 교수-학습 자료를 중학교 수준에서 개발하여 제시하였다.

  • PDF

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

붓스트랩 방법을 이용한 이항분포자료에 대한 요인수 결정에 관한 연구 (A bootstrap approach for factor numbers in binary data)

  • 김성호;정미숙
    • 응용통계연구
    • /
    • 제8권2호
    • /
    • pp.201-216
    • /
    • 1995
  • 본 연구에서는 관측변수들이 이항확률변수일 때, 요인의 갯수를 찾는 방법을 모색하였다. 이를 위해 붓스트랩 방법을 사용하여 요인수 결정 기준을 제시하였고, 모의실험을 통하여 이 제시된 기준의 유용성을 보였다.

  • PDF

사고유형에 따른 청주시 4지 신호교차로 교통사고모형 (Traffic Accident Models of Cheongju Four-Legged Signalized Intersections by Accident Type)

  • 박병호;한상욱;김태영;김원호
    • 대한교통학회지
    • /
    • 제26권5호
    • /
    • pp.153-162
    • /
    • 2008
  • 본 연구는 청주시 4지 신호교차로를 대상으로 한 교통사고를 다루고 있다. 연구의 목적은 143개 교차로 사고자료를 이용하여 사고유형별 특성을 비교분석하고 모형을 개발에 있다. 이를 위해 본 연구에서는 정면충돌, 후미추돌, 측면직각, 접촉, 차로변경접촉 등의 모형을 개발하는데 중점을 두고 있다. 분석된 주요결과를 요약하면 다음과 같다. 첫째 가산자료모형 설정을 위해 과산포 검정을 한 결과 음이항 회귀모형이 선정되었다. 둘째, 통계적으로 설명력이 높은 5개의 음이항 모형이 개발되었다. 셋째, 공통변수(ADT)와 특정변수를 활용하여 모형의 차이가 비교 분석되었다.