• 제목/요약/키워드: 과대표본추출

검색결과 8건 처리시간 0.02초

목표 범주가 희귀한 자료의 과대표본추출에 대한 연구 (A Study on the Adjustment of Posterior Probability for Oversampling when the Target is Rare)

  • 김은나;이성건;최종후
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.477-484
    • /
    • 2011
  • 반응/미반응 목표변수를 갖는 모집단에서 관심 목표범주의 빈도가 극히 작을 경우, 즉 희귀할(rare) 경우, 모형 구축을 위한 데이터마트를 형성할 때 반응/미반응 범주 구성비는 구축된 모형의 성능에 영향을 준다. 본 연구는 이러한 점에 착안하여 반응/미반응 범주 구성비와 모형성능의 관련성을 모형평가 통계량에 기반하여 판단한다. 이로써 데이터마트 형성에 이상적인 반응/미반응 범주 구성비를 탐지하려는데 본 연구의 목적을 두고 있다. 또한 일반적으로 목표범주의 빈도가 희귀할 경우, 분할 표본추출에 의하여 희귀사건(rare event)을 과대표본추출(oversampling)하는 것이 일반적이며, 이로부터 기인하는 사후확률에 대한 편향을 조정하게 된다. 본 연구에서는 사후확률 조정방법으로 오프셋(offset) 방법과 가중치 방법(sampling weights)을 적용하고 이를 비교하였다.

잠재적 위험요인의 탐색에 관한 단일표본분석과 복합표본분석의 비교 (Comparative Analysis of Unweighted Sample Design and Complex Sample Design Related to the Exploration of Potential Risk Factors of Dysphonia)

  • 변해원
    • 한국산학기술학회논문지
    • /
    • 제13권5호
    • /
    • pp.2251-2258
    • /
    • 2012
  • 본 연구는 잠재적 위험요인을 탐색하는 방법으로 단순임의추출분석(unweighted sample design), 빈도 가중치를 적용한 단일표본분석(frequency weighted sample design), 가중치를 층화하여 적용한 복합표본분석(complex sample design)을 비교하고, 도출된 결과에 통계적인 차이가 있는지를 파악하고자 수행되었다. 자료원은 2009 국민건강영양조사의 이비인후과 검진 자료를 이용하였다. 분석 방법은 피어슨의 교차검정(Pearson chi-square test)과 라오-스콧교차검정(Rao-scott chi-square test)을 이용하였다. 분석 결과, 빈도 가중치만을 적용한 단일표본분석의 경우에는 모든 변수가 유의한 위험요인으로 과대 예측 되었고, 가중치를 적용하지 않은 단순임의추출 분석과 복합표본분석은 유의수준 및 결과에 차이가 있었다. 국가통계자료를 이용할 때, 연구의 결과가 전체 인구집단을 대표할 수 있도록 의미를 부여하기 위해서는 층화변수와 집락변수를 사용하여 가중치를 적용하는 복합표본분석이 필요하다. 나아가, 빈도 가중치만을 적용하는 경우에는 연구 결과에 대한 과잉해석의 가능성이 높기 때문에 각별한 주의가 요구된다.

활엽수림(闊葉樹林)에 대(對)한 자원조사법(資源調査法)의 연구(硏究) (On the Study of Forest Sampling Methods in Natural Deciduous Forest)

  • 김갑덕
    • 한국산림과학회지
    • /
    • 제17권1호
    • /
    • pp.35-42
    • /
    • 1973
  • 천연활엽수림(天然闊葉樹林)은 수형(樹型)이 불규칙(不規則)하며 이용가치(利用價値)도 떨어진다. 우리나라에서의 활엽수림(闊葉樹林)은 대체(大體)로 오지(奧地)에 위치(位置)하고 있으며 개발(開發)에 문제점(問題點)이 허다(許多)하겠으나 총축적량(總蓄積量)이 부족(不足)한 현금(現今) 이의 개발이용(開發利用)의 필요성(必要性)이 대두(擡頭)되고 있다. 이러한 시점(時點)에서 본(本) 연구(硏究)는 천연활엽수(天然闊葉樹) 조사(調査)에 알맞은 추출법(抽出法)을 구명(究明)하므로서 조사사업(調査事業)에 이바지할 수 있다고 하겠다. 본(本) 조사(調査)는 1. 10ha되게 3개소(個所)를 선정(選定)하고 이를 대상(對象)으로 4가지 추출법(抽出法)을 적용(適用)하여 0.1ha($20m{\times}50m$) 구형표본점(矩形標本點) 6개(個) 즉(卽) 6%의 추출율(抽出率)로 표본(標本)을 추출(抽出) 조사(調査)하였는데 조사결과(調査結果)는 표(表) 1과 같으며 적용(適用)된 추출법(抽出法)은 (1) 격자법(格子法)에 의(依)한 임의추출법(任意抽出法) (2) 좌표법(座標法)에 의(依)한 임의추출법(任意抽出法) (3) 선표본점법(線標本點法) (4) 부차추출법(副次抽出法)이다. 2. 1:15, 000 항공사진(航空寫眞)을 이용(利用)하여 위 지역(地域)을 포함(包含)하는 지역(地域)에서 150ha 되게 구획(區劃)한 후(後) Mirror Stereoscope로 임상(林相)을 구분(區分)하였다. 경급(經級)과 소밀도(疎密度)를 기준(基準)으로 구분(區分)하였더니 3계급(階級)으로 나눠졌는데 150ha에서 계통적(系統的)으로 7개(個)(추출율(抽出率) 0.46%)의 표본점(標本點)을 배치(配置)하고 현지(現地)에서 0.1ha 원형표본점(圓形標本點)을 조사(調査)하였는데 그 결과(結果)는 표(表) 4와 같다. 3. 추출법(抽出法)에 따른 값과 매목조사결과(每木調査結果)(모평균(母平均))와를 비교(比較)하였더니 유의차(有意差)가 없었다(표(表3)). 4. 이상(以上)의 결과(結果)로 다음과 같은 결론(結論)을 얻었다. 1) 격자법(格子法)과 선표본점법(線標本點法)에 의(依)한 조사(調査)가 타추출법(他抽出法)에 비(比)하여 양호(良好)하다. 2) 원형표본점(圓形標本點)을 사용(使用)했을때는 구형표본점(矩形標本點)을 사용(使用)했을때 보다 과대치(過大値)를 가져온다. 3) 천연활엽수림(天然闊葉樹林)은 임목(林木)이 고르게 서있지 않으므로 표본점(標本點)의 수(數)를 적게 취(取)하면 오차가 커질 위험(危險)이 있다.

  • PDF

자가 응답식 자료에 근거한 유병률 및 건강기대수명 연구의 신뢰도 분석: 건강보험 표본코호트 DB와의 비교 (Reliability of self-reported data for prevalence and health life expectancy studies: comparison with sample cohort DB of National Health Insurance Services)

  • 권태연;박유성
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1329-1346
    • /
    • 2016
  • 한국 의료패널 데이터와 국민건강 영양조사는 추출된 표본의 자가 진단에 따른 건강상태(self-assessed health)와 그들의 의료기관 이용에 대한 자가응답식 자료(self-reported data)이다. 이러한 자료에 근거한 유병률 연구 및 그에 따른 건강기대수명 연구에 관하여 유병률의 신뢰도에 대한 검증이 선행되어야 한다는 주장은 이미 여러 연구에서 제기되었다. 반면 최근 공개된 건강보험공단의 표본코호트 DB는 전 국민을 대상으로 의료기관 이용에 관련된 모든 자료가 저장된 자료인 국민건강정보 DB로부터 추출된 객관적인 자료이다. 또한 추정된 질병별 유병률에 대하여 그 대표성 및 신뢰도가 확보되어 있음이 검증된 자료이다. 이에 본 논문에서는 우리나라 국민의 유병률에 대한 대표성 및 신뢰도가 확보되어 있는 표본코호트 DB와의 비교를 통하여 이들 응답식 데이터에서 도출된 유병률의 신뢰도에 대하여 논의하였다. 자가응답식 자료를 통한 유병률은 표본코호트 DB를 통한 유병률에 비교하여 보았을 때 과소추정되어 있고 이러한 과소추정은 건강기대수명의 과대추정 문제로 이어지고 있음을 확인할 수 있었다. 또한 표본코호트 DB를 제외한 우리나라 건강자료의 안정적이지 못한 표본의 문제는 추정된 건강기대수명의 트렌드를 왜곡하는 문제가 추가적으로 발생할 수 있음을 확인하였다.

유한모집단에서 가중평균에 포함된 가중치의 효과 (Weighting Effect on the Weighted Mean in Finite Population)

  • 김규성
    • 한국조사연구학회지:조사연구
    • /
    • 제7권2호
    • /
    • pp.53-69
    • /
    • 2006
  • 표본조사에서 가중치는 설계 단계와 분석 단계에서 만들어지고 부여될 수 있다. 설계 단계의 가중치는 추출확률이나 응답률 등과 같은 표본 데이터 획득 지표에 관련되어 있고 분석 단계의 가중치는 모집단 수치나 다른 보조 변수정보 등과 같은 외적인 정보와 관련되어 있다. 그리고 최종가중치는 설계 단계의 가중치와 분석 단계의 가중치의 곱으로 만들어진다. 이 논문에서는 분석 단계에서 부여되는 가중치에 초점을 맞추어 가중평균으로 모평균을 추정할 때 가중평균에 포함된 가중치가 모평균 추론에 미치는 영향을 고찰하였다. 유한모집단에서 각 조사단위에 조사변수와 가중치가 쌍으로 있고 표본추출확률이 균등한 경우를 가정하였다. 이러한 조건에서 가중평균의 편향과 평균제곱오차를 구하여 가중평균은 모평균의 편향 추정량임을 보였고, 편향의 방향과 크기는 조사변수와 가중치의 상관관계로 설명할 수 있음을 보였다. 즉, 만일 가중치와 조사변수가 양의 상관관계가 있으면 가중평균은 모평균을 과대 추정하게 되고, 만일 음의 상관관계가 있으면 모평균을 과소 추정하게 된다. 그리고 두 변수의 상관계수가 크면 편향은 증가한다. 가중평균에 대한 이론적인 수식 유도와 함께 편향의 크기와 평균제곱오차의 크기를 수치적으로 검토하기 위하여 모의실험을 실시하였다. 모의실험에서는 상관계수가 -0.2과 0.6사이에 있는 9개의 가중치를 생성하였고, 표본수는 100부터 400까지 고려하여 편향의 크기와 평균제곱오차의 크기를 수치적으로 구하였다. 하나의 결과로써 상관계수가 0.55이고 표본수가 400인 경우에 가중평균의 편향의 제곱이 평균제곱오차에서 차지하는 비율은 무려 82%에 이르는 것으로 나타났는데, 이는 가중평균의 편향이 어떤 경우에는 매우 심각할 수도 있음을 보여주는 것이다.

  • PDF

출구조사의 체계적인 예측 편향에 대한 분석: 2010년 지방선거 출구조사를 중심으로 (Systematic Forecasting Bias of Exit Poll: Analysis of Exit Poll for 2010 Local Elections)

  • 김영원;최윤정
    • 한국조사연구학회지:조사연구
    • /
    • 제12권3호
    • /
    • pp.25-48
    • /
    • 2011
  • 본 연구에서는 선거 출구조사에서 발생하는 편향을 분석하기 위해, 먼저 2010년 전국동시지방선거 출구조사의 표본설계와 표본추출오차, 그리고 무응답 현황 및 예측오차 등을 살펴보고, 이를 토대로 출구조사에서 체계적으로 발생하는 지역별 편향 문제를 다루었다. 출구조사에서 발생하는 편향을 통계적으로 검증하기 위해 Martin et al.(2005)이 제안한 예측 정확성 척도인 통계량 A를 사용하였다. 2010년 지방선거를 포함해 2006년 지방선거와 2007년 대통령 선거 방송사 출구조사 자료를 토대로 시 도 단위에서 지역별 편향을 분석해 본 결과, 여당 성향이 강한 지역에서는 여당 후보를 과대 추정하는 편향이 체계적으로 발생하고 있으며, 여당 성향이 강해질수록 이런 편향이 더 강해진다는 것을 확인할 수 있었다. 이런 연구결과는 향후 출구조사의 정확성 제고를 위한 방안을 모색하는 데 크게 기여할 수 있을 것으로 기대된다.

  • PDF

자원봉사활동의 지속성에 관한 연구 (A Study on the Duration of Volunteering)

  • 송기영;김욱진
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.444-460
    • /
    • 2017
  • 자원봉사활동의 지속성은 헌신도와 부착성의 측면으로 나누어 살필 수 있다. 선행연구들은 대부분 헌신도의 측면에서 자원봉사활동의 지속성을 조사하였다. 본 논문은 선행연구들이 간과한 부착성 개념에 초점을 맞추어, 비록 약한 강도에 비정기적이라 할지라도 평생 혹은 그에 버금가는 긴 시간 동안 봉사를 일종의 '업'으로 삼아 꾸준히 활동을 수행해 나가는 일부 지속적 자원봉사자들의 특징을 밝히고, 이를 토대로 부착성의 관련요인들을 알아내는 것을 연구의 주된 목적으로 삼았다. 분석자료는 한국복지패널 1차년도부터 10차년도까지 10년 간 실시된 설문조사에 모두 참여한 8,415명의 20세 이상 성인응답자 표본에서 추출하였다. 주된 분석방법으로는 영과잉 음이항 회귀모형을 활용하였다. 연구결과, 산발적이고 비정기적일지라도 자원봉사로서의 사회적 역할에 단단히 부착되어 봉사현장에 꾸준히 나타나는 소수의 지속적 자원봉사자들은 종교가 있고 상호호혜의식이 강한 저학력자들인 것으로 조사되었다. 연구결과를 바탕으로 자원봉사 관리조직의 운영체계 효율화 방안을 제시하였다.

LDL-콜레스테롤의 Friedewald 계산값과 실측값 비교: 국민건강영양조사 2009-2010 (Friedewald-Estimated Versus Directly Measured LDL-Cholesterol: KNHANES 2009-2010)

  • 장성옥;이종석
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5492-5500
    • /
    • 2015
  • LDL-콜레스테롤(LDL-C)은 심뇌혈관질환의 주된 교정 가능한 위험인자로서, 정확한 측정값을 임상에 적용하는 것이 중요하다. 하지만 LDL-C의 측정은 실제 측정이 아닌 Friedewald 공식에 의한 계산방법이 널리 이용되고 있다. 본 연구의 목적은 LDL-C의 Friedewald-추정값과 실측값을 비교하고, 두 방법의 LDL-C 위험수준 분류 일치도를 평가하는 것이다. 표본은 국민건강영양조사 2개년(2009년과 2010년)의 공개된 자료에서 추출되었고, 혈액 검사에서 총 콜레스테롤, HDL-콜레스테롤, 직접 측정한 LDL-C, 그리고 중성지방 중 어느 한 결측치도 없는 4,319명을 연구대상으로 하였다. 중성지방 400 mg/dL 미만일 때, Friedewald-추정값과 실측값은 높은 상관관계를 보였고 (r = 0.958, p < 0.001), 위험수준 분류 일치 백분율은 82.7%이었다. 중성지방 수준이 높을수록, 일치 백분율은 낮았다. 중성지방 수준 150 mg/dL 미만, 150-200 mg/dL, 그리고 200-399 mg/dL일 때, 일치 백분율은 각각 85.4%, 78.2%, 그리고 71.4%이었다. Friedewald 공식은 중성지방 농도 150 mg/dL 미만에서는 LDL-C를 과대평가하는 반면, 중성지방 농도 150 mg/dL 이상에서는 과소평가하는 경향이 있었다. 이에 따라 LDL-C 위험수준 분류에 있어 그 범주가 과대평가된 사람은 382명 (9.1%)인 반면, 과소평가된 사람은 348명 (8.3%)이었다. 이러한 결과는 Friedewald-추정값의 LDL-C 과소평가뿐만 아니라, 과대평가도 심각한 문제일 수 있음을 제시한다.