• 제목/요약/키워드: 다중 로지스틱 회귀분석

검색결과 264건 처리시간 0.03초

임상의를 위한 다변량 분석의 실제 (Multivariate Analysis for Clinicians)

  • 오주한;정석원
    • Clinics in Shoulder and Elbow
    • /
    • 제16권1호
    • /
    • pp.63-72
    • /
    • 2013
  • 임상 의학의 연구에 사용되는 대표적 다변량 분석 방법은 다중 회귀 분석 방법인데, 이는 인과 관계를 토대로 여러 개의 변수에 의한 한꺼번에의 영향력을 분석하기 위한 방법이다. 다중 회귀 분석은 기본적으로 회귀 분석의 기본 가정을 만족해야 함은 물론, 여러 개의 독립 변수들이 포함되기 때문에 변수들을 모형에 포함시키는 방법 및 다중 공선성 문제에 대한 고려가 필요하다. 다중 회귀 분석 모형의 설명력은 결정 계수 $R^2$으로 표현되어 1에 가까울수록 설명력이 크며, 각 독립 변수들의 결과에의 영향력은 회귀 계수인 ${\beta}$값으로 표현된다. 다중 회귀 분석은 종속 변수의 형태에 따라 다중 선형 회귀 분석, 다중 로지스틱 회귀 분석, 콕스 회귀 분석으로 나눌 수 있다. 종속 변수가 연속 변수인 경우 다중 선형 회귀 분석, 범주형 변수인 경우 다중 로지스틱 회귀 분석, 시간의 영향을 고려한 상태 변수인 경우는 콕스 회귀 분석을 시행해야 하며, 각각 결과에의 영향력은 회귀 계수 ${\beta}$, 교차비, 위험비로 평가한다. 이러한 다변량 분석에 대한 이해는 연구를 계획하고 결과를 분석하고자 하는 임상 의사에게 있어 보다 효율적인 연구를 위해 필수적인 소양이라고 할 수 있다.

로지스틱모형에서의 주성분회귀 (Principal Components Regression in Logistic Model)

  • 김부용;강명욱
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.571-580
    • /
    • 2008
  • 로지스틱회귀분석은 고객관계관리나 신용위험관리 등의 분야에서 많이 사용되는 기법인데, 이러한 분야에서의 로지스틱회귀모형에는 연관성이 높은 설명변수들이 다수 포함되어 다중공선성의 문제를 유발하는 경우가 있다. 다중공선성이 존재하는 상황에서 최우추정량은 심각한 결함을 갖는다는 사실은 잘 알려졌다. 이 문제를 해결하기 위하여 로지스틱주성분회귀를 연구하되, 분석상의 주요 과정인 주성분 선정을 위한 방법을 새롭게 제안하였다. 추정량의 분산을 최소가 되게 하는 상태지수 값을 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준을 결정하는 모형을 구축하였다. 제안된 방법은 다중공선성 문제를 적절히 해결하면서도 모형의 적합성을 향상시킨다는 사실이 모의실험을 통하여 확인되었다.

급경사지 붕괴 예측을 위한 모형 개발 (Development of model for prediction of land sliding at steep slopes)

  • 박기병;주용성;박덕근
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.691-699
    • /
    • 2011
  • 현재까지 우리나라뿐만 아니라 세계적으로 급경사지 붕괴는 대표적인 자연재해로 알려져 있다. 급경사지 붕괴 피해를 방지하기 위해 행해진 많은 선행 연구를 바탕으로 일부 국내기관에서는 급경사지 평가표를 만들어 붕괴 예측에 활용하고 있다. 하지만, 대부분의 기존 연구는 비통계전문가들에 의해 행해졌기 때문에 평가표 구성의 통계적 타당성을 제시하지 못했다. 본 연구는 전국 지역을 대상으로 급경사지 (암반사면, 토사사면) 붕괴에 영향을 미칠 것으로 예상되는 인자들의 자료를 수집하고 그 인자들의 가중치를 판정하기 위하여 로지스틱 회귀분석 방법을 사용하였다. 선행연구들 중에 로지스틱 회귀분석을 이용한 기존의 연구들이 있었지만 다중공선성을 전혀 고려하지 않았기 때문에 결과가 신뢰할 만하지 못하다. 본 연구에서는 다중공선성을 제거된 급경사지 붕괴 예측모형을 제시하였다.

음운 변동 실현 오류의 예측 인자 분석 (Analysis of Predictors of Phonological Variation Realization)

  • 안성민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.498-500
    • /
    • 2021
  • 본 연구에서는 음운 변동에서 나타나는 오류가 어떤 변수에 영향을 받는지 확인하여 음운 변동 연구 및 교육의 기초 자료를 제공하고자 하는 데에 목적이다. 이를 위해 유음화 발음 데이터를 이용하여 성별, 유음화의 방향, 품사, 단어의 빈도, 단어의 음절수와 유음화의 발음 적격 유무를 변수로 설정하였다. 유음화 적격률에 영향을 줄 수 있는 독립변수를 찾기 위해 카이제곱 검정과 다중공선성의 팽창계수를 먼저 확인하였다. 이후 다중 로지스틱 회귀분석과 오즈비를 통해 유의한 예측인자를 검토하였다. 그 결과 5개의 독립 변수 중 성별과 유음화의 방향, 품사가 결과를 오류에 영향을 주는 주요한 인자가 되는 것을 확인할 수 있었다.

  • PDF

한우 거세우 고기 관능평가 데이터의 로지스틱 회귀분석 (Logistic Regressions with Sensory Evaluation Data about Hanwoo Steer Beef)

  • 이혜정;김재희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.857-870
    • /
    • 2010
  • 국립축산과학원에서는 2006년 부터 2008년 까지 전국 소비자들을 대상으로 한우 거세우 표본 시료에 대한 관능 평가 조사를 실시하여 데이터를 수집하였으며 본 연구에서는 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 탐구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시한다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 맛등급과 설명변수들 간의 관련성을 파악한다. 또한 맛과 관련 있는 연속형 변수를 설명변수로 포함한 경우에 대해서도 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 비교한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었으며 영남지역에서 맛에 대한 오즈가 큰 편이며 수입이 많고 연령이 높을수록 맛에 대한 오즈가 작은 편이었다. 요리법으로는 탕에 대한 구이의 오즈비가 큰 편이며 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 보다 맛에 대한 차이가 크다고 볼 수 있다. 연속형 변수로는 연도가 맛등급에 큰 영향을 미치는 변수로 나타났다.

다범주 자료의 다항로짓 모형과 로지스틱 회귀모형 비교;장애연금 특성분석 중심으로 (Comparison of Multinomial Logit and Logistic Regression on Disability Pensioners' Characteristic)

  • 김미정
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.589-602
    • /
    • 2008
  • 순위형 다범주 자료에 있어서 범주값의 증감에 대한 설명변수의 특성분석을 위하여 다항로짓모형을 적합하여 분석하고 로지스틱 회귀모형을 적합하여 분석한 결과와 비교하였다. 이를 통하여 장애연금 수급자자료의 재정추계를 위해 필요한 일곱 가지 요인인 성별, 수급나이, 가입기간, 가입종별, 소득활동여부, 소득수준, 장애원인이 장애등급에 미치는 영향을 파악하였다. 일곱 요인 모두 장애응급에 대한 연관성이 있음을 확인하였고 이 가운데 다섯 요인은 장애등급의 증감에 있어서도 일정한 추세를 보였으나, 장애원인과 소득수준은 장애등급의 증감에는 일정한 추세를 보이지 않음을 확인하였다. 본 연구의 결과는 장애연금 관리방안을 모색하는데 있어서 장애등급에 따른 설명 요인의 특성을 반영하는데 필요한 가이드라인을 제공할 수 있을 것으로 기대한다. 장애등급 분류에 있어서 다중분류의 정분류율은 각각 42.56%와 42.43%로 로지스틱 회귀모형의 경우 다중로짓 모형의 경우보다 다소 높았지만 거의 비슷한 정확도를 보였다.

로버스트추정에 바탕을 둔 주성분로지스틱회귀 (Principal Components Logistic Regression based on Robust Estimation)

  • 김부용;강명욱;장혜원
    • 응용통계연구
    • /
    • 제22권3호
    • /
    • pp.531-539
    • /
    • 2009
  • 로지스틱회귀분석은 고객관계관리를 위한 데이터마이닝 분야에서 많이 사용되는 기법인데, 이 분야의 모형설정 과정에서는 연관성이 매우 높은 설명변수들이 모형에 함께 포함되어 다중공선성의 문제를 유발하며, 더욱이 회귀자료에 이상점들이 포함되면 최우추정량은 심각한 결함을 갖게 된다. 두 가지 문제점을 동시에 해결하기 위하여 로버스트주성분로지스틱회귀를 적용할 수 있는데, 본 논문에서는 주성분의 선정기준을 결정하는 모형을 개발하고, 주성분모형에서의 추정치에 미치는 이상점의 영향을 축소하기 위한 로버스트추정법을 제안하였다. 제안된 추정법은 다중공선성과 이상점이 유발하는 문제들을 적절히 해결해 준다는 사실이 모의실험을 통하여 확인되었다.

객체지향 메트릭을 이용한 결함 예측 모형의 실험적 비교 (A Comparative Experiment of Software Defect Prediction Models using Object Oriented Metrics)

  • 김윤규;김태연;채흥석
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.596-600
    • /
    • 2009
  • 검증과 확인을 통한 소프트웨어의 효율적인 관리를 지원하기 위하여 객체지향 메트릭 기반의 결함 예측 모형이 많이 제안되고 있다. 제안된 모형은 주로 로지스틱 회귀분석으로 개발하였다. 그리고 개발된 모형의 결함 예측 정확도는 60${\sim}$70%이었다. 본 논문에서는 기존 결함 예측 모형의 효과를 확인하기 위하여 이클립스 3.3을 대상으로 개발된 모형과 유사한 방법으로 실험을 하였다. 실험 결과 모형의 정확성은 약 40%이었다. 이는 주장된 예측력보다 많이 낮은 수치이었다. 또한 단순 로지스틱 회귀분석이 다중 로지스틱 회귀분석보다 높은 예측력을 보였다.

머신러닝기법을 이용한 산사태 발생인자의 영향도 분석 (Machine-Learning Evaluation of Factors Influencing Landslides)

  • 박성용;문성우;최재완;서용석
    • 지질공학
    • /
    • 제31권4호
    • /
    • pp.701-718
    • /
    • 2021
  • 본 연구에서는 산사태가 다수 발생한 충주 산척면 지역을 대상으로 야외지질조사 및 일련의 실내시험을 수행하여 데이터를 취득하고, 이후 인공신경망(Artificial neural network)과 로지스틱 회귀분석(Logistic regression)을 적용하여 각 인자가 산사태 발생에 미치는 영향도를 분석하였다. 야외지질조사 시 산사태 발생 유무에 따라 불교란시료를 채취하였으며, 동적 콘 관입시험기를 이용하여 토심을 측정하였다. 실내시험은 미국 표준시험법인 ASTM 규정에 따라 진행되었으며, 인자간 다중공선성을 해결하기 위해 VIF(Variation inflation factor)를 산정하였다. 다중공선성 분석을 통해 총 9개 인자(전단강도, 암종, 토심, 포화함수비, 비중, 투수계수, USCS, 사면 경사, 고도)가 분석에 적용되었다. 추후 도출되는 각 인자별 영향도를 직접적으로 비교하기 위해서 데이터는 최소값 0, 최대값 1이 되도록 최소-최대 정규화한 후 로지스틱 회귀분석 및 인공신경망 분석에 적용되었다. 로지스틱 회귀분석 결과, 토심, 경사, 포화함수비, 전단강도 순으로 산사태 발생에 영향력이 크게 나타났으며, 인공신경망 분석 결과, 경사, 토심, 포화함수비, 전단강도 순으로 영향력이 크게 나타났다. 각 분석기법으로 산정된 영향도를 산술평균한 결과, 토심, 경사, 포화함수비, 전단강도가 상위 4개 인자로 선정되었으며, 이들의 영향도 합계는 약 70%로 분석되었다.

구조방정식과 로지스틱 회귀분석을 이용한 임도비탈면 산사태의 주요 영향인자 선정 (Major Factors Influencing Landslide Occurrence along a Forest Road Determined Using Structural Equation Model Analysis and Logistic Regression Analysis)

  • 김형신;문성우;서용석
    • 지질공학
    • /
    • 제32권4호
    • /
    • pp.585-596
    • /
    • 2022
  • 본 연구는 충주시 산척면 상산마을 일대 임도 비탈면을 대상으로 지질 및 지형 인자 중 산사태 발생에 영향력이 큰 인자를 선정하기 위하여 수행되었다. 연구지역은 집중호우 기간에 반경 2 km 이내에서 집중적으로 다수의 산사태가 발생했기 때문에 동일 강우조건 및 식생 조건으로 가정할 수 있다. 따라서 이들의 영향을 배제한 상태로 지형적 요인 및 토층의 물리·역학적 특성과 관련된 인자들만의 영향도를 파악할 수 있는 지역이다. 산사태 발생지점 37개소와 미발생 지점 45개소를 대상으로 현장조사, 실내시험, 지형 공간분석 등을 통해 토층의 물리·역학적 자료 및 비탈면의 지형 자료를 수집하였다. 수집된 자료를 대상으로 이상치 제거, 최소-최대 정규화, 다중공선성 진단의 순으로 전처리를 수행하였고, 9개의 독립 변수를 선정한 후 구조방정식 모형분석과 로지스틱 회귀분석을 실시하였다. 통계학적 분석 결과, 토층두께, 공극률 및 포화단위중량이 연구지역의 산사태 발생에 크게 영향을 미친 것으로 파악되며, 상기 3개 인자의 영향도 합계는 구조방정식 모형분석에서 전체의 71%, 로지스틱 회귀분석에서 전체의 83%를 차지하는 것으로 분석되었다.