• 제목/요약/키워드: 로지스틱회귀

검색결과 1,772건 처리시간 0.028초

고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개 (Introduction to variational Bayes for high-dimensional linear and logistic regression models)

  • 장인송;이경재
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.445-455
    • /
    • 2022
  • 본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021) 에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

건강행위정보기반 고혈압 위험인자 및 예측을 위한 통계분석 (Statistical Analysis for Risk Factors and Prediction of Hypertension based on Health Behavior Information)

  • 허병문;김상엽;류근호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2018
  • 본 연구는 통계분석을 이용한 중년 성인의 고혈압 예측모델 개발이 목적이다. 국민건강영양조사자료(2013년-2016년)를 사용하여 통계분석과 예측모델을 개발하였다. 이진 로지스틱 회귀분석으로 통계적 유의한 고혈압 위험인자를 제시하였으며, Wrapper 변수선택기법을 적용한 로지스틱회귀와 나이브베이즈 알고리즘을 이용하여 예측모델을 개발하였다. 통계분석에서 고혈압에 가장 높은 연관성을 갖는 인자는 남성에서 WHtR (p<0.0001, OR = 2.0242), 여성에서 AGE(p<0.0001, OR = 3.9185)로 나타났다. 예측모델의 성능평가에서, 로지스틱 회귀 모델이 남성(AUC = 0.782)과 여성(AUC = 0.858)에서 가장 좋은 예측력을 보였다. 우리의 연구 결과는 고혈압에 대한 대규모 스크리링 도구를 개발하는데 중요한 정보를 제공하며, 고혈압 연구에 대한 기반정보로 활용할 수 있다.

제 2형 당뇨병을 이용한 로지스틱과 베이지안 노모그램 구축 및 비교 (Nomogram comparison conducted by logistic regression and naïve Bayesian classifier using type 2 diabetes mellitus (T2D))

  • 박재철;김민호;이제영
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.573-585
    • /
    • 2018
  • 본 연구에서는 제 2형 당뇨(type 2 diabetes mellitus)의 발병 확률을 예측하기 위해 11가지 위험요인을 가지고 로지스틱 회귀모형과 순수 베이지안 분류기 모형에 적합시킨다. 그런 다음 이를 시각적으로 쉽게 이해하는데 도움을 주는 노모그램 구축 방법을 소개한다. 분석은 2013-2015년 6기 국민건강영양조사 데이터를 가지고 분석하였다. 또 로지스틱 회귀모형에 세 가지 상호작용 항을 넣어 분석의 질을 높이고자 하였고 베이지안 노모그램에 left-aligned 방법을 사용하여 비교하기 쉽게 만들었다. 최종적으로 두 노모그램을 비교하고 효용성을 알아보았다. 마지막으로 ROC 곡선을 이용하여 노모그램이 적절한지 검증하였다.

신용평가에서 로지스틱 회귀를 이용한 미결정자 추론 (Undecided inference using logistic regression for credit evaluation)

  • 홍종선;정민섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.149-157
    • /
    • 2011
  • 본 연구는 신용평가 과정에서 발생하는 미결정자를 결측자료 문제로 간주하여 MAR와 MNAR 가정 하에서 추론한다. MAR 가정에서 미결정자 추론은 결정자들에 대한 로지스틱 회귀모형의 회귀 계수벡터를 이용하여 미결정자의 부도 확률을 구한 후 결정자의 부도확률과 비교하여 미결정자의 미래 상태를 판단한다. 그리고 MNAR 가정에서의 미결정자 추론은 특성변수가 추가한 로지스틱 모형으로부터 미결정자의 부도확률을 구하고 미결정자를 예측하는 방법을 제안하였다. 두 종류의 실제 자료에 대하여 모의실험을 한 결과, MAR 가정에서 미결정자의 비율이 증가하더라도 원자료의 오분류율과 추론한 결과 차이가 없으며, MNAR 가정에서는 추가적인 변수를 고려하여 미결정자를 추정하였기 때문에 미결정자의 오분류율이 MAR 가정에서의 오분류율보다 감소하고 나아가 전체에서 미결정자가 차지하는 비율이 증가함에 따라 전체의 오분류율이 더욱 감소함을 발견하였다.

로지스틱 회귀분석을 이용한 임도붕괴 위험도 평가 (Assessment of Slope Failures Potential in Forest Roads using a Logistic Regression Model)

  • 백승안;조구현;황진성;정도현;박진우;최병구;차두송
    • 한국산림과학회지
    • /
    • 제105권4호
    • /
    • pp.429-434
    • /
    • 2016
  • 임도 사면의 붕괴는 환경적 피해 뿐 만 아니라 사회 경제적 손실을 발생시킨다. 본 연구는 2013년 집중호우로 임도 붕괴가 발생한 강원도 홍천군 화촌면 지역을 대상으로 GIS의 속성정보와 로지스틱 회귀분석을 이용하여 임도 붕괴지 위험도 평가를 실시하였다. 로지스틱 회귀분석결과, 토성이 사토인 지역의 회귀계수는 6.616으로 임도붕괴에 가장 위험성이 높았으며, 경급이 중경목인 지역의 경우 회귀계수가 -3.282로 임도사면의 안정성이 높았다. 임도 붕괴지의 정오분류결과는 74.6%의 분류정확도를 보였다. 로지스틱 회귀모델식을 이용하여 전 구간을 대상으로 적용해 본 결과, 임도붕괴지의 경우 0.5의 기준점 보다 높은 0.7이상의 구간에서 가장 많이 분포하여 붕괴가능성이 높은 것으로 나타났다. 임도 위험도 평가의 판별적중률로 볼 때 임도의 산림환경 및 입지인자의 분석을 통해서도 충분한 붕괴위험 평가가 가능할 것으로 사료된다.

로지스틱회귀모형의 변수선택에서 로그-오즈 그래프를 통한 로그-밀도비 연구 (A study on log-density with log-odds graph for variable selection in logistic regression)

  • 강명욱;신은영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.99-111
    • /
    • 2012
  • 반응변수가 주어졌을 때 설명변수의 조건부 확률분포의 로그-밀도비는 로지스틱회귀모형에서 어떤 설명변수가 어떻게 모형에 포함되는지에 대한 변수선택문제에서 유용한 정보를 제공한다. 설명변수의 조건부 확률분포가 좌우대칭이 아닌 경우 감마분포로 가정하는 것이 적절하고 이 경우 x항과 log(x)항이 모형에 포함되어야 한다. 로그-오즈 그래프는 변수선택문제를 연구하는데 매우 중요한 도구가 된다. 이러한 그래픽적 연구에 의하면, x|y = 0과 x|y = 1의 두 분포가 겹치는 경우에서는 x항과 log(x)항 모두 필요하다. 그리고 두 분포가 분리된 경우에는 x항 또는 log(x)항 중 하나만 필요하다.

데이터 마이닝을 이용한 신인성검사 판정 연구 - 복무적합도검사를 중심으로 - (A Study on Assessment of Personality Test using Data Mining)

  • 박영길;인호;김능회;이정빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1373-1376
    • /
    • 2012
  • 복무적합도 검사는 정신질환이나 사고가능성이 있는 병사를 감별하고, 입대 후 적응문제로 조기 전역할 수 있는 집단을 예측하는 신인성검사 중 하나로, 현재 군에서 징병 및 입영단계에 실시하는 인성검사이다. 이는 전체 검사대상자를 상대로 정신과적 문제 식별을 위한 개별면담이 불가능하기 때문에 위 검사를 통해 대상자를 효율적으로 선별하기 위함이다. 본 연구는 데이터 마이닝을 통해 복무적합도 검사의 판정을 예측 할 수 있을지 확인하고자 하였다. 이를 위해 데이터 마이닝의 기법 중 회귀분석의 로지스틱 회귀분석 기법이 복무적합도검사 판정에 우수한 성능을 보임을 확인하였고, 로지스틱 회귀분석의 추정된 회귀계수를 이용하여 만든 반응확률에 대한 예측 모형식은 높은 정분류율을 보였고 평가 결과 통계적으로 의미가 있음을 증명하였다. 따라서 본 연구 결과를 활용하면 소수의 문항으로 복무적합도 검사 이전의 선별용 검사 개발이나 자가 진단용 검사 개발로 활용이 가능 할 것으로 기대한다.

인공신경망을 이용한 부실기업예측모형 개발에 관한 연구

  • 정윤;황석해
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1999년도 춘계공동학술대회: 지식경영과 지식공학
    • /
    • pp.415-421
    • /
    • 1999
  • Altman의 연구(1965, 1977)나 Beaver의 연구(1986)와 같은 전통적 예측모형은 분석자의 판단에 따른 예측도가 높은 재무비율을 선정하여 다변량판별분석(MDA: multiple discriminant analysis), 로지스틱회귀분석 등과 같은 통계기법을 주로 이용해 왔으나 1980년 후반부터 인공지능 기법인 귀납적 학습방법, 인공신경망모형, 유전모형 둥이 부실기업예측에 응용되기 시작했다. 최근 연구에서는 인공신경망을 활용한 변수 및 모형개발에 관한 보고가 있다. 그러나 지금까지의 연구가 주로 기업의 재무적 비율지표를 고려한 모형에 치중되었으며 정성적 자료인 비재무지표에 대한 검증과 선정이 자의적으로 이루어져온 경향이었다. 또한 너무 많은 입력변수를 사용할 경우 다중공선성 문제를 유발시킬 위험을 내포하고 있다. 본 연구에서는 부실기업예측모형을 수립하기 위하여 정량적 요인인 재무적 지표변수와 정성적요인인 비재무적 지표변수를 모두 고려하였다. 재무적 지표변수는 상관분석 및 요인분석들을 통하여 유의한 변수들을 도출하였으며 비재무적 지표변수는 조직생태학내에서의 조직군내 조직사멸과 관련된 생태적 과정에 대한 요인들 중 조직군 내적요인으로 조직의 연령, 조직의 규모, 조직의 산업밀도를 도출하여 4개의 실험집단으로 분류하여 비재무적 지표변수를 보완하였다. 인공신경망은 다층퍼셉트론(multi-layer perceptrons)과 역방향 학습(back-propagation )알고리듬으로 입력변수와 출력변수, 그리고 하나의 은닉층을 가지는 3층 퍼셉트론(three layer perceptron)을 사용하였으며 은닉충의 노드(node)수는 3개를 사용하였다. 입력변수로 안정성, 활동성, 수익성, 성장성을 나타내는 재무적 지표변수와 조직규모, 조직연령, 그 조직이 속한 산업의 밀도를 비재무적 지표변수로 산정하여 로지스틱회귀 분석과 인공신경망 기법으로 검증하였다. 로지스틱회귀분석 결과에서는 재무적 지표변수 모형의 전체적 예측적중률이 87.50%인 반면에 재무/비재무적 지표모형은 90.18%로서 비재무적 지표변수 사용에 대한 개선의 효과가 나타났다. 표본기업들을 훈련과 시험용으로 구분하여 분석한 결과는 전체적으로 재무/비재무적 지표를 고려한 인공신경망기법의 예측적중률이 높은 것으로 나타났다. 즉, 로지스틱회귀분석의 재무적 지표모형은 훈련, 시험용이 84.45%, 85.10%인 반면, 재무/비재무적 지표모형은 84.45%, 85.08%로서 거의 동일한 예측적중률을 가졌으나 인공신경망기법 분석에서는 재무적 지표모형이 92.23%, 85.10%인 반면, 재무/비재무적 지표모형에서는 91.12%, 88.06%로서 향상된 예측적 중률을 나타내었다.

  • PDF