• 제목/요약/키워드: 로지스틱회귀

검색결과 1,750건 처리시간 0.028초

로지스틱 회귀모형을 이용한 비대칭 종형 확률곡선의 추정 (Estimation of Asymmetric Bell Shaped Probability Curve using Logistic Regression)

  • 박성현;김기호;이소형
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.71-80
    • /
    • 2001
  • 로지스틱 회귀모형은 이항 반응자료에 대한 가장 보편적인 일반화 선형모형으로 독립변수에 대한 확률함수를 추정하는데 이용된다. 많은 실제적 상황에서 확률함수가 종형의 곡선형태로 표현되는데 이 경우에는 2차항을 포함한 로지스틱 회귀모형을 이용한 분석은 대칭성을 갖는 확률함수에 대한 가정으로 인해 비대칭 형태의 종형곡선에서는 확률함수의 신뢰성이 저하되고, 2차항을 포함하기 때문에 독립변수의 효과를 설명하기가 쉽지 않다는 제한점을 가지고 있다. 본 논문에서는 이러한 문제점을 해소하기 위해서 로지스틱 회귀분석과 반복적 이분법을 이용하여 종형의 형태에 관계없이 확률곡선을 추정하는 방법론을 제안하고 모의 실험을 통해 2차항을 포함한 로지스틱 회귀모형과 비교하고자 한다.

  • PDF

로지스틱 회귀분석을 활용한 한강권역 홍수위험 예보기법 개발 (Flood Risk Forecasting using Logistic Regression for the Han River Basin)

  • 이선미;최영제;이재응
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.354-354
    • /
    • 2021
  • 2020년은 장마기간이 49일간 지속됨에 따라 침수, 산사태 등 많은 홍수피해가 발생하였다. 특히 서울에서는 한강 본류의 수위가 급격하게 증가함에 따라 둔치 및 도로 침수 피해가 발생하였다. 이처럼 하천의 수위증가로 인한 홍수피해에 대응하기 위해 홍수통제소 및 기초지자체에서는 홍수특보를 발령한다. 이 홍수특보는 수위관측소 지점별 계획홍수량의 50 %, 70 % 이상의 홍수량이 발생할 경우 홍수주의보와 홍수경보가 발령되며, 이 기준은 각 권역별로 동일하다. 하지만 2017년 의정부시에서는 중랑천 수위증가로 인해 주변 지역에 침수피해가 발생하였지만, 이때 홍수량은 계획홍수량 대비 약 30 %에 불과하였다. 이처럼 한강권역 내 하천수위 증가로 인한 홍수피해는 계획홍수량의 50 % 이내에서 발생하기도 한다. 이에 본 연구에서는 한강권역을 대상으로 현재 2단계로 발령되는 홍수특보를 3단계로 세분화하고자 하였다. 단계별 홍수량 위험기준을 산정하기 위해 과거 홍수피해 발생 이력이 있는 한강권역 내 43개의 수위관측소 지점을 선정하였으며, 지점별 홍수기 동안의 홍수량 및 피해액 자료를 수집하였다. 각 단계별 홍수량 기준을 산정하기 위해서는 로지스틱 회귀분석 방법을 활용하여 피해발생 확률을 산정하였다. 1단계 기준은 계획홍수량 대비 홍수량 비율과 홍수피해 발생여부를 고려한 이항 로지스틱 회귀분석 모델을 구축한 후 3계 도함수에 적용하여 홍수피해 발생확률이 급격하게 증가하는 특이점을 산정하였다. 2단계와 3단계 기준은 다항 로지스틱 회귀분석 중 계층형 로지스틱 회귀분석을 활용하여 지점별 피해액 비율이 60 ~ 80 %, 80 ~ 100 % 구간에 속할 확률을 산정하고, 1단계와 동일한 방법으로 특이점을 산정하였다. 그 결과 지점별로 기존 제공되고 있는 홍수특보 기준을 과거 발생한 홍수피해를 고려하여 세분화할 수 있었으며, 이 결과는 지역별 홍수피해 저감대책에 활용될 수 있을 것으로 판단된다.

  • PDF

3차원 잔차산점도를 이용한 로지스틱회귀모형에서 교호작용의 탐색 (Exploring interaction using 3-D residual plots in logistic regression model)

  • 강명욱
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.177-185
    • /
    • 2014
  • 로지스틱회귀모형에서 설명변수만으로는 충분히 설명이 되지 못하고 설명변수의 변환된 형태인 이차항 또는 교호작용항이 필요한 경우가 있다. 설명변수가 두 개이고 조건부 분포가 이변량 정규분포를 따르는 경우 로지스틱회귀모형에서는 기본적으로 이차항과 교호작용항이 모형에 포함되어야 한다. 하지만 조건부 분포의 분산과 상관계수에 따라 이차항과 교호작용항이 필요하지 않게 되는 경우도 있다. 분산이나 상관계수에 대한 정보는 산점도를 보고 대체적인 판단이 가능하지만 교호작용항의 필요성을 판단하기가 쉽지 않다. 본 논문에서는 3차원 잔차산점도를 이용한 교호작용의 탐색방법을 제시하고 이 방법을 실제 자료에 적용시켜본다.

로지스틱 회귀분석과 의사결정나무 분석을 이용한 일 대도시 주민의 우울 예측요인 비교 연구 (Comparative Analysis of Predictors of Depression for Residents in a Metropolitan City using Logistic Regression and Decision Making Tree)

  • 김수진;김보영
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.829-839
    • /
    • 2013
  • 본 연구는 로지스틱 회귀분석과 의사결정나무 분석을 활용하여 일 대도시 주민의 우울에 영향을 주는 요인을 예측하고 비교하고자 시도된 서술적 조사연구이다. 연구대상은 20세에서 65세 미만의 일 대도시 주민 462명이었다. 자료 수집은 2011년 10월 7일부터 10월 21일까지이었으며, 자료 분석은 SPSS 18.0 프로그램을 이용하여 빈도, 백분율, 평균과 표준편차 및 ${\chi}^2$-test, t-test, 로지스틱 회귀분석, roc curve, 의사결정나무 분석으로 분석하였다. 본 연구 결과, 로지스틱 회귀분석과 의사결정나무 분석에서 공통적으로 나타난 우울 예측요인은 사회부적응, 주관적 신체증상 및 가족 지지이었다. 로지스틱 회귀분석에서 특이도 93.8%, 민감도 42.5%이었고, 본 연구의 모형 적합도를 roc curve 검증 한 결과 AUC=.84으로 본 연구 모형은 적합(p=<.001)하다고 할 수 있다. 우울예측에 대한 의사결정나무 분석은 분류에 대한 예측 정확도에서 특이도 98.3%, 민감도 20.8%이었고, 전체 분류 정확도는 로지스틱 회귀분석은 82.0%, 의사결정나무 분석은 80.5% 이었다. 본 연구 결과 민감성과 분류 정확도와 더 높게 나타난 로지스틱 회귀분석 방법이 지역 주민의 우울 예측 모형을 구축하는데 더 유용한 자료로 사용될 수 있으리라 사료된다.

데이터마이닝과 텍스트마이닝을 활용한 영화 흥행 예측 (Box Office Hit Prediction Using Data mining and Text mining)

  • 조효정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.316-318
    • /
    • 2021
  • 영화 수익에 있어 영화의 흥행 여부는 중요한 영향을 끼친다. 영화 흥행 요인은 영화 산업의 규모가 커지면서 많은 제작사들 및 투자자들이 고려해야 하는 사항이 되었다. 따라서 영화의 흥행을 예측하기 위한 많은 모델이 연구되었다. 본 연구의 목적은 선행연구에서 흥행에 유의미한 영향을 끼친다고 밝혀진 스크린 수, 감독명, 제작사명 등의 내재적인 속성과 더불어 온라인 구전 변수를 사용하여 영화 흥행 예측 모델을 만드는 것이다. 이때 기사 수, 블로그 수와 같이 온라인 구전의 크기를 나타내는 변수들을 사용하는 대신 개봉 후 첫 주간의 관람객 리뷰를 텍스트마이닝을 이용하여 전체 리뷰 중 긍정 리뷰의 비율에 따라 점수를 매긴 후 독립변수로 사용한다. 그 후, 데이터 마이닝 기법을 활용하여 만든 모델에 앞서 언급한 독립변수를 입력 값으로 사용하여 영화의 흥행을 예측한다. 최종적으로 의사결정트리와 로지스틱회귀를 수행한 결과 영화 흥행에 영향을 주는 독립변수를 찾고 모델의 성능을 평가하였다. 로지스틱회귀의 결과 관객 수, 평점이 영화의 흥행에 특히 유의한 영향을 끼치는 변수로 선정되었고 리뷰 역시 유의한 변수로 선정되었다. 이때 만들어진 모델은 약 90%의 높은 수준의 정확도를 보여주었다. 의사결정트리의 결과 관객 수가 가장 중요한 변수로 선정되었다.

희귀 사건 로지스틱 회귀분석을 위한 편의 수정 방법 비교 연구 (Comparison of Bias Correction Methods for the Rare Event Logistic Regression)

  • 김형우;고태석;박노욱;이우주
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.277-290
    • /
    • 2014
  • 본 연구에서는 로지스틱 회귀 모형을 이용하여 보은 지방의 산사태 자료를 분석하였다. 5000 지역의 관측치 가운데 단 9개만이 산사태 발생 지역이므로 이 자료는 희귀 사건 자료로 간주될 수 있다. 로지스틱 회귀 분석 모형이 희귀사건 자료에 적용될 때 주요 이슈는 회귀 계수 추정치에 심각한 편의 문제가 생길 수 있다는 것이다. 기존에 두 가지의 편의 수정 방법이 제안되었는데, 본 논문에서는 시뮬레이션을 통해 정량적으로 비교 연구를 진행하였다. Firth(1993)의 방식이 다른 방법에 비해 우수한 성능을 보였으며, 이항 희귀 사건을 분석하는 데 있어서 매우 안정된 결과를 보여주었다.

로지스틱모형에서 그래픽을 이용한 회귀와 모형평가 (Graphical regression and model assessment in logistic model)

  • 강명욱;김부용;홍주희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.21-32
    • /
    • 2010
  • 그래픽적 회귀는 모형에 대한 가정을 하지 않고 회귀정보를 모두 포함하는 충분요약그림을 찾아내는 분석 방법으로 모든 회귀정보를 저차원의 그림으로 표현할 수 있게 하는 데에 그 목적이 있다. 잔차산점도를 이용한 모형의 평가는 적용 범위가 선형회귀모형에 국한되는 문제점이 있기 때문에 일반화선형모형에서는 그 대안으로 주변모형 산점도를 이용하여 모형의 적절성을 평가한다. 본 논문에서는 일반화선형모형 중에서 이진반응변수를 갖는 로지스틱모형에서의 그래픽적 회귀 방법과 주변모형 산점도를 이용한 모형평가 방법을 알아본다.

로지스틱 회귀모형에서의 SUPPRESSION (Suppression for Logistic Regression Model)

  • 홍종선;김호일;함주형
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.701-712
    • /
    • 2005
  • 로지스틱 회귀모형에서 suppression의 논의는 선형회귀의 논의보다 많지 않은데 그 이유 중의 하나는 회귀제곱합 또는 결정계수의 정의가 유일하지 않고 다양하기 때문이다. 여러 종류의 결정계수들 중에서 선호되는 두 종류의 결정계수와 Liao와 McGee(2003)가 제안한 두 종류의 수정 결정계수의 정의로부터 회귀제곱합을 유도하여 로지스틱 회귀모형에서의 suppression을 설명하고자 한다. 모의실험을 통하여 자료를 생성하여 어떤 경우에 suppression이 발생하는지를 살펴보고 그 결과를 선형회귀모형에서의 suppression 결과와 비교한다.

로지스틱회귀분석 모델을 활용한 도시철도 사상사고 사고예측모형 개발에 대한 연구 (Study on Accident Prediction Models in Urban Railway Casualty Accidents Using Logistic Regression Analysis Model)

  • 진수봉;이종우
    • 한국철도학회논문집
    • /
    • 제20권4호
    • /
    • pp.482-490
    • /
    • 2017
  • 본 연구는 사고심각도 분류 및 예측을 위한 철도사고조사 통계기법에 관한 연구이다. 그동안의 선형 회귀분석은 사고 심각도 분석에 어려움이 있었으나 로지스틱회귀분석은 이를 보완할 수 있었다. 데이터마이닝 기법인 로지스틱회귀분석을 활용, 서울지하철(5~8호선) 역사 내 전도사고 중 에스컬레이터 전도사고 발생에 영향을 주는 사고예측 모형 변수는 사고자 연령, 음주여부, 사고 당시상황 및 행동, 핸드레일 잡음 여부였다. 분석의 정확도는 76.7%로 설명되었고 분석방법 결과에 따르면 정확도와 유의수준 측에서 로지스틱회귀분석 방법이 도시철도 사상사고 예측모형을 개발하는데 유용한 데이터마이닝 기법으로 판단된다.

WPM(Word Piece Model)을 활용한 구글 플레이스토어 앱의 댓글 감정 분석 연구 (A Study on the Sentiment analysis of Google Play Store App Comment Based on WPM(Word Piece Model))

  • 박재훈;구명완
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.291-295
    • /
    • 2016
  • 본 논문에서는 한국어 기본 유니트 단위로 WPM을 활용한 구글 플레이 스토어 앱의 댓글 감정분석을 수행하였다. 먼저 자동 띄어쓰기 시스템을 적용한 후, 어절단위, 형태소 분석기, WPM을 각각 적용하여 모델을 생성하고, 로지스틱 회귀(Logistic Regression), 소프트맥스 회귀(Softmax Regression), 서포트 벡터머신(Support Vector Machine, SVM)등의 알고리즘을 이용하여 댓글 감정(긍정과 부정)을 비교 분석하였다. 그 결과 어절단위, 형태소 분석기보다 WPM이 최대 25%의 향상된 결과를 얻었다. 또한 분류 과정에서 로지스틱회귀, 소프트맥스 회귀보다는 SVM 성능이 우수했으며, SVM의 기본 파라미터({'kernel':('linear'), 'c':[4]})보다 최적의 파라미터를 적용({'kernel': ('linear','rbf', 'sigmoid', 'poly'), 'C':[0.01, 0.1, 1.4.5]} 하였을 때, 최대 91%의 성능이 나타났다.

  • PDF