• 제목/요약/키워드: 로지스틱 회귀

검색결과 1,743건 처리시간 0.034초

RHIPE 플랫폼에서 빅데이터 로지스틱 회귀를 위한 학습 알고리즘 (Learning algorithms for big data logistic regression on RHIPE platform)

  • 정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.911-923
    • /
    • 2016
  • 빅데이터 시대에 머신러닝의 중요성은 더욱 부각되고 있고 로지스틱 회귀는 머신러닝에서 분류를 위한 방법으로 의료, 경제학, 마케팅 및 사회과학 전반에 걸쳐 널리 사용되고 있다. 지금까지 R과 Hadoop의 통합환경인 RHIPE 플랫폼은 설치 및 MapReduce 구현의 어려움으로 인해 거의 연구가 이루지 지지 않았다. 본 논문에서는 대용량 데이터에 대해 로지스틱 회귀 추정을 위한 두가지 알고리즘 즉, Gradient Descent 알고리즘과 Newton-Raphson 알고리즘에 대해 MapReduce로 구현하고, 실제 데이터와 모의실험 데이터를 가지고 이들 알고리즘 간의 성능을 비교하고자 한다. 알고리즘 성능 실험에서 Gradient Descent 알고리즘은 학습률에 크게 의존하고 또한 데이터에 따라 수렴하지 않는 문제를 갖고 있다. Newton-Raphson 알고리즘은 학습률이 불필요 할 뿐만 아니라 모든 실험 데이터에 대해 좋은 성능을 보였다.

로지스틱 회귀모형과 의사결정나무 모형을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model and Decision Tree Model)

  • 박수호;김흥민;김범규;황도현;엥흐자리갈 운자야;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.777-786
    • /
    • 2018
  • 본 연구에서는 기계학습 기법의 한 갈래인 로지스틱 회귀모형과 의사결정나무 모형을 이용하여 인공위성 영상에서 Cochlodinium polykrikoides 적조 픽셀을 탐지하는 방법을 제안한다. 학습자료로 적조, 청수, 탁수해역에서 추출된 수출광량 분광 프로파일(918개)을 활용하였다. 전체 데이터셋의 70%를 추출하여 모형 학습에 활용하였으며, 나머지 30%를 이용하여 모형의 분류 정확도를 평가하였다. 정확도 평가 결과 로지스틱 회귀모형은 약 97%의 분류 정확도를 보였으며, 의사결정나무 모형은 약 86%의 분류 정확도를 보였다.

소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법 (Logistic Regression Ensemble Method for Extracting Significant Information from Social Texts)

  • 김소현;김한준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권5호
    • /
    • pp.279-284
    • /
    • 2017
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 서비스로부터 유용한 정보를 추출하는 작업은 매우 중요한 연구 주제 중 하나이다. 이에 본 논문은 블로그 HTML 문서에서 주요 본문을 찾는 로지스틱 회귀 앙상블 기법을 제안한다. 먼저, 블로그 HTML 태그에서 구조적 특징, 텍스트 특징을 추출한다. 그 다음, 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한다. 본 연구의 중요한 발견 중 하나는 태그의 깊이 특징을 이용하여 주요 본문을 찾을 수 있다는 점이다. 다양한 주제의 국내 블로그 데이터를 이용한 실험에서 태그 분류 정확도가 99%, 본문을 찾아낸 문서의 비율이 80.5%로 평가되었다.

로지스틱 회귀모형을 이용한 호우피해 예측함수 개발 (Development of heavy rain damage prediction function using logistic regression model)

  • 최창현;김종성;김동현;이종소;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.41-41
    • /
    • 2017
  • 자연재난으로 인한 피해의 대형화, 다양화, 집중화 현상이 일어나고 있으며, 이로 인한 사회 경제적 피해가 과거에 비해 계속적으로 증가하고 있다. 만약 기존에 발생하였던 재난 피해 자료와 기상현상간의 통계적 분석을 통해 재난의 발생 가능성과 피해 범위를 예측할 수 있다면, 효율적으로 재난관리를 할 수 있을 것이다. 따라서 본 연구에서는 대표적인 자연재난 피해인 호우피해를 대상으로 낙동강 권역 69개 시군구별 재해통계 자료를 기반으로 수문기상자료와의 통계적 분석을 통해 호우피해 예측함수를 개발하였다. 국민안전처에서 발간하는 재해연보 자료를 통해 호우피해 발생기간별 호우피해액 자료를 분석하였고, 이를 호우피해 예측함수의 종속변수로 사용하였다. 종관기상관측소의 시강우 자료를 분석하여 선행강우, 지속시간별 최대강우, 총강우량을 구축하였고, 시군구별 면적 등의 지역 특성을 수집하여 설명변수로 사용하였다. 기존의 피해예측함수 관련 연구에서 제기되었던 피해액이 큰 부분에서 예측력이 떨어지는 문제를 해결하기 위해, 피해액이 큰 집단과 피해액이 작은 집단을 구분하여 함수식을 개발할 수 있는 로지스틱 회귀모형을 사용하여 호우피해 예측함수를 개발하였다. 개발된 호우피해 예측함수의 NRMSE는 6.34~18.79%로 나타났으며, 대부분 호우피해를 적절하게 예측하는 것으로 나타났다. 본 연구에서는 호우피해액이 큰 집단과 피해액이 작은 집단으로 구분할 수 있는 로지스틱 회귀모형을 이용하여 낙동강 권역의 시군구별 호우피해 예측함수를 개발하였다. 본 연구에서 제시한 시군구별 호우피해 예측함수를 이용하여 사전에 호우피해를 예측할 수 있다면 호우피해액이 크게 줄어들 것으로 사료된다.

  • PDF

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

2단계 사례-대조자료를 위한 로지스틱 회귀모형의 추론 (Estimation of Logistic Regression for Two-Stage Case-Control Data)

  • 신미영;신은순
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.237-245
    • /
    • 2000
  • 이 논문에서는 2단계 계획 하에서의 사례-대조 자료를 로지스틱 회귀 모형에 적합시키고 WESML방법으로 모수를 추정하며 추정량의 점근분포를 찾는다. 또한 WESML,방법과 CML 방법으로 얻은 모수의 추정량과 표준오차를 실제 자료를 이용하여 비교한다.

  • PDF

임상의를 위한 다변량 분석의 실제 (Multivariate Analysis for Clinicians)

  • 오주한;정석원
    • Clinics in Shoulder and Elbow
    • /
    • 제16권1호
    • /
    • pp.63-72
    • /
    • 2013
  • 임상 의학의 연구에 사용되는 대표적 다변량 분석 방법은 다중 회귀 분석 방법인데, 이는 인과 관계를 토대로 여러 개의 변수에 의한 한꺼번에의 영향력을 분석하기 위한 방법이다. 다중 회귀 분석은 기본적으로 회귀 분석의 기본 가정을 만족해야 함은 물론, 여러 개의 독립 변수들이 포함되기 때문에 변수들을 모형에 포함시키는 방법 및 다중 공선성 문제에 대한 고려가 필요하다. 다중 회귀 분석 모형의 설명력은 결정 계수 $R^2$으로 표현되어 1에 가까울수록 설명력이 크며, 각 독립 변수들의 결과에의 영향력은 회귀 계수인 ${\beta}$값으로 표현된다. 다중 회귀 분석은 종속 변수의 형태에 따라 다중 선형 회귀 분석, 다중 로지스틱 회귀 분석, 콕스 회귀 분석으로 나눌 수 있다. 종속 변수가 연속 변수인 경우 다중 선형 회귀 분석, 범주형 변수인 경우 다중 로지스틱 회귀 분석, 시간의 영향을 고려한 상태 변수인 경우는 콕스 회귀 분석을 시행해야 하며, 각각 결과에의 영향력은 회귀 계수 ${\beta}$, 교차비, 위험비로 평가한다. 이러한 다변량 분석에 대한 이해는 연구를 계획하고 결과를 분석하고자 하는 임상 의사에게 있어 보다 효율적인 연구를 위해 필수적인 소양이라고 할 수 있다.

만성 폐쇄성 폐질환을 이용한 노모그램 구축과 비교 (Comparison of nomogram construction methods using chronic obstructive pulmonary disease)

  • 서주현;이제영
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.329-342
    • /
    • 2018
  • 노모그램은 질병의 위험 요인과 예측 확률을 쉽게 이해할 수 있도록 시각적으로 표현하는 통계적 도구이다. 본 논문은 만성 폐쇄성 폐질환(chronic obstructive pulmonary disease)의 위험 요인을 이용하여 로지스틱 회귀모형과 순수 베이지안 분류기 모형의 노모그램을 구축하고 이를 비교하였다. 분석 데이터는 국민건강영양조사 6기(2013-2015)를 이용하여 진행하였다. 총 6개의 위험 요인을 이용하였다. 그리고 로지스틱 회귀모형, 순수 베이지안 분류기 모형과 각각의 구축 방법을 이용하여 만성 폐쇄성 폐질환의 노모그램을 제시하였다. 또한, 구축된 두 노모그램을 비교하여 유용성을 살펴보았다. 마지막으로 ROC curve와 Calibration plot을 통하여 각 노모그램을 검증하였다.