• 제목/요약/키워드: 단계적 회귀분석모형

검색결과 222건 처리시간 0.034초

기계학습 기반의 영화흥행예측 방법 비교: 인공신경망과 의사결정나무를 중심으로 (A Comparison of Predicting Movie Success between Artificial Neural Network and Decision Tree)

  • 권신혜;박경우;장병희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권4호
    • /
    • pp.593-601
    • /
    • 2017
  • 본 연구는 영화산업의 가치사슬단계에 따라 각 단계에서 고려할 수 있는 변인을 활용하여 제작/투자, 배급, 상영단계별 모형을 구성하였다. 모형의 예측력을 높이기 위해 회귀분석으로 유의미한 변인을 도출하여 모형을 추가로 설정하였다. 주어진 변인을 바탕으로 기계학습 분석방법인 인공신경망과 의사결정나무 분석방법 간의 예측력 차이를 비교하였다. 분석 결과, 제작/투자 모형과 배급 모형에서 모든 변인을 투입했을 때는 인공신경망의 정확도가 의사결정나무보다 높았으나, 회귀분석결과에 따라 선정된 변인을 투입하였을 때는 의사결정나무의 정확도가 더 높았다. 상영 모형에서는 회귀분석결과의 반영여부와 관계없이 인공신경망의 정확도가 의사결정나무의 정확도보다 높게 나타났다. 본 논문은 영화흥행 예측연구에 기계학습기법을 적용하여 예측성과가 향상됨을 확인하였다는데 의의가 있다. 선형회귀분석 결과를 기계학습기법에 반영함으로써 기존의 선형적 분석방법의 한계를 극복하고자 하였다.

소프트웨어 통합테스트를 위한 결함예측모델 설계 (A Design of Fault Prediction Model for Software Integration Test)

  • 김명신;강동수;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.969-972
    • /
    • 2010
  • 소프트웨어 제품의 품질을 보장하기 위해서는 제품을 개발하는 단계에 미리 결함율을 예측하여 원하는 수준의 품질을 확보하는 것이 중요하다. 결함은 사용자의 요구사항이 제품으로 구현되고 기능에 대한 테스트가 수행되는 단계에 가장 객관적이며 정량적으로 관리될 수 있다. 따라서 본 논문에서는 통합테스트에 대한 계획을 수립하는 단계에 제품에 대한 결함율을 미리 예측하여 제품 결함율이 조직의 관리범위에 들어올 수 있도록 통제하는 결함예측모델을 제안한다. 조직의 제품 결함율 베이스라인을 설정하고 통합테스트 결함율에 영향을 미치는 변수들과의 회귀분석을 통해 통합테스트 결함예측모형을 구축한다. 또한 제품 결함율에 영향을 미치는 변수들과의 회귀분석을 통해 제품 결함예측모형을 구축하고 결함예측모형을 활용해 제품 결함율을 분석 및 통제한다. 본 논문에서 제안한 결함예측모델은 실제 프로젝트에 적용하여 실효성을 검증하였으며 제품이 완성되기 전에 결함율을 예측하여 통제할 수 있게 함으로써 소프트웨어 품질을 향상한다.

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

K-WEAP의 기능개선 (Improvements of K-WEAP function)

  • 박희성;이동률;문장원;최시중;김휘린
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2005년도 학술발표회 논문집
    • /
    • pp.1455-1459
    • /
    • 2005
  • K-WEAP(Korea-Water Evaluation And Planning System)은 유역의 물이용 순환체계를 컴퓨터 프로그램으로 구현하고, 수량, 수질, 환경, 수요관리 등을 종합적으로 고려하여 통합수자원계획 수립을 지원하는 전문 모형으로서, 과학기술부와 건설교통부가 공동으로 지원하는 21세기 프론티어 사업인 수자원의 지속적 확보기술사업단의 연구비 지원에 의하여 SEI-B(Stockholm Environment Institute-Boston Center)와 한국건설기술연구원이 공동으로 개발한 모형이다. K-WEAP의 대부분 기능은 기존의 SEI-B가 개발한 WEAP(Water Evaluation And Planning System)에 기반을 두고 있지만, 월 단위 물수지 분석뿐만 아니라 5일 및 임의 시간 단위 물수지분석이 가능하고 물공급 안전도평가와 하천수질모의가 가능하다는 점에서 기존의 WEAP과는 다르며 메뉴와 도움말이 모두 한글로 작성되어있어 국내 사용자들이 이용하기 용이하다. K-WEAP의 기능은 단계적으로 보완 및 개선이 이루어지고 있으며, 현재는 1단계 개발이 끝난 후 2단계 기능개선 작업을 수행하고 있다. 2단계에서 개선하게 될 주요부분은 물수지모형의 개선과 하천수질모형의 개선, 편익산정모형의 개발, 의사결정지원 기능을 고려하는 사용자인터페이스 개선 등이 포함되어 있으며, 2단계 1차 년도에서는 물수지모형과 하천수질모형의 부분적인 개선과 함께 의사결정지원 기능을 고려하는 사용자 인터페이스의 부분적인 개선을 시도하였다. 물수지모형의 개선에서는 하수처리장의 회귀수를 수요처에서 직접 이용할 수 있도록 하였으며, 하천수질모형의 개선부분에서는 기온과 풍속 등의 기후자료를 이용한 수온 모의모형을 개발하였다. 또한, 사용자 인터페이스 부분에서는 사용자의 의사결정을 지원하기 위해 하천유량과 수질 등에 대한 초과비율그래프 조회 기능과 결과를 지도상에서 확인할 수 있는 지도보기기능, 사용자가 필요한 자료를 요약하여 조회할 수 있는 사용자 정의보고서 작성기능을 추가하였다. 개선된 기능을 통해 사용자는 보다 편리한 환경에서 모형을 구동하고 구동결과를 평가 할 수 있을 것으로 기대된다.

  • PDF

실시간 수위 예측을 위한 다중선형회귀 모형의 비교 (Comparison of Different Multiple Linear Regression Models for Real-time Flood Stage Forecasting)

  • 최승용;한건연;김병현
    • 대한토목학회논문집
    • /
    • 제32권1B호
    • /
    • pp.9-20
    • /
    • 2012
  • 최근 수위 예측을 위한 개념적 기반, 수문학적, 물리적 기반 모형 등의 단점을 극복하고자 홍수예측을 위해 자료지향형 모형 중의 하나인 다중선형회귀 모형이 널리 도입되고 있다. 본 연구의 목적은 이러한 다중선형회귀 모형의 서로 다른 회귀계수 선정 방법에 따른 홍수예측 성능을 비교 검토하고 이를 통해 적절한 다중회귀 홍수예측 모형을 구축하는 것이다. 이를 위해 입력자료의 자기상관분석을 통해 독립변수의 시간 규모를 결정한 후 최소 자승법, 가중 최소 자승법, 단계별 선택법의 각기 다른 회귀계수 산정 방법을 이용한 홍수예측 모형을 구축하고 중랑천 유역의 다양한 홍수사상에 대해 적용하였다. 구축된 모형들의 성능을 평가하기 위해 평균제곱근오차, Nash-Suttcliffe 효율계수, 평균절대오차, 수정 결정계수와 같이 4개의 통계지표들을 사용하였다. 모의결과 단계별 선택법을 이용한 다중선형회귀 홍수예측 모형이 가장 정확한 예측 결과를 보였고, 최소자승법을 이용한 홍수예측 모형이 가중 최소자승법을 이용한 홍수예측 모형보다 좀 더 나은 예측 결과를 나타냈다.

안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석 (Lasso Regression of RNA-Seq Data based on Bootstrapping for Robust Feature Selection)

  • 조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권9호
    • /
    • pp.557-563
    • /
    • 2017
  • 많은 수의 유전자 데이터를 이용해서 Lasso 회귀 분석을 할 때, 유전자 발현량 값들 사이의 높은 상관성으로 인하여 회귀 계수의 추정값이 회귀 분석의 반복 시행마다 달라질 수 있다. L1 정규화에 의해 축소되는 회귀 계수의 불안정성은 변수 선택을 어렵게 하는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 부트스트랩 단계를 반복 시행하여 높은 빈도로 선택된 유전자들을 이용한 회귀 모형들을 만들고, 각 모형들에서 안정적으로 선택되는 특징 유전자들을 찾고, 그 유전자들이 위양성 결과가 아님을 입증하였다. 또한, 회귀모형 별 예측지수의 정확도를 실제지수와의 상관관계를 이용해 측정하였는데, 선택된 특징 유전자들의 회귀계수 부호의 분포가 정확도와 관련성을 보임을 확인하였다.

조건부 합성기법과 MODIS LST를 활용한 토양수분 다중선형 회귀모형 산정 연구 (A Study on Estimation of Soil Moisture Multiple Linear Regression Model Using Conditional Merging and MODIS Land Surface Temperature Data)

  • 정충길;이지완;김다래;김세훈;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.103-104
    • /
    • 2017
  • 본 연구에서는 다중회귀분석모형(MLRM)과 MODIS (MODerate resolution Imaging Spectroradiometer) LST (Land Surface Temperature) 자료를 이용하여 전국 공간토양수분을 산정하였다. 공간토양수분을 산정하기 위한 과정은 크게 두가지로 구분된다. 첫 번째로 기존의 MODIS LST 자료를 조건부 합성 보정기법을 적용하여 실측 LST 자료와 비교하여 위성 LST 자료가 갖고 있는 오차를 보정하였다. 그 결과, 조건부 합성 보정기법을 적용하기전 전국 71개 지상 관측지점에서 관측한 실측 LST와 MODIS LST의 R2는 전체 평균 0.70으로 어는정도 유의성 있는 상관관계를 나타냈으나 조건부 합성 보정기법을 적용한 후 실측 LST와 MODIS LST의 R2는 전체 평균 0.92로 상당히 크게 향상됨을 알 수 있었다. 두 번째로 보정된 MODIS LST를 이용하여 다중회귀분석 모형을 개발하고 토양수분을 예측하는 단계로 입력자료로 위성영상 자료와 관측자료를 융합하여 사용하였다. 위성영상 자료로는 보정된 MODIS LST와 MODIS NDV를 구축하였고 일단위 강수량 및 일조시간의 기상자료는 기상청으로부터 전국 68개 지점에 대해 구축하여 IDW 공간보간기법을 이용한 공간자료로 구축하였다. 토양수분 결과를 비교하기 위한 관측 토양수분은 자동농업기상관측(Automated Agriculture Observing System, AAOS)지점에서 2013년 1월부터 2015년 12월까지의 실측 일단위 토양수분 자료를 구축하여 사용하였다. 다중회귀분석 모형은 각각의 입력자료를 독립인자로서 조합하여 12개의 시나리오를 만들었다. 시공간적 경향을 고려하기 위하여 계절별, 토양 토성(soil texture)를 구분하여 회귀분석을 실시하였다. 관측 토양수분과 모의 토양수분을 비교한 결과 $R^2$가 0.80 (철원), 0.90 (춘천), 0.80 (수원), 0.63 (서산), 0.77 (청주), 0.82 (전주), 0.52 (순천), 0.63 (진주), 0.99 (보성)로 높은 상관성을 보였다. 본 연구에서는 토양수분을 예측하기 위한 인자 중 가장 민간함 LST를 보정하지 않는 토양수분 예측 방법은 상당한 오차를 포함하게 되어 실측 토양수분 결과와 크게 차이가 나타남을 보여주었다.

  • PDF

다중회귀모형에서 전진선택과 후진제거의 기하학적 표현 (Geometrical description based on forward selection & backward elimination methods for regression models)

  • 홍종선;김명진
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.901-908
    • /
    • 2010
  • 다중회귀모형에서 변수선택법 중에서 전진선택과 후진제거의 과정을 기하학적으로 표현하는 그래픽적 방법을 제안한다. 반지름이 1인 반원의 제1사분면에는 전진선택 과정을, 제2사분면에는 후진제거 과정을 표현한다. 각 단계에서 회귀제곱합을 벡터로 표현하고, 추가제곱합 또는 부분결정계수를 벡터 사이의 각도로 나타내며 벡터의 끝을 연결할 때 통계적으로 유의하면 점선으로 표현하여 부분가설검정의 통계적 분석결과를 인지할 수 있도록 작성한다. 이 방법을 이용하면 전진선택과 후진제거 방법에 의한 최종모형을 비교 분석하고 전체적으로 모형의 적합도를 파악할 수 있다.

국가산림자원조사 자료를 이용한 소나무의 진계생장 추정식 개발 (Development of Ingrowth Estimation Equations for Pinus densiflora in Korea Derived from National Forest Inventory Data)

  • 문가현;임종수;신만용
    • 한국산림과학회지
    • /
    • 제107권4호
    • /
    • pp.402-411
    • /
    • 2018
  • 본 연구는 국가산림자원조사(NFI) 고정표본점 자료를 기반으로 우리나라에 분포하는 강원지방소나무와 중부지방소나무의 진계생장 추정식을 개발하기 위한 목적으로 수행되었다. 이를 위해 5년 동안의 진계생장량을 파악할 수 있는 정보를 제공하는 제5차 및 제6차 NFI의 동일 표본점 자료를 활용하였다. 진계생장 추정식 개발을 위한 2단계 접근법에 따라 첫 번째 단계에서는 진계생장 발생확률을 추정하기 위해 로지스틱 회귀모형을 이용하여 분석을 수행하였으며, 두 번째 단계에서는 진계생장이 발생한 표본점만을 대상으로 회귀식을 이용하여 진계생장량을 추정하였다. 또한 최적 모형의 선정은 회귀계수가 추정된 후보모형에 대해 모형의 평균편의(MD), 모형의 정도(SDD), 그리고 모형의 표준오차(SED)의 3가지 평가통계량을 분석한 결과에 근거하여 도출하였다. 그 결과 진계확률 추정식은 진계가 발생하지 않은 표본점 수에 기반한 로지스틱 회귀모형(모형 VI)이 선정되었고, 진계생장량 추정식에는 수종구성(SC) 변수를 포함한 지수함수식(모형 VII)이 최적모형으로 분석되었다. 이상과 같이 개발된 진계생장 추정식은 다양한 임분조건에 대해 추정능력을 평가하였으며, 적합도나 활용적인 측면에서 문제가 없는 것으로 평가되었다.

0이 팽창된 포아송 회귀모형을 이용한 기부회수 자료의 재분석 (The Reanalysis of the Donation Data Using the Zero-Inflated Possion Regression)

  • 김인영;박태규;김병수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.819-827
    • /
    • 2009
  • 김인영 등 (2006)은 두 개 포아송 분포의 혼합모형에 기초한 회귀모형으로써 2002년 (사)볼런티어 21에서 실시한 설문조사 자료를 분석하여 우리나라 개인들이 기부한 횟수에 영향을 미치는 유의적 변수들을 식별하였다. 본고에서는 김인영 등 (2006)에서도 언급하였듯이 기부횟수 0의 관찰 빈도와 예측 빈도간 차이가 유독 큰 점을 감안하여, 0이 팽창된 포아송(zero inflated Poisson: ZIP)을 기존의 두 개의 포아송 혼합분포에 추가하여 일종의 세 개 포아송 혼합분포 형태로 모집단 분포를 구성하며 동 모형의 회귀모형으로써 기부횟수 자료를 재분석하고자 한다. 회귀계수에 대한 추정은 두 단계 EM 알고리즘으로 이루어 졌고, 유의적 설명 변수의 검색은 김인영 등 (2006)과 같았으나 본 연구에서는 고정된 령(零)군의 비율을 0.201로 추정할 수 있었으며, 두 가지 유의적 설명변수인 소득과 자원봉사 중에서 자원봉사가 기부 횟수를 늘리는 안정적 도구 변수로써 작용할 수 있음을 보고하고 있다.