• 제목/요약/키워드: 단계별 회귀

검색결과 284건 처리시간 0.028초

군집분석 기법과 단계별 회귀모델을 결합한 예측 방법 (A Prediction Method Combining Clustering Method and Stepwise Regression)

  • 정일교;전치혁
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2002년도 춘계공동학술대회
    • /
    • pp.949-952
    • /
    • 2002
  • A regression model is used in predicting the response variable given predictor variables However, in case of large number of predictor variables, a regression model has some problems such as multicollinearity, interpretation of the functional relationship between the response and predictors and prediction accuracy. A clustering method and stepwise regression could be used to reduce the amount of data by grouping predictors having similar properties and by selecting the subset of predictors. respectively. This paper proposes a prediction method combining clustering method and stepwise regression. The proposed method fits a global model and local models and predicts responses given new observations by using both models. The paper also compares the performance of proposed method with stepwise regression via a real data of ample obtained in a steel process.

  • PDF

링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발 (A Data Fusion Algorithm for Link Travel Time Estimation)

  • 최기수;정연식
    • 대한교통학회지
    • /
    • 제16권2호
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

Redis 파라미터 분류 및 단계적 베이지안 최적화를 통한 파라미터 튜닝 연구 (A Study on Parameter Tuning for Redis via Parameter Classification and Phased Bayesian Optimization)

  • 조성운;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.476-479
    • /
    • 2021
  • DBMS 파라미터 튜닝이란 데이터베이스에서 제공하는 다양한 파라미터의 값을 조율하여, 최적의 성능을 도출하는 과정이다. 데이터베이스 종류에 따라 파라미터 개수가 수십 개에서 수백 개로 다양하며, 각 기능이 모두 다르기 때문에 최적의 조합을 찾는 것은 쉽지 않다. 선행 연구에서는 BO 기법을 사용하여 적절한 파라미터 값을 추출했지만, 파라미터 개수에 비례하여 차원이 커지는 문제가 발생한다. 본 논문에서는 통계적으로 파라미터를 분류하여 탐색 공간을 줄인 다음 단계적으로 BO 를 수행하는 PBO 방식을 제안한다. 파라미터 값을 랜덤하게 할당하여 벤치마킹한 결과값을 군집화한 후, 각 군집별로 파라미터와의 연관성을 분석해 높은 상관관계를 가진 파라미터를 매칭시켜 분류한다. 제안하는 방법론을 검증하기 위하여 8 가지 회귀 모델과의 비교 실험을 통해 제안한 방법론의 우수성을 검증하였다.

다변량 크리깅과 KOMPSAT-2 영상을 이용한 간석지 표층 퇴적물 분류 (Surface Sediments Classification in Tidal Flats using Multivariate Kriging and KOMPSAT-2 Imagery)

  • 이상원;박노욱;장동호;유희영;임효숙
    • 한국지형학회지
    • /
    • 제19권3호
    • /
    • pp.37-49
    • /
    • 2012
  • 이 논문의 목적은 간석지 표층 퇴적상 분류를 목적으로 다변량 크리깅을 기반으로 고해상도 원격탐사 자료와 현장 조사 자료를 결합하는 방법론을 제안하는데 있다. 퇴적물 성분에 따라 미리 범주화시킨 퇴적물 자료를 사용하여 원격탐사 자료를 분류하는 기존 방법론과 달리 현장 조사 자료와 원격탐사 자료를 이용하여 퇴적물 성분별 분포도를 제작한 후에 최종 단계에서 범주화 시키는 분류 방법론을 제안하였다. 퇴적물 성분별 분포도 제작 과정에서 현장 조사 자료와 원격탐사 자료의 결합을 위해 다변량 크리깅 기법인 회귀 크리깅 기법을 이용하였다. 우선 현장조사 자료의 모래, 실트, 점토 성분별로 고해상도 원격탐사 자료의 분광 정보와 회귀 분석을 수행하여, 각 성분별 경향 성분을 추출하였다. 그리고 현장 조사 자료 위치에서 잔차를 계산한 후에, 잔차에 대해 크리깅을 적용하여 잔차분포도를 얻게 된다. 이후 성분별 경향 성분과 잔차 성분을 합하여 성분별 비율 분포도를 작성한 후에 최종 단계에서 퇴적상 분류를 수행하게 된다. 제안 기법의 적용성 평가를 위해 바람아래 간석지를 대상으로 고해상도 KOMPSAT-2 자료를 이용한 사례 연구를 수행하였다. 사례 연구를 통해 제안 기법이 기존 분류 방법에 비해 상대적으로 높은 분류 정확도를 나타내었으며, 특히 세립질 퇴적물 분류에 더 우수한 것으로 나타났다. 따라서 제안 기법은 원격탐사 자료를 이용한 간석지 표층 퇴적상 분류에 유용하게 사용될 수 있을 것으로 기대된다.

조건부 합성기법과 MODIS LST를 활용한 토양수분 다중선형 회귀모형 산정 연구 (A Study on Estimation of Soil Moisture Multiple Linear Regression Model Using Conditional Merging and MODIS Land Surface Temperature Data)

  • 정충길;이지완;김다래;김세훈;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.103-104
    • /
    • 2017
  • 본 연구에서는 다중회귀분석모형(MLRM)과 MODIS (MODerate resolution Imaging Spectroradiometer) LST (Land Surface Temperature) 자료를 이용하여 전국 공간토양수분을 산정하였다. 공간토양수분을 산정하기 위한 과정은 크게 두가지로 구분된다. 첫 번째로 기존의 MODIS LST 자료를 조건부 합성 보정기법을 적용하여 실측 LST 자료와 비교하여 위성 LST 자료가 갖고 있는 오차를 보정하였다. 그 결과, 조건부 합성 보정기법을 적용하기전 전국 71개 지상 관측지점에서 관측한 실측 LST와 MODIS LST의 R2는 전체 평균 0.70으로 어는정도 유의성 있는 상관관계를 나타냈으나 조건부 합성 보정기법을 적용한 후 실측 LST와 MODIS LST의 R2는 전체 평균 0.92로 상당히 크게 향상됨을 알 수 있었다. 두 번째로 보정된 MODIS LST를 이용하여 다중회귀분석 모형을 개발하고 토양수분을 예측하는 단계로 입력자료로 위성영상 자료와 관측자료를 융합하여 사용하였다. 위성영상 자료로는 보정된 MODIS LST와 MODIS NDV를 구축하였고 일단위 강수량 및 일조시간의 기상자료는 기상청으로부터 전국 68개 지점에 대해 구축하여 IDW 공간보간기법을 이용한 공간자료로 구축하였다. 토양수분 결과를 비교하기 위한 관측 토양수분은 자동농업기상관측(Automated Agriculture Observing System, AAOS)지점에서 2013년 1월부터 2015년 12월까지의 실측 일단위 토양수분 자료를 구축하여 사용하였다. 다중회귀분석 모형은 각각의 입력자료를 독립인자로서 조합하여 12개의 시나리오를 만들었다. 시공간적 경향을 고려하기 위하여 계절별, 토양 토성(soil texture)를 구분하여 회귀분석을 실시하였다. 관측 토양수분과 모의 토양수분을 비교한 결과 $R^2$가 0.80 (철원), 0.90 (춘천), 0.80 (수원), 0.63 (서산), 0.77 (청주), 0.82 (전주), 0.52 (순천), 0.63 (진주), 0.99 (보성)로 높은 상관성을 보였다. 본 연구에서는 토양수분을 예측하기 위한 인자 중 가장 민간함 LST를 보정하지 않는 토양수분 예측 방법은 상당한 오차를 포함하게 되어 실측 토양수분 결과와 크게 차이가 나타남을 보여주었다.

  • PDF

로지스틱 회귀모형을 이용한 유족연금 수급 분석 (Analysis on the Survivor's Pension Payment with Logistic Regression Model)

  • 김미정;김진형
    • 응용통계연구
    • /
    • 제21권2호
    • /
    • pp.183-200
    • /
    • 2008
  • 국민연금의 효율적인 운영을 위하여 고령화, 저출산과 같은 사회현상에 대비한 연금 관리를 위한 연구가 요구되고 있다. 본 연구는 유족연금의 발생을 예측하고 유족연금의 발생가능성 정도에 따라 대상자들을 분류하기 위한 통계적 모델을 제안하기 위하여 두 단계의 로지스틱 분석을 실시하였다. 첫 단계의 분석으로부터, 전체 대상자에 대하여 유족연금의 발생에 영향을 주는 주요인의 특성과 국민연금의 종류를 파악하고 이를 대상으로 유족연금의 발생에 대한 로지스틱 회귀모형을 적용하되 대상자를 합리적으로 등급화하기 위한 모델을 제안하고 이를 일반적인 로지스틱모델과 비교하였다. 정확도, 민감도, 특이도와 사후 확률의 분포를 비교하고 K-S통계량을 통하여 등급의 타당성 평가와 리프트 그래프를 통한 모델의 예측력평가를 함으로써 합리적 등급분류를 통한 대상자관리가 가능한 통계적 모델임을 보였다. 예측된 통계적 모델을 적용하여 유족연금 수급유무와 등급별 분류, 등급에 따른 유족연금액 예측을 통하여 효율적인 연금관리 방안을 제안할 수 있다.

전대수 다항식형 확률강우강도식의 최적차수 결정 및 회귀계수에 대한 유의성 검정 (Determination of optimal order for the full-logged I-D-F polynomial equation and significance test of regression coefficients)

  • 박진희;이재준
    • 한국수자원학회논문집
    • /
    • 제55권10호
    • /
    • pp.775-784
    • /
    • 2022
  • 본 연구에서는 임의지속기간의 확률강우량 산정을 위해 실무에서 주로 사용되고 있는 전대수 다항식형 확률강우강도식의 최적차수 결정을 위하여 경상북도 내 9개 지점을 대상으로 확률강우량을 산정하고 전대수 다항식형 강우강도식의 회귀계수를 추정하였다. 추정된 지점별 다항식을 대상으로 단계선택법을 이용하여 각 지점별 다항식의 최적변수를 선정하고 선정된 변수들의 통계적 유의성을 검토하기 위하여 분산분석을 통한 유의성 검정을 실시하였으며, 이들 결과를 이용하여 각 지점별 통계적으로 적절하게 산정된 강우강도식을 제시하였다. 경북 9개 지점의 전대수 다항식형 강우강도식의 변수선정 결과는 6개 지점에서 1~3차식이 최적식으로 나타났고 1개 지점이 불완전 3차식이 최적식으로 나타났다. 그 중 1차는 Sherman 식, 2차는 General 식의 형태와 유사하므로 독립변수의 수를 증가시켜 적합도를 높이고 사용 편의를 위해 통일된 형태의 강우강도식으로 제시한다면 전대수 다항식형 강우강도식은 3차 회귀식까지만 고려하여도 통계학적으로 문제가 없는 것으로 판단된다.

확률 분포 곡선을 이용한 다중 수위-유량 곡선 단순화 (Simplification of Multiple Stage-Discharge Curves by Using Probability Distribution Curve)

  • 김태진;김정호
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.284-284
    • /
    • 2018
  • 대부분의 물분쟁의 경우 강 또는 호수를 공유하고 있는 국가 간에 발생하고 있으며 국내에도 제한된 물로 인하여 다양한 지역에서 물 분쟁이 발생하고 있다. 이렇듯 물 부족으로 인한 물분쟁 현상은 점차 심화되고 있으며 특히 강을 공유하고 있는 인접지역에서 발생할 가능성이 높아지고 있다. 본 연구에서 Water Rights Analysis Package (WRAP) 모델의 국내 적용을 위한 기초자료 구축단계로서 수위별로 되어 있는 수위-유량 관계 곡선식을 단순화하여 자연하천유량 산정을 위한 절차를 간편화하였다. 첫째, 확률 분포곡선을 이용한 수위 자료 구간별 구분; 둘째, 구분된 수위 자료에 대한 회귀 분석 실시; 셋째, 실측 유량 자료 및 모의 유량 자료를 이용한 신뢰도 산정 및 비교를 통한 본 연구결과에 대한 타당성 검토를 수행하였다.

  • PDF

기상자료를 이용한 마늘 생산량 추정 (Garlic yields estimation using climate data)

  • 최성천;백장선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.969-977
    • /
    • 2016
  • 야외에서 재배되는 주요 채소류의 생산에 대한 기상변화의 영향력이 점차 커지고 있다. 기상변화로 인한 농작물 생산량의 변화는 공급과 수요의 불안정과 물가안정의 불안요소로 작용하고 있다. 본 논문에서는 패널회귀모형을 이용하여 기상상태에 따른 마늘의 생산량을 추정하였다. 2006년부터 2015년까지의 마늘 주산지 15곳의 10a당 마늘 생산량과 해당 지역의 기상자료를 사용하였다. 7가지 기상요인 (평균기온, 평균최저기온, 평균최고기온, 누적강수량, 누적일조시간, 평균상대습도, 평균지면온도)의 월별 (1월-12월)자료인 총 84개 기상변수중 다중회귀분석 단계선택방법을 통하여 7가지 기상변수를 선택하여 패널회귀모형에 사용하였다. 고정효과 모형과 확률효과 모형을 구분하는 하우스만 검정을 통하여 확률효과 모형으로 분석한 결과 평균최고기온 (1월), 누적강수량 (3월, 10월), 누적일조시간 (4월, 10월)등이 마늘 생산량 추정에 유의한 변수로 나타났다. 또한 연도별로 추정된 생산량 추정값의 추이가 실제 생산량과 동일한 추세를 보이고 있어 제안된 패널 회귀 모형이 잘 적합됨을 확인할 수 있다.

디지털 매체 기술과 제품 구매 태스크의 적합성 탐색 (Exploring the Technology Fit of Digital Media on Product Shopping Task)

  • 한현수;정석인
    • 한국전자거래학회지
    • /
    • 제16권4호
    • /
    • pp.283-299
    • /
    • 2011
  • 본 연구에서는 태스크-기술 적합 이론에 기반하여 TV홈쇼핑, 인터넷 쇼핑, 브로드밴드 응용(IPTV) 등 3개의 가상 쇼핑 채널에 대한 소비자 선호에 영향을 주는 적합요인을 탐색하였다. 적합 요인 탐색은 오프라인 대비 웹에서 제품 구매 시 불확실성에 가장 큰 영향을 주는 품질 파악 관점에서의 제품 분류 유형인 quasi-commodity, look and feel 제품, 그리고 look and feel with variable quality 제품 등 3개의 제품군 별로 차별화하였다. 이론적으로 도출한, 3개의 가상 쇼핑 환경에서 3개의 유형별 제품을 구매할 때 소비자의 채널 선호에 영향을 주는 적합 속성에 대한 검증은 서베이 데이터를 이용해 단계별 회귀분석 기법을 적용하여 실증적으로 분석하였다. 또한 ANOVA와 Duncan 사후 분석을 통하여 3개의 가상 채널과 제품 유형 별로 적합 속성의 상대적 중요성을 비교 분석하여 시사점을 제시하였다. 본 연구를 통하여 3개의 가상 쇼핑 채널이 기반하고 있는 미디어 기술과 다양한 제품 구매 태스크의 적절한 매칭을 위한 4가지 주요 적합 속성과 상대적 차별성이 파악되었으며, 본 연구결과는 디지털 융합 기반 쇼핑 채널 설계에 유용한 시사점을 제공할 수 있다.