• 제목/요약/키워드: 예측변수

검색결과 4,530건 처리시간 0.034초

랜덤포레스트를 위한 상관예측변수 중요도 (Correlated variable importance for random forests)

  • 신승범;조형준
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.177-190
    • /
    • 2021
  • 랜덤포레스트는 여러 의사결정나무 모형들을 융합하여 안정성과 예측력을 높여주기 때문에 종종 사용되는 방법이다. 예측력을 증가시키는 반면 해석의 용이성을 희생하기 때문에 이를 보상하기 위해 변수의 중요도를 제공한다. 변수의 중요도는 랜덤포레스트를 구축할 때 변수가 얼마나 중요한 역할을 하는지를 알려 준다. 그러나 어떤 예측변수가 다른 예측변수들과 상관되어 있을 때 기존 알고리즘의 변수중요도는 왜곡될 수 있다. 상관된 예측변수들의 하향 편향은 예측변수의 중요도를 실제 중요도보다 낮게 측정하게 한다. 우리는 기존 알고리즘을 수정하여 상관 예측변수의 하향 편향을 회복하는 새로운 알고리즘을 제안한다. 제안된 알고리즘의 성능은 모의 자료에 의해 증명되고 실제 자료에 의해 설명된다.

회귀나무에서 변수선택 편의에 관한 연구

  • 김민호;김진흠
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.263-268
    • /
    • 2003
  • Breiman, Friedman, Olshen and Stone(1984)의 전체탐색법에 의한 회귀나무는 상대적으로 많은 분리가 가능한 변수로 분리기준이 정해지는 편의 현상을 갖고 있다. 본 연구에서는 이런 문제점을 해결할 수 있는 알고리즘을 제안하여 변수선택편의가 없는 회귀나무를 만들고자 한다. 제안하는 알고리즘은 노드의 분리변수를 선택하는 단계와 그 선택된 변수에 의해 이진분리를 위한 분리점을 찾는 단계로 구성되어 있다. 예측변수 중에서 목표변수와 가장 밀접하게 연관된 예측변수는 예측변수의 자료의 종류에 따라 스피어만의 순위상관계수에 의한 검정 혹은 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 가장 통계적으로 유의한 변수로 선택하였고, 선택된 변수에만 Breiman et al.(1984)의 전체선택법을 적용하여 분리점을 결정하였다. 모의실험을 통해 변수선택편의, 변수선택력 , 그리고 평균제곱오차 측면에서 Breiman et al. (1984)의 CART(Classification and Regression Trees)와 제안한 알고리즘을 서로 비교하였다. 또한, 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

  • PDF

OLS 및 변수선택법에 의한 다중선형회귀모형 매개변수 산정 (Parameter Estimation for Multiple Linear Regession Model by OLS and Stepwise)

  • 김경탁;김주훈;박정술
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.1161-1165
    • /
    • 2006
  • 본 연구는 OLS 및 변수선택법에 의해 통계학적 모형의 매개변수를 산정하여 모형의 적용성을 입증하고 하천 주요지점에 대한 홍수위 예측을 통해 홍수예보 및 예측 업무에 기여코자하는데 연구목적이 있다. 다중선형회귀모형을 구성하기 위한 독립변수는 예보지점의 수위/유출량 자료와 상류지점의 수위/유출량 자료, 그리고 유역의 선행 평균강우량 등의 자료를 독립변수로 하여 통계학적 홍수예측을 위한 다중선형 회귀모형을 각각 구성하여 적합성 여부를 판단하였다. 매개변수 산정은 OLS(Ordinary least square root method)와 변수선택(Stepwise)방법에 의해 산정하였으며, 중랑천 유역의 2002년부터 2005년까지의 수문사상 16개를 선정하여 모형에 적용한 결과 두 매개변수 산정방법 모두 30분에서 90분 예측은 상대적으로 정확한 결과를 나타내었으며, OLS 및 변수선택법에 의한 매개변수 산정결과 변수선택법에 의한 방법이 OLS 방법보다는 상관성이나 효율지수면에서 조금 더 정확한 값을 나타내고 있으나 독립변수의 일관성을 감안한다면 변수선택법보다는 OLS방법에 의한 매개변수 산정이 타당할 것으로 사료된다. 기존의 홍수예보 업무에 활용되고 있는 수문학적 홍수예측 모형인 저류함수법의 여러 매개변수 조정에 의한 홍수위 예측 방법보다는 비교적 간단한 통계적 방법에 의한 홍수위 예측 방법으로 홍수예보의 선행시간 확보가 필수적인 중랑천과 같이 유역면적이 작은 중소하천에서의 홍수예보 업무에 효과적으로 이용 가능할 것으로 사료된다.

  • PDF

PCA를 활용한 기업실적 예측변수 생성 (Generating Firm's Performance Indicators by Applying PCA)

  • 이준혁;김갑조;박상성;장동식
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.191-196
    • /
    • 2015
  • 최근 기업의 실적 및 주가를 예측하기 위해 매출액증가율, 부채비율 등의 다양한 예측변수를 활용하여 정량적인 예측방법을 활용하는 연구가 많이 이루어지고 있다. 기업실적 및 주가를 정량적 예측하기 위해 수많은 예측변수들 중에서 모델구축을 위해 중요한 예측변수를 선정하는 것이 중요하다. 대부분의 기존연구들에서는 다양한 알고리즘을 활용하여 예측변수들을 제거하는 방법을 사용하는 경우가 많았다. 이러한 경우 각 예측변수들이 가지는 많은 정보들이 제거되는 문제점이 존재한다. 이러한 문제점을 해결하기 위해 본 연구에서는 예측모델 구축을 위해 예측변수들을 제거하는 대신 각 변수들이 가지고 있는 정보를 병합하여 새로운 변수를 생성하는 대표적인 차원축소 방법인 주성분분석(PCA)을 활용하였다. 본 연구에서는 제안된 예측모델을 미국의 전자, 전기기업의 재무정보를 활용하여 구축하고 예측성능을 실증적으로 분석해 보았다.

회계위험변수 베타예측모형과 위험수준별 예측오차분석 (Accounting Risk Variables Beta Prediction Model and Forecasting Error Analysis by Risk Levels)

  • 박순식
    • 재무관리연구
    • /
    • 제16권2호
    • /
    • pp.215-241
    • /
    • 1999
  • 본 연구는 우리나라 상장기업중 금융 보험업을 제외하고 비교적 상장기업수가 많은 9개 산업에서 임의로 선정한 180개 표본기업을 분석대상으로 하였다. 1989년 1월부터 1996년 12월까지를 분석대상기간으로 설정하여 베타계수 예측능력을 향상시키기 위한 회계위험변수모형의 예측능력을 평가하고 위험수준별 예측능력에 차이가 있는지도 분석하였다. 아울러 베타계수 추정시 사용된 수익률 측정간격에 빠른 베타계수의 안정성과 회계위험변수모형의 예측능력을 분식하였다. 본 연구의 중요한 결과를 요약하면 다음과 같다. 첫째, 포트폴리오를 구성한 경우 수익률 측정기간에 관계없이 일관되게 예측오차가 유의적으로 적게 나타나 회계위험변수모형의 베타계수 예측능력이 우수하였으며 베타계수예측에 회계 변수의 유용성이 확인되었다. 둘째, 위험수준에 따른 베타계수의 안정성 분석에서는 중위험집단의 베타가 안정성이 높았으며 고위험집단에서 예측오차가 가장 크게 나타나 불안정하였다. 회계위험변수모형의 예측능력은 위험수준에 관계없이 단순모형보다 우수하여 베타예측에 회계정보의 유용성을 일반화시킬 수 있을 것이다. 셋째, 수익률 측정간격에 따른 베타계수의 안정성과 예측능력 분석에서는 월별수익률을 이용하는 경우보다 주별수익률을 이용하는 경우 추정베타의 안정성이 높고 베타계수 예측모형의 예측능력이 향상되는 것으로 나타났다. 넷째, OLS베타를 수정하지 않고 이용하는 경우보다 Bayesian 기법으로 수정한 Bayesian수정 베타를 이용할 경우 예측오차가 감소하여 Bayesian 수정기법의 유용성이 확인되었다.

  • PDF

장부가치와 주당 이익을 이용한 선형회귀모형과 신경망모형의 주가예측 (Predicting Stock Prices using Book Values and Earnings-per-Share Based on Linear Regression Model and Neural Network Model)

  • 최성섭;구형건;김영권
    • 재무관리연구
    • /
    • 제17권1호
    • /
    • pp.161-180
    • /
    • 2000
  • 본 연구는 주가를 예측하는데 있어서 선형 회귀모형을 이용하는 방법과 비선형 인공신경망 모형을 이용하는 방법을 비교 분석하여, 어떤 모형이 더 우수한 예측성과를 내는지를 검증한다. 자본시장에서 투자자들은 접근하는 정보가 다르고 각기 상이한 예측 변수들을 토대로 나름대로의 예측치를 만들어 낸다. 이렇게 볼 때 개별 투자자들이 이용하는 다양한 정보집합을 결합하여 단일의 뛰어난 정보집합을 만들어내는 것은 매우 어려운 과제이다. 따라서 본 연구에서는 이용 가능한 소수의 예측 변수들을 어떤 방식으로 결합하는 것이 예측오차의 분산을 최소화할 수 있는지에 대한 현실적인 접근방법을 모색하고자 한다. 거시경제변수나 시장자료를 입력변수로 사용한 기존 연구와는 달리 본 연구에서는 재무제표 정보를 입력변수로 사용하였다 즉, 대차대조표의 최종요약치인 주당 지분의 장부가치와 손익계산서의 최종요약치인 주당 순이익을 입력변수로 사용했으며 1991년부터 1995년까지의 추정(학습)결과를 토대로 모형을 선택하여 1996년의 제무제표 정보로 1997년의 주가를 예측하는 것이 본 연구의 과제이다. 연구결과, 대체로 선형회귀모형에 비해 비선형 신경망 모형이 예측오차의 분산을 감소시키는 것으로 나타났다.

  • PDF

지연 예측신경망을 이용한 적응 GPC

  • 정희태
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1527-1532
    • /
    • 2003
  • 기존의 GPC방법으로 제어하기 힘든 비선형성과 플랜트의 변수변화를 포함하는 비선형 플랜트를 지연 예측신경망을 사용하여 효과적으로 제어하는 적응 GPC방법을 제안한다 제안한 방법에서는 플랜트의 선형 변수 추정이나 근사적인 모델로부터 선형 매개변수를 구해서 선형 모델을 만들고 실제 시스템의 출력과 선형모델의 오차를 신경망의 출력으로 표현한 다음, 이 식으로부터 적응 GPC 알고리듬을 유도한다. 여기서 지연 예측신경망은 적응 GPC에 이용될 플랜트의 출력을 예측하도록 학습된다. 이와 같은 제어기를 구성함으로써 선형 변수만으로 적응 GPC 제어기가 구성되어질 경우 생기는 비선형 변수의 추정과 출력 예측 값을 계산하는 번거로움을 해결하였다.

산업군별 온라인 뉴스에 기초한 감성 예측변수를 포함하는 심층 신경망모형에 의한 주가 예측 (Prediction of stock prices using deep neural network models including an emotional predictor based on online news by industrial groups)

  • 임준형;손영숙
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.483-497
    • /
    • 2020
  • 본 연구에서는 심층 신경망모형을 사용하여 KOSPI 100의 개별 종목인 기아차 및 신세계의 주가를 예측하였다. 예측변수로는 흔히 사용되었던 기술적 변수들과 함께 온라인 뉴스로부터 도출된 감성변수를 사용하였다. 특히 소셜 네트워크 분석을 활용하여 분류된 산업군에 특화된 감성사전을 구축한 후, 감성분석을 통하여 산업군에 속하는 각 기업들의 감성점수의 평균을 산업군 감성변수로 생성하였다. 여러 예측변수들의 조합으로 이루어진 모형들 중에서 기술적 변수와 산업군의 온라인 뉴스에 기초한 감성변수를 함께 사용하였을 때 우수한 예측력과 수익률을 보여주었다.

Long Short Term Memory 모델 기반 Case Study를 통한 낙동강 하구역의 용존산소농도 예측 (Prediction of DO Concentration in Nakdong River Estuary through Case Study Based on Long Short Term Memory Model)

  • 박성식;김경회
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.238-245
    • /
    • 2021
  • 본 연구에서는 LSTM 모델을 활용하여 낙동강 하구역의 DO 농도 예측을 위한 최적 모델 조건과 적합한 예측변수를 찾기 위한 Case study를 수행하였다. 모델 매개변수 case study 결과, Epoch = 300과 Sequence length = 1에서 상대적으로 높은 정확도를 보였다. 예측변수 case study 결과, DO와 수온을 예측변수로 했을 때 가장 높은 정확도를 보였으며, 이는 DO 농도와 수온의 높은 상관성에 기인한 것으로 판단된다. 상기 결과로부터 낙동강 하구역의 DO 농도 예측에 적합한 LSTM 모델 조건과 예측변수를 찾을 수 있었다.

부분최소자승법과 변수선택을 이용한 코팅두께 예측모델 개발 (A Prediction Model for Coating Thickness Based on PLS Model and Variable Selection)

  • 이혜선;이영록;전치혁;홍재화
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.295-304
    • /
    • 2010
  • 산업체 공정과정에서 타겟품질변수의 실시간 예측과 관리는 품질제고, 수익율 향상에 중요한 관건이 된다. 본 연구는 내지문강판의 코팅두께를 비파괴적이고 신속한 방법으로 예측하여 균일한 품질의 강판을 생산하기 위해 UV스펙트럼데이터를 이용한 최적예측모델을 개발하고자 한다. 부분최소자승법에서 변수중요도척도를 이용한 변수선택방법은 노이즈성 영역의 독립변수를 줄임으로써 예측정확도는 높일 수 있으며, 스펙트럼데이터의 경우 원데이터보다 적절한 데이터전처리가 예측정확도를 높이는 정보를 제공하기도 한다. 본 연구에서는 부분최소자승법 예측모텔에서 변수선택방법과 데이터전처리효과가 내지문강판 코팅두께 예측정확도 향상에 기여하는 결과를 제공하고, 스펙트럼 데이터를 이용한 품질변수 예측모델 개발 시 적용할 수 있는 일반적인 변수선택방법과정을 제안한다.