• 제목/요약/키워드: 평균회귀

검색결과 2,326건 처리시간 0.033초

공변량을 이용한 한국프로야구 관중 수 예측에 대한 고찰 (A study on prediction for attendances of Korean probaseball games using covariates)

  • 한가희;정지규;유재근
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1481-1489
    • /
    • 2014
  • 한국 프로야구 총 관중수 예측에 대해 기존의 선행 연구에서는 주로 자기회귀누적이동평균 모형이 사용되고 있다. 본 논문에서는 공변량을 고려한 자기회귀누적이동평균 모형과 성장곡선 모형을 이용하여 프로야구 관중 수에 대한 예측 모형을 제시하고 기존의 선행 연구 모형과 비교하고자 한다. 공변량을 이용한 모형을 사용함으로써 기존의 선행 연구 모형보다 보다 개선된 예측력을 얻을 수 있었다. 이는 통계적 자료분석에서 한 가지 방법보다는 다양한 방법을 시도한 후 비교, 논의를 통하여 자료를 가장 잘 설명해 줄 수 있는 최적 방법을 찾아야 한다는 사실을 확인할 수 있다.

음이항회귀모형을 이용한 꽃게 출하량에 관한 연구 (A Study on Shipments of Swimming Crab Using Negative Binomial Regression Model)

  • 남영은;서지현;최가영;이경준
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2941-2951
    • /
    • 2018
  • 본 연구는 해양기상관측자료인 평균 풍속, 평균 기압, 평균 상대습도, 평균 기온, 평균 수온, 평균 최대파고, 평균 유의파고, 최고 유의파고, 최고 최대파고, 평균 파주기, 최고 파주기 등의 요인들이 꽃게의 출하건수에 미치는 영향을 음이항 회귀모형을 통해 확인하고 모형적합을 시도하였다. 염분과 수온이 갑각류의 성숙 및 산란에 영향을 미치며, 특히 수온은 성장에 관여하는 대사 작용에 영향을 끼친다고 알려져 있고 최근 지구온난화로 인해, 얼음이 녹으면서 바다의 유의, 최대, 평균파고와 파주기, 그리고 수온까지 영향을 미치고 있어 꽃게 출하건수를 예측하는데 있어 중요한 변수라고 생각할 수 있다. 분석결과 꽃게의 출하건수에 영향을 주는 요인은 평균 풍속, 평균 기압, 평균 상대습도, 평균 해수온도, 최대 파고, 평균 파주기, 최대 파주기로 결정되었다. 꽃게의 출하건수는 평균 풍속, 평균 기압, 평균 상대습도, 평균 해수온도, 평균 파주기가 높을수록 증가하는 경향을 보이고 있고, 최대 파고, 최대 파주기가 낮을수록 꽃게의 출하건수는 증가하는 경향을 보이고 있었다.

다중회귀 분석을 이용한 영화 흥행 예측 (Predicting Financial Success of a Movie Using Multiple Regression Analysis)

  • 정회윤;양형정
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.275-278
    • /
    • 2013
  • 영화의 흥행 요소를 파악하여 영화의 흥행 여부를 예측하는 것은 영화의 수익성 부분에서 아주 중요하다. 영화 시장이 과거와는 다르게 증가함에 따라, 다양한 영화 흥행에 관한 예측 연구들이 개발되었다. 본 논문에서는 영화 흥행 요소들을 수집하고 다중회귀 분석을 통해서 유의수준을 만족하는 흥행 요소들을 선택한다. 그 후, 이러한 요소들을 예측 방법들의 입력값으로 사용하여 영화 흥행을 예측한다. 성능을 비교하기 위해 본 논문에서 제안한 방법과 현재 개발된 영화 흥행 예측 방법(다중회귀, 의사결정트리, 인공신경망)들을 정확도와 평균제곱근오차를 통해 예측 모형의 성능을 비교한다. 그 결과, 다중 회귀 분석을 통해 유의한 흥행요소들만을 고려한 예측 방법의 정확도가 모든 흥행 요소들을 고려한 예측 방법보다 평균 8.2% 향상되었고, 현재까지 개발된 영화 흥행 예측 방법보다 더 높은 예측 성능을 보여준다.

  • PDF

식중독 발생 예측모형 (Models for forecasting food poisoning occurrences)

  • 여인권
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1117-1125
    • /
    • 2012
  • 식중독 발생에 대한 기존 연구에서는 기온과 습도와 같은 기후변수가 주된 설명변수로 취급되어 왔다. 이 논문에서는 주별 식중독 발생건수와 기후변수 간에 관계를 고찰하고 식중독 발생건수를 예측하기 위한 모형으로 포아송 회귀모형과 자기회귀이동평균모형을 비교한다. 비교결과 우리나라 식중독 발생은 시차를 두고 기후 변수에 영향을 많이 받고 있으나 식중독 발생 예측은 이들 변수보다 이전 시점의 식중독 발생 건수에 더 많이 영향을 받는 것으로 나타났으며 포아송 회귀모형은 예측의 관점에서 문제가 있음을 보였다.

범함수 회귀모형을 이용한 성장단계별 양파무게의 추정 (Estimation of Onion Weight on Growth Stages Using Functional Regression Model)

  • 조완현;나명환;김준기;김덕현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.858-860
    • /
    • 2019
  • 본 논문에서 우리는 범함수 회귀모형을 이용한 양파의 성장단계별 무게를 예측할 수 있는 새로운 통계적 추정방법을 제안한다. 여기서 우리는 풍속, 평균온도, 강우량, 일조량 그리고 습도 등 나타내는 환경요인들을 설명변수들로 사용하고, 양파의 성장단계별 무게를 반응변수로 사용하여 범함수 회귀모형을 적용하였다. 먼저 그래프분석과 상관분석을 통하여 우리는 일일 평균온도는 양파의 무게 증진에 가장 큰 양의상관이 있고, 풍속이나 습도 그리고 일조량들은 양파의 성장에 약간의 영향력이 있으며 강우량은 양파의 성장에 전혀 도움이 안됨을 알 수 있었다. 두 번째로 범함수 회귀 분석을 통하여 얻어진 각 환경요인들에 대한 회귀계수들의 그림을 통하여 우리는 양파의 성장 기간 동안에 이들의 무게를 향상시키기 위해서는 어떻게 환경요인들을 관리해야 되는 가를 알 수 있는 재배방법을 유도하였다.

KOSPI200 옵션의 내재변동성 추정 (An estimation of implied volatility for KOSPI200 option)

  • 최지은;이장택
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권3호
    • /
    • pp.513-522
    • /
    • 2014
  • 옵션가격의 결정에 있어서 실제 변동성은 사후에 알 수 있는 정보이므로 대용값으로 내재변동성을 가장 많이 사용하는데 본 연구에서는 동일한 기초자산을 가진 옵션의 잔존만기와 행사가격을 이용하여 내재변동성을 추정하고자 한다. KOSPI200 옵션 데이터와 서포트벡터회귀, 나무모형 및 회귀모형을 통해 모형의 설명력을 평균제곱근오차 (RMSE)와 평균절대오차 (MAE)를 사용하여 살펴보았다. 그 결과 서포트벡터회귀와 MART의 성능이 최소제곱회귀보다 우수한 것으로 나타났으며, 서포트벡터회귀와 MART의 성능은 거의 비슷하였다.

비대칭 라플라스 분포를 이용한 분위수 회귀 (Quantile regression using asymmetric Laplace distribution)

  • 박혜정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권6호
    • /
    • pp.1093-1101
    • /
    • 2009
  • 분위수 회귀모형은 확률변수들 사이에 확률적인 관계구조를 포함한 함수 모형을 좀 더 완벽하게 추정하도록 제공한다. 본 논문에서는 함수 추정에 로버스트하다고 알려져 있는 서포트벡터기계 기법과 이중벌칙커널기계를 이용하여 분위수 회귀모형을 추정하고자 한다. 이중벌칙커널기계는 고차원의 입력변수에 대한 분위수 회귀가 요구될 때 분위수 회귀모형을 잘 추정한다고 알려져 있다. 또한 본 논문에서는 광범위한 형태의 분위수 회귀모형 추정을 위해서 정규분포보다 비대칭 라플라스 분포를 이용한다. 본 논문에서 제안한 모형은 분위수 회귀모형 추정을 위해서 서포트벡터기계 기법에 이중벌칙커널기계를 이용하여 각각의 평균과 분산을 동시에 추정한다. 평균과 분산함수 추정을 위해 사용된 커널함수의 모수들은 최적의 값을 찾기 위해 일반화근사 교차타당성을 이용한다.

  • PDF

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

일반 선형 모형에 대한 공분산 행렬의 비교 (Comparison of the covariance matrix for general linear model)

  • 남상아;이근백
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.103-117
    • /
    • 2017
  • 경시적 자료분석에서 공변량 효과를 추정할 때 반복 측정된 결과들의 상관성은 고려되어야 한다. 따라서 공분산 행렬을 모형화하는 것은 매우 중요하다. 그러나 공분산 행렬의 추정은 모수들의 수가 많고 추정된 공분산행렬이 양정치성을 만족해야 하므로 쉽지 않은 문제이다. 이러한 제한을 극복하기 위해, 공분산행렬의 모형화를 위한 여러가지 방법을 제안하였다: 자기회귀/이동평균/자기회귀-이동평균 구조를 각각 적용한 수정 콜레스키분해 (Pourahmadi, 1999), 이동평균 콜레스키분해 (Zhang과 Leng, 2012)와 자기회귀-이동평균 콜레스키 분해 (Lee 등, 2017) 이들 구조를 가지는 공분산 행렬의 특징을 비교연구하고자 한다. 이 세 가지 모형의 성능을 비교하기 위한 모의실험을 실시한다.

Gumbel 분포를 이용한 전국의 비정상성 빈도 해석 (National Nonstationary Frequence Analysis Using for Gumbel Distribution)

  • 김광섭;이기춘
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2011년도 학술발표회
    • /
    • pp.379-379
    • /
    • 2011
  • 본 연구는 우리나라 전국 기상관측소 중 1973년부터 2009년까지의 시 강수자료가 구축되어 있는 기상관측소 55개 지점에 대하여 비정상성 빈도해석을 수행하였다. 각 지점에 대하여 지속시간 1시간, 24시간에 대한 연 최대 강수량 자료를 구축하여 초기 20년을 기준으로 1년씩 추가한 연 최대 강수량 누적 자료를 생성하고, 생성된 기간별 자료의 평균, 위치매개변수, 축척매개변수를 산정하였으며, 위치매개변수와 축척매개변수는 확률가중모멘트법을 사용하여 산정하였다. 산정된 연 최대 평균 누적 강수량과 연도와의 선형 회귀식을 산정하여 목표연도별(2040, 2070, 2100년) 평균 강수량을 산정하였고, 위치매개변수와 축척매개변수도 평균 누적 강수량과의 선형 회귀식을 산정함으로써, 목표연도에 해당하는 각 매개변수를 산정하였다. 또한 산정된 목표연도별 평균 강수량, 위치매개변수와 축척매개변수를 이용해 확률강수량을 산정하였다. 비정상성 빈도해석을 수행하여 산정된 55개 지점에 대한 목표연도별 확률강수량을 Inverse Distance Weighted(IDW) 보간법을 사용하여 전국의 확률강수량을 공간적으로 표현하였다. 전국단위의 비정상성 빈도해석을 실시한 결과, 전체적으로 각 목표연도별 확률강수량이 증가하는 것으로 나타났으나, 일부 감소하는 지역도 나타났다. 경기도와 강원도 등 중부지역에서 확률강수량의 증가가 큰 것으로 나타났으며, 특히 강원도(강릉, 인재 등) 지역에서 확률강수량의 증가폭이 가장 크게 나타났다. 또한 남해지역에서는 대부분 확률강수량이 감소하는 것으로 나타났고, 그중에서 전라남도 남해안 부근(장흥 등)에 확률강수량의 감소가 가장 크게 나타났으며, 경북지역과 전북지역 부근에서는 증가 또는 감소의 차이가 미비하게 나타났다. 하지만 목표연도 2070년과 2100년에 대하여 산정된 확률강수량으로부터 선형 회귀식을 통해 목표연도별 평균 강수량, 위치매개변수, 축척매개변수를 추정하여 확률강수량을 산정하는 것에 한계가 있음을 보여주었다.

  • PDF