• Title/Summary/Keyword: 랜덤 포레스트 회귀

검색결과 81건 처리시간 0.03초

회귀 분석을 통한 경마 순위 예측 모형 (A Model for Predicting Horse Racing Ranking by Regression Analysis)

  • 허태성;송민섭;고동수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.15-16
    • /
    • 2022
  • 본 논문에서는 국내 합법 사행산업의 가장 큰 비중을 차지하는 경마에 대한 데이터 분석 모델을 제공하여 건전한 국민 여가 스포츠로 인식 개선을 제안한다. 고배당을 강조하는 경마 예측론이 성행하며 경마가 스포츠가 아닌 도박에 가깝다는 부정적 이미지를 개선하고자 부모마의 수득 상금을 이용한 순위 분석 모델을 제공한다. 현재 국내 경마 경기는 서울, 부산, 제주에서 개최되며, 이 중 서울 지역 경마 데이터를 분석 데이터로 하였다. 분석에 이용한 데이터는 2019년 3월부터 2022년 3월까지의 경주 성적, 경주마 정보, 부모마 수득상금을 이용하였다. 분석에는 선형 회귀 모형, 랜덤 포레스트 회귀 모형 (Breiman, 2001)을 이용하였다. 분석은 Python 을 이용하였으며, Python에서 제공하는 다양한 라이브러리를 이용하여 크롤링, 전처리, 분석하였다.

  • PDF

하도홍수추적 모형과 랜덤포레스트 회귀를 이용한 침수양상 분석 (Inundation Pattern Analysis by Applying Flood Routing Model with Random Forest Regression)

  • 김현일;김병현;한건연
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.398-398
    • /
    • 2020
  • 대도시 상류부에 위치한 댐의 과도한 방류 또는 급작스러운 붕괴는 대규모의 인명 또는 재산피해를 야기할 수 있으며, 다양한 댐 유입량 조건에 따른 침수양상을 파악하는 것은 수재해 대응능력 향상에 필수적이다. 그러나 다양한 과다한 댐 방류 또는 붕괴유량에 따른 침수 범위는 도시의 내수침수와 달리 매우 넓은 지형조건을 고려하며 침수 범위가 광범위하게 나타날 수 있다. 이는 다양한 댐 유입량 조건에 따른 침수 지도를 생성 및 파악하는데 어려움을 가중시키며, 특히 댐 운영에 따른 침수양상을 실시간으로 파악하는데 어려움을 가중시킨다. 본 연구에서는 저빈도부터 PMF(Probable Maximum Flood) 조건까지의 다양한 댐 유입량자료를 바탕으로, 1차원 하천홍수해석을 실시하였다. 연구 대상으로 팔당댐에 대한 댐 해석을 실시하였으며, 팔당댐 하류에 위치한 서울시에 대한 영향을 분석하였다. 1차원 해석 결과로 산정되는 각하도 단면 별 홍수위자료와 GIS을 연계하여 다양한 발생빈도를 나타내는 유입량에 대한 침수지도를 생성하였으며, 기존에 제시된 발생빈도에 따른 침수지도 외에 임의 빈도의 침수지도를 실시간으로 생성할 수 있는 랜덤포레스트 회귀 모형을 구축하였다. 위의 과정들을 통해 다양한 유입량 조건에 따른 연구대상 지역에서의 침수예상도를 분석할 수 있었으며, 서울시 전반적으로 나타날 수 있는 침수심의 공간적 분포를 파악할 수 있었다. 주어진 침수 지도를 이용하여 서울시에 대한 인구 및 건축물의 경제적 가치 자료를 이용하여 추가적인 홍수 위험도 분석이 가능할 것으로 보이며, 임의 빈도에 대하여 실시간으로 침수를 예측할 수 있는 랜덤포레스트와 연계할 수 있다. 제시된 방법론은 댐의 과다한 방류량과 붕괴 현상을 재현하며, 도시의 수재해 대응능력 향상을 위한 기초자료를 제공할 수 있을 것으로 보인다.

  • PDF

케이프선 시장 운임의 결정요인 및 운임예측 모형 분석 (An Analysis on Determinants of the Capesize Freight Rate and Forecasting Models)

  • 임상섭;윤희성
    • 한국항해항만학회지
    • /
    • 제42권6호
    • /
    • pp.539-545
    • /
    • 2018
  • 운임시장의 심한 변동성과 시계열 데이터의 불안정성으로 해운시황 예측에 대한 연구가 큰 성과를 내지 못하고 있지만 최근 대표적인 비선형 모델인 기계학습모델을 적용한 연구들이 활발히 진행되고 있다. 대부분의 기존 연구가 계량모델의 설계단계에서 입력변수에 해당하는 요인들을 기존 문헌연구와 연구자의 직관에 의존하여 선정했기 때문에 요인선정에 대한 체계적인 연구가 필요하다. 본 연구에서는 케이프선 운임을 대상으로 단계적 회귀모형과 랜덤포레스트모델을 이용하여 중요 영향요인을 분석하였다. 해운시장에서 비교적 단순한 수급구조를 가져 요인파악이 용이한 케이프선 운임을 대상으로 하였으며 총 16개의 수급요인들을 사전 추출하였다. 요인간의 상호관련성을 파악하여 단계적 회귀는 8개 요인, 랜덤포레스트는 10개 요인을 분석대상으로 선정하였으며 선정된 변수를 입력변수로 하여 예측한 결과를 비교하였다. 랜덤포레스트의 예측성능이 아주 우수하였는데 수요요인이 주로 선정된 단계적 회귀분석과는 달리 공급요인이 비중 있게 선정되었기 때문인 것으로 판단된다. 본 연구는 운임예측 연구에 있어 운임결정요인에 대한 과학적인 근거를 마련하였으며 이를 위해 기계학습 기반의 모델을 활용하였다는데 연구적 의의가 있다. 또한 시장정보의 분석에 있어 실무자들이 어떤 변수에 중점을 두어야 하는지에 대해 합리적 근거를 제시한 측면에서 해운기업의 의사결정에 실질적 도움이 될 것으로 기대된다.

약물유전체학에서 약물반응 예측모형과 변수선택 방법 (Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics)

  • 김규환;김원국
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.153-166
    • /
    • 2021
  • 약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.

랜덤포레스트 회귀모형을 적용한 도시지역에서의 실시간 침수 예측 (Real-time flood prediction applying random forest regression model in urban areas)

  • 김현일;이연수;김병현
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1119-1130
    • /
    • 2021
  • 불안정한 기후와 함께 나타나는 국지적 집중호우로 인한 도시 침수는 끊임없이 발생하고 있으나, 강우량을 포함한 기상정보 현황 또는 예보정보를 활용하여 공간적인 도시홍수 예측정보를 제공할 수 있는 체계는 아직 마련되지 못한 상황이다. 공간적인 홍수정보는 하천의 제방, 도시 하수관거의 통수능, 저류지, 펌프시설과 같은 구조물적 대책에 어려움이 있을 시 발생할 수 있는 최악의 홍수상황을 미리 파악함으로써 피해를 최소화하는데 직접적인 영향을 미칠 수 있다. 이에 본 연구에서는 기상청에서 제공되는 강수량, 도시 유역에 대한 2차원 침수해석 결과, 그리고 기계학습 모형 중 하나인 랜덤포레스트 회귀모형을 활용하여 실시간으로 도시유역에 대한 침수지도를 예측할 수 있는 방법론을 제시하고자 한다. 연구유역은 내수침수가 빈번하게 발생하는 울산시 우정태화지구로 선정하였다. 지속시간 6시간의 총강우량 50 mm, 80 mm 그리고 110 mm 대한 랜덤포레스트 회귀분석 예측 침수면적과 검보정된 2차원 물리모형의 침수해석 결과 비교시 각각 63%, 80%, 그리고 67%의 적합도를 보여주어, 빠른 시간안에 발생하는 도시 침수에 대한 대응, 대피를 위한 기초자료로 활용될 수 있을 것으로 판단된다.

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

마케팅 데이터를 대상으로 중요 통계 예측 기법의 정확성에 대한 비교 연구 (A Comparative Study on the Accuracy of Important Statistical Prediction Techniques for Marketing Data)

  • 조민호
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.775-780
    • /
    • 2019
  • 미래를 예측하는 기법은 통계에 기반을 둔 것과 딥러닝에 기반을 둔 기술로 분류할 수 있다. 그중 통계에 기반을 둔 것이 간단하고 정확성이 높아서 많이 사용된다. 하지만 실무자들은 많은 분석기법의 올바른 사용에 어려움이 많다. 이번 연구에서는 마케팅에 관련된 데이터에 다항로지스틱회귀, 의사결정나무, 랜덤포레스트, 서포트벡터머신, 베이지안 추론을 적용하여 예측의 정확성을 비교하였다. 동일한 마케팅 데이터를 대상으로 하였고, R을 활용하여 분석을 진행하였다. 마케팅 분야의 데이터 특성을 반영한 다양한 기법의 예측 결과가 실무자들에게 좋은 참고가 될 것으로 생각한다.

통계기법 및 기계학습 기법을 이용한 우리나라 대설피해액 예측 및 적용성 검토 (Predicting and Reviewing the Amount of Snow Damage in Korea using Statistical and Machine Learning Techniques)

  • 이형주;이근우;장현빈;정건희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.384-384
    • /
    • 2022
  • 과거의 우리나라 대설피해 양상을 살펴보면 지역적으로 집중되어 피해가 발생하는 것이 특징이다. 그러나 현재는 전국적으로 대설피해가 가중되는 추세이며, 이에 따라 대설피해에 대비 가능한 대책의 강구가 필요한 실정이다. 그러나 피해 발생 시 정확한 피해 예측으로 사전에 재난을 대비가 가능한 수준의 연구는 미흡한 실정이다. 따라서 본 연구에서는 다양한 통계기법과 기계학습 기법을 이용하여 대설로 인해 발생한 피해액을 개략적으로 예측이 가능한 모형을 개발하고자 하였다. 대설피해액 예측 모형은 다중회귀분석, 서포트 벡터 머신, 인공신경망 기법, 랜덤포레스트 기법을 이용하여 총 4가지 기법으로 개발하였으며, 독립변수로 사회·경제적 요소, 기상요소를 사용하였고, 종속변수로는 1994년부터 2020년까지 발생한 대설피해 이력의 대설피해액을 사용하였다. 결과적으로 4가지 예측 모형의 예측력 검증 및 기법 간의 예측력을 비교하여 개발한 모형의 적용성을 검토하였다. 본 연구 결과에서 제시한 모형의 개선방안 및 업데이트 방안을 참고하여 후속 연구가 진행된다면 미래에 전국적으로 확대될 대설피해에 대한 대비가 가능할 것으로 기대되며 복구비 및 예방비 투자의 지역적 우선순위를 분석하여 선제적인 대비가 가능할 것으로 판단된다.

  • PDF

정수장 전염소 공정제어를 위한 침전지 잔류염소농도 예측 머신러닝 모형 (Machine learning model for residual chlorine prediction in sediment basin to control pre-chlorination in water treatment plant)

  • 김주환;이경혁;김수전;김경훈
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1283-1293
    • /
    • 2022
  • 본 연구는 정수장의 수처리 공정에서 계측되고 있는 수량 및 수질데이터의 활용과 수처리 공정제어의 지능화를 위한 것으로 정수장에서 전염소 공정이 수반되는 처리공정에서 침전지 유출수 잔류염소농도 안정화를 위하여 이를 추정할 수 있는 모형을 구축하고자 하였다. 정수장 침전지 유출수의 잔류염소농도를 예측하기 위하여 중회귀모형과 인공지능 알고리즘 중 다층퍼셉트론 신경망, 랜덤포레스트 및 장단기기억(Long Short Term Memory; LSTM) 모형을 활용하였고 그 결과를 비교, 평가하였다. 모형의 입력변수로는 전염소 공정이 도입된 정수장에서의 잔류염소농도, 수온, 탁도, pH, 전기전도도, 유량, 알칼리도 등이 사용되었고 전염소에 따른 침전지의 안정적 운영을 위해 요구되는 침전지 잔류염소농도를 출력변수로 구성하였다. 적용 결과에서는 랜덤포레스트 모형이 가장 양호한 결과를 보여 주었으며 다음으로 LSTM, 다층퍼셈트론 신경망 순으로 나타났다. 수학적 모형인 중회귀모형은 적합도 측면에서 가장 낮은 결과를 보여 주었는데, 이는 수량과 수질데이터의 수치적인 규모나 차원의 차이뿐만 아니라 계절별 수질특성에 따라 염소소비 특성이 매우 다양하게 반응하기 때문으로 판단된다. 따라서 정수장 수처리 공정에서 인공지능 알고리즘의 적용을 위해서는 랜덤포레스트와 같이 의사결정 트리구조의 도입과 적용이 타당한 것으로 나타났다. 본 연구에서 분석된 결과를 근거로 전염소 공정이 도입된 정수장 수처리 공정에서 염소주입량을 실시간으로 예측 가능하게 함으로써 침전지 유출수에서 잔류염소농도를 일정하게 유지하는데 기여할 수 있을 것으로 기대된다.