• 제목/요약/키워드: 랜덤 포레스트 대체

검색결과 6건 처리시간 0.025초

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

랜덤 포레스트를 이용한 태양광 발전량 예측 (Predicting Photovoltaic Power Generation with Random Forests)

  • 이웅희;김영훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.397-400
    • /
    • 2016
  • 태양광 발전 방식은 기존 고갈 가능성이 있는 에내지를 대체하기 위해 많은 개발이 이루어져왔다. 태양광 발전 모듈의 인버터에는 발전량에 영향을 주는 다양한 속성들이 계측되어 저장된다. 본 연구에서는 이런 데이터에, 발전량에 영향을 주는 외부 요인인 기상 데이터를 추가하고, 랜덤 포레스트를 써서 과거 몇일까지의 데이터를 고려했을 때 가장 예측 성능이 높은지 실험을 통해 검증하였다. 2일 전부터 최대 365일 전까지의 데이터를 고려한 결과 5일 정도의 과거 데이터를 고려했을 때 예측 성능이 가장 높고, 고려하는 기간이 길어질수록 예측 성능이 떨어지는 경향을 보였다.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구

  • 윤양현;김태경;김수영;박용균
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2021년도 추계학술대회
    • /
    • pp.185-187
    • /
    • 2021
  • 관리종목 지정 제도는 상장 기업 내 기업의 부실화를 경고하여 기업에게는 회생 기회를 주고, 투자자들에게는 투자 위험을 경고하기 위한 시장규제 제도이다. 본 연구는 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 하여 관리종목 지정 예측에 대한 연구를 진행하였다. 분석에 쓰인 분석 방법은 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 소프트 보팅, 랜덤 포레스트, LightGBM이며 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높았다.

  • PDF

실외공기측정기 자료를 이용한 도심 기상 예측 기계학습 모형 비교 (Comparison of Machine Learning Techniques in Urban Weather Prediction using Air Quality Sensor Data)

  • 박종찬;박헌진
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.39-49
    • /
    • 2021
  • 최근 국가 관측망, 기업 공기 측정기 등을 통해 많고 다양한 기상 데이터가 수집되고 있다. 기계학습 기법을 통해 기상 예측하려는 노력이 곳곳에서 이루어지고 있으며, 국내 미세먼지는 농도가 증가해오고 사람들의 관심이 높아 가장 관심있는 예측 대상 중 하나이다. 본 연구에서는 서울시 전역에 설치된 840여 개실외공기측정기 데이터를 사용하여 PM10·PM2.5 예측 모형을 비교하고자 한다. 5분 뒤 미세먼지 농도 예측을 통해 실시간으로 정보를 제공할 수 있으며, 이는 10분·30분·1시간 뒤 예측 모형 개발에 기반이 될 수 있다. 잡음 제거, 결측치 대체 등의 데이터 전처리를 진행하였고, 시·공간 변수를 고려할 수 있는 파생 변수를 생성하였다. 모형의 매개변수는 반응 표면 방법을 통해 선택하였다. XGBoost, 랜덤포레스트, 딥러닝(Multilayer Perceptron)을 예측 모형으로 사용하여, 미세먼지 농도와 예측값의 차이를 확인하고, 모형 간 성능을 비교하고자 한다.

GIS와 기계학습을 이용한 지하수 가능성도 작성 연구 현황 (Status of Groundwater Potential Mapping Research Using GIS and Machine Learning)

  • 이사로
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1277-1290
    • /
    • 2020
  • 지표수와 지하수로 이루어진 수자원은 세계적으로 가장 중요한 천연자원 중 하나로 여겨진다. 지난 세기 이후 급속한 산업화와 급증하는 인구로 인해, 생활용, 산업용, 농업용수 수요가 급증하고 있으며, 이에 대한 지하수 수요도 급증하고 있다. 따라서 지하수에 대한 지속 가능한 개발과 관리를 위해서는 정확한 위치기반의 지하수 가능성도 작성이 필수적이다. 최근에는 기계학습과 지리정보시스템 통합이 지하수 가능성도 작성에 효과적인 방법이 되고 있다. 이러한 통합접근법의 현황 파악을 위해 6년(2015~2020년) 동안 94편의 직접 관련 논문에 대한 체계적 검토를 실시했다. 문헌 검토에 따르면, 매년 발간되는 연구의 수는 시간이 지남에 따라 급격히 증가했다. 전체 연구 분야는 15개국에 걸쳐 있으며, 85%의 연구가 이란, 인도, 중국, 한국, 이라크에 집중되었다. 지하수 산출 가능성 조사에는 20개의 변수가 자주 사용된 것으로 조사되었으며, 이 중 지형고도, 경사, 경사방향, 지형습도지수, 지질, 토지 이용 피복, 하천 밀도, 강과의 거리, 강우량 등이 자주 사용되는 것으로 나타났다. 기계학습 모델에 있어 랜덤 포레스트, 서포트벡터머신, 부스트 회귀트리 등의 방법이 많이 사용되었다. 이러한 문헌 연구는 최적의 결과를 위해 지하수 가능성도를 저비용 대체물이 아닌 현장 작업을 보완하는 도구로 사용해야 한다는 것을 보여준다. 마지막으로, 향후, 지하수 가능성도 작성의 표준화 및 정확성을 개선하기 위해 더 많은 연구가 진행되어야 할 것이다.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.