• 제목/요약/키워드: random forest model

검색결과 538건 처리시간 0.028초

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

기계학습을 통한 주간 반투명 구름탐지 연구: GK-2A/AMI를 이용하여 (A Study on Daytime Transparent Cloud Detection through Machine Learning: Using GK-2A/AMI)

  • 변유경;진동현;성노훈;우종호;전우진;한경수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1181-1189
    • /
    • 2022
  • 구름은 대기 중에 떠 있는 작은 물방울이나 얼음 알갱이들 또는 혼합물 등으로 구성되며 지구 표면의 약 2/3를 덮고 있다. 위성영상내에서의 구름은 일부 다른 지상 물체 또는 지표면과 유사한 반사도 특성으로 인해 구름과 구름이 아닌 영역을 분리하는 구름탐지는 매우 어려운 작업이다. 특히 뚜렷한 특징을 가지는 두꺼운 구름과 달리 얇은 반투명 구름은 위성영상내에서 구름과 배경의 대비가 약하고 지표면과 혼합되어져 나타나기 때문에 대부분 구름탐지에서 쉽게 놓쳐지고 많은 어려움을 주는 대상으로 작용한다. 이러한 구름탐지의 반투명 구름의 한계점을 극복하기 위해, 본 연구에서는 머신러닝 기법(Random Forest [RF], Convolutional Neural Networks [CNN])을 활용하여 반투명 구름을 중점으로 한 구름탐지 연구를 수행하였다. Reference자료로는 MOderate Resolution Imaging Spectroradiometer (MODIS)에서 제공하는 MOD35자료에서 Cloud Mask와 Cirrus Mask를 활용하였으며 반투명 구름 픽셀을 고려한 모델 훈련을 위해 훈련 데이터의 픽셀 비율을 구름, 반투명 구름, 청천이 약 1:1:1이 되도록 구성하였다. 연구의 정성적 비교 결과, RF와 CNN 모두 반투명 구름을 포함한 다양한 형태의 구름 등을 잘 탐지하였고, RF 모델 결과와 CNN 모델 결과를 혼합한 RF+CNN경우에는 개별 모델의 한계점을 개선시키며 구름탐지가 잘 수행되어진 것을 확인하였다. 연구의 정량적 결과 RF의 전체 정확도(OA) 값은 92%, CNN은 94.11%를 보였고, RF+CNN은 94.29%의 정확도를 보였다.

기업가정신이 창업의지에 미치는 영향에 관한 메타분석: 창업교육의 매개효과 (A Meta-Analysis on the Effect of Entrepreneurship on the Entrepreneurial Intention: Mediating Effect of Entrepreneur Education)

  • 윤병선;김천규
    • 벤처창업연구
    • /
    • 제15권3호
    • /
    • pp.207-221
    • /
    • 2020
  • 본 연구는 기업가정신의 구성요소인 혁신성, 위험감수성, 진취성이 창업교육을 매개변수로 하여 창업의지에 미치는 영향에 관하여 메타분석을 실시하였다. 창업의지에 영향을 미치는 선행연구들 중 2013년부터 2020년까지 국내에서 발표된 학술지 논문과 박사 및 석사 학위에서 양적연구로 판단되는 392편의 논문을 연구대상으로 선정하였다. 그 중에서 학위논문과 학술지 논문이 중복되는 28개를 제외하고, 상관계수 등 통계수치가 없어서 연구 자료로 활용하기에 미흡한 논문 312개를 제외하여 최종적으로 52편의 논문을 선정하였다. 최종 선정된 52편의 논문을 대상으로 변수에 대하여 우선 동질성에 대하여 검증하였다. 동질성 검증결과 혁신성, 위험감수성, 진취성, 창업교육 모두 이질성에 있어서 큰 효과를 보여 평균효과크기는 확률효과모형으로 분석하였다. 분석한 평균효과크기는 0.38~0.49로 4개 변수 모두 중간정도의 평균효과크기를 보였다. 평균효과크기에 대하여 forest plot로 분석한 결과 모두 정적인 결과를 보였으며 창업교육에 대한 funnel plot 분석 결과에서 출간오류가 비대칭으로 확인되어 창업교육에 대한 연구 자료가 전체를 대변할 수 없음을 보여주고 있다. 기업가정신과 창업의지에 대하여 창업교육을 매개변수로 하는 구조방정식 모형에서 혁신성과 위험감수성은 창업교육을 매개변수로 하여 창업의지에 영향을 미치고 있지만 진취성은 창업교육과는 관계없이 창업의지에 영향을 미치고 있었다. 다수의 연구결과에서 대학의 창업교육이 본질적 목적인 창업의지에 영향을 미치기 위해서는 이론과 실습을 병행하는 창업교육으로 개편되어야 하고 기업가정신 교육은 지속적이고 현장 중심교육으로 변해야 한다.

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.

Microsatellite 표지를 이용한 부안지역 소나무 집단의 화분 유동과 교배양식 추정 (Estimating the Parameters of Pollen Flow and Mating System in Pinus densiflora Population in Buan, South Korea, Using Microsatellite Markers)

  • 김영미;홍경낙;박유진;홍용표;박재인
    • 한국자원식물학회지
    • /
    • 제28권1호
    • /
    • pp.101-110
    • /
    • 2015
  • 부안지역 소나무 집단의 화분유동과 교배양식 모수를 추정하기 위하여 7개 microsatellite 표지로 모수, 주변 성목 및 종자에 대한 유전변이를 분석하였다. 이형접합도 기대치($H_e$)와 근교계수(F)는 각각 모수에서 0.614과 0.018, 종자에서 0.624과 0.087이며, 각 세대간에 차이는 없었다(P > 0.05). MLTR로 추정한 타가교배율($t_m$)은 0.967이며, 양친간 근연계수($t_m-t_s$)는 0.057, 부계상관($r_p$)은 0.012로 나타났다. 기존에 보고된 소나무의 동위효소 분석 결과에 비하여 타가교배율은 높고 근친교배 및 부계상관은 낮았으나, microsatellite 표지를 이용한 소나무류의 결과들과는 유사하였다. TwoGener로 추정한 최적 화분비산 모델은 유효밀도(d = 220 trees/ha)를 가정한 정규확산모델로 판명되었으며, 평균 화분비산거리(${\delta}$)는 11.42 m로 계산되었다. 화분원 유전적 분화(${\Phi}_{ft}$)는 0.021이며, Mental 검증에서 모수간 지리적 거리와 화분원의 유전적 분화는 상관성이 없는 것으로 나타났다(r = -0.141, P > 0.05). 부안지역 소나무 집단은 대부분의 화분이 가까운 거리에서 공급되지만, 화분수의 유전다양성이 높고 화분원의 유전적 차이가 작은 상태로 추정된다. 이러한 조건에서 완전한 임의교배가 이루어지기 때문에 종자의 유전자형이 다양하며 세대간 유전변이의 감소가 없는 것으로 사료된다.

Texture Analysis of Three-Dimensional MRI Images May Differentiate Borderline and Malignant Epithelial Ovarian Tumors

  • Rongping Ye;Shuping Weng;Yueming Li;Chuan Yan;Jianwei Chen;Yuemin Zhu;Liting Wen
    • Korean Journal of Radiology
    • /
    • 제22권1호
    • /
    • pp.106-117
    • /
    • 2021
  • Objective: To explore the value of magnetic resonance imaging (MRI)-based whole tumor texture analysis in differentiating borderline epithelial ovarian tumors (BEOTs) from FIGO stage I/II malignant epithelial ovarian tumors (MEOTs). Materials and Methods: A total of 88 patients with histopathologically confirmed ovarian epithelial tumors after surgical resection, including 30 BEOT and 58 MEOT patients, were divided into a training group (n = 62) and a test group (n = 26). The clinical and conventional MRI features were retrospectively reviewed. The texture features of tumors, based on T2-weighted imaging, diffusion-weighted imaging, and contrast-enhanced T1-weighted imaging, were extracted using MaZda software and the three top weighted texture features were selected by using the Random Forest algorithm. A non-texture logistic regression model in the training group was built to include those clinical and conventional MRI variables with p value < 0.10. Subsequently, a combined model integrating non-texture information and texture features was built for the training group. The model, evaluated using patients in the training group, was then applied to patients in the test group. Finally, receiver operating characteristic (ROC) curves were used to assess the diagnostic performance of the models. Results: The combined model showed superior performance in categorizing BEOTs and MEOTs (sensitivity, 92.5%; specificity, 86.4%; accuracy, 90.3%; area under the ROC curve [AUC], 0.962) than the non-texture model (sensitivity, 78.3%; specificity, 84.6%; accuracy, 82.3%; AUC, 0.818). The AUCs were statistically different (p value = 0.038). In the test group, the AUCs, sensitivity, specificity, and accuracy were 0.840, 73.3%, 90.1%, and 80.8% when the non-texture model was used and 0.896, 75.0%, 94.0%, and 88.5% when the combined model was used. Conclusion: MRI-based texture features combined with clinical and conventional MRI features may assist in differentitating between BEOT and FIGO stage I/II MEOT patients.

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

지리산 지역의 생물종 분포모형 구축 및 종풍부도 평가 (Development of Species Distribution Models and Evaluation of Species Richness in Jirisan region)

  • 권혁수;서창완;박종화
    • 대한공간정보학회지
    • /
    • 제20권3호
    • /
    • pp.11-18
    • /
    • 2012
  • 생물다양성에 대한 사회적 관심이 늘어남에 따라 생물다양성 평가, 보호지역 지정, 서식지 관리 및 복원 등 생물자원에 대한 공간적 평가의 필요성이 대두되고 있다. 본 연구는 이러한 야생동물의 서식지에 대한 평가를 위하여 자료의 수집 및 모형화의 기법 연구와 생물종풍부도를 작성하는데 목적이 있다. 종분포모형을 위해 사용된 GAM (Generalized Additive Model)으로 기존의 중첩 분석이나 GLM (Generalized Linear Model)에 비해 환경변수와 반응변수의 관계가 명확하고 이에 따른 해석이 용이하다. 본 연구대상지로는 국립공원, 경관생태보호구역, 수달보호구역으로 지정된 지리산, 백운산, 섬진강을 포함하고 있는 유역을 선정하였다. 대상유역의 토지피복에 따라 층화추출을 통하여 야생동물(포유류와 조류)의 출현/비출현 형태의 현장자료를 수집하였으며, 야생동물의 서식에 영향을 미치는 자연, 사회 경제적 자료를 구축하였다. 각 종에 대한 서식지이용분석과 주요서식인자를 확인한 후, 출현/비출현 모형을 통해 서식지적합성모형을 개발하고, 개별 종에 대한 서식지적합성지도 작성하였다. 서식지 적합성지도를 산술 합산하여 분류군별(포유류, 조류) 종풍부도, 통합종풍부도를 작성하였다. 개별 종 서식지의 주요인자는 서식지선택에 따라 다르게 나타났다. 고라니나 박새와 같은 몇몇 종들은 저지대에 분포하나, 대부분의 포유류나 조류의 잠재서식지는 국립공원 경계구역이나 중산간지역에 많이 분포하였다. 본 연구의 결과는 환경부에서 수행하는 생물다양성의 평가, 보호지역의 지정 등의 기초자료로서 활용될 수 있을 것이다.

데이터 마이닝 기법을 활용한 군용 항공기 비행 예측모형 및 비행규칙 도출 연구 (A Study on the Development of Flight Prediction Model and Rules for Military Aircraft Using Data Mining Techniques)

  • 유경열;문영주;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제31권3호
    • /
    • pp.177-195
    • /
    • 2022
  • Purpose This paper aims to prepare a full operational readiness by establishing an optimal flight plan considering the weather conditions in order to effectively perform the mission and operation of military aircraft. This paper suggests a flight prediction model and rules by analyzing the correlation between flight implementation and cancellation according to weather conditions by using big data collected from historical flight information of military aircraft supplied by Korean manufacturers and meteorological information from the Korea Meteorological Administration. In addition, by deriving flight rules according to weather information, it was possible to discover an efficient flight schedule establishment method in consideration of weather information. Design/methodology/approach This study is an analytic study using data mining techniques based on flight historical data of 44,558 flights of military aircraft accumulated by the Republic of Korea Air Force for a total of 36 months from January 2013 to December 2015 and meteorological information provided by the Korea Meteorological Administration. Four steps were taken to develop optimal flight prediction models and to derive rules for flight implementation and cancellation. First, a total of 10 independent variables and one dependent variable were used to develop the optimal model for flight implementation according to weather condition. Second, optimal flight prediction models were derived using algorithms such as logistics regression, Adaboost, KNN, Random forest and LightGBM, which are data mining techniques. Third, we collected the opinions of military aircraft pilots who have more than 25 years experience and evaluated importance level about independent variables using Python heatmap to develop flight implementation and cancellation rules according to weather conditions. Finally, the decision tree model was constructed, and the flight rules were derived to see how the weather conditions at each airport affect the implementation and cancellation of the flight. Findings Based on historical flight information of military aircraft and weather information of flight zone. We developed flight prediction model using data mining techniques. As a result of optimal flight prediction model development for each airbase, it was confirmed that the LightGBM algorithm had the best prediction rate in terms of recall rate. Each flight rules were checked according to the weather condition, and it was confirmed that precipitation, humidity, and the total cloud had a significant effect on flight cancellation. Whereas, the effect of visibility was found to be relatively insignificant. When a flight schedule was established, the rules will provide some insight to decide flight training more systematically and effectively.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구: 재무적 데이터를 중심으로 (Study on Predicting the Designation of Administrative Issue in the KOSDAQ Market Based on Machine Learning Based on Financial Data)

  • 윤양현;김태경;김수영
    • 벤처창업연구
    • /
    • 제17권1호
    • /
    • pp.229-249
    • /
    • 2022
  • 본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.