• Title/Summary/Keyword: Boosting methods

검색결과 214건 처리시간 0.022초

학생들의 과학적 설명을 강조하는 탐구 지향 교수 활동에 대한 예비 초등 교사들의 인식 (Prospective Elementary School Teachers' Perceptions of Inquiry-Oriented Teaching Practice, with an Emphasis on' Students' Scientific Explanation)

  • 장신호
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제25권1호
    • /
    • pp.96-108
    • /
    • 2006
  • The purpose of this study was to investigate how prospective elementary school teachers perceived teacher's inquiryoriented teaching practice, with an emphasis on students' scientific explanations based on scientific evidence. For this study, 94 prospective elementary school teachers were participated. 14 among 94 participants had chances to intensively experience this particular teaching methods for 15 weeks. All of the 94 participants observed the intended science teaching practice for 4th graders in two different elementary schools, which utilized the science talks emphasizing students' scientific explanation activity. For quantitative data analysis, they were asked to provide their reaction to the science teaching methods after their classroom observation. For qualitative data analysis, 5 among the participants, who had relatively long term experience with this teaching practice, were chosen to interview in order to understand their individual reasons of the ways they perceived about the inquiry-oriented teaching methods boosting students' scientific explanation. The results show that the prospective elementary teachers generally thought the emphasis of students' scientific explanation based on scientific evidence could enhance young elementary students' science content understanding, stimulate their curiosity/interests, and further develop their ability to engage actively in scientific discussions. However, some prospective teachers tended to think that the science teaching. methods would not be effective in terms of managing science classes, though. This study concludes that the prospective teachers tended to hold an endemic dilemma. On the one hand, they had their clear preference to the inquiry-oriented teaching practice as the most ideal teaching methods. On the other hand, they also had their persistent hesitance in using these methods due to their fear that elementary students might not adequately grasp the important science content when engaged in scientific discourse through an inquiry-oriented class.

  • PDF

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

A Hybrid Multi-Level Feature Selection Framework for prediction of Chronic Disease

  • G.S. Raghavendra;Shanthi Mahesh;M.V.P. Chandrasekhara Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제23권12호
    • /
    • pp.101-106
    • /
    • 2023
  • Chronic illnesses are among the most common serious problems affecting human health. Early diagnosis of chronic diseases can assist to avoid or mitigate their consequences, potentially decreasing mortality rates. Using machine learning algorithms to identify risk factors is an exciting strategy. The issue with existing feature selection approaches is that each method provides a distinct set of properties that affect model correctness, and present methods cannot perform well on huge multidimensional datasets. We would like to introduce a novel model that contains a feature selection approach that selects optimal characteristics from big multidimensional data sets to provide reliable predictions of chronic illnesses without sacrificing data uniqueness.[1] To ensure the success of our proposed model, we employed balanced classes by employing hybrid balanced class sampling methods on the original dataset, as well as methods for data pre-processing and data transformation, to provide credible data for the training model. We ran and assessed our model on datasets with binary and multivalued classifications. We have used multiple datasets (Parkinson, arrythmia, breast cancer, kidney, diabetes). Suitable features are selected by using the Hybrid feature model consists of Lassocv, decision tree, random forest, gradient boosting,Adaboost, stochastic gradient descent and done voting of attributes which are common output from these methods.Accuracy of original dataset before applying framework is recorded and evaluated against reduced data set of attributes accuracy. The results are shown separately to provide comparisons. Based on the result analysis, we can conclude that our proposed model produced the highest accuracy on multi valued class datasets than on binary class attributes.[1]

XGBoost를 활용한 리스크패리티 자산배분 모형에 관한 연구 (A Study on Risk Parity Asset Allocation Model with XGBoos)

  • 김영훈;최흥식;김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.135-149
    • /
    • 2020
  • 인공지능을 기반으로 한 다양한 연구들이 현대사회에 많은 변화를 불러일으키고 있다. 금융시장 역시 예외는 아니다. 로보어드바이저 개발이 활발하게 진행되고 있으며 전통적 방식의 단점을 보완하고 사람이 분석하기 어려운 부분을 대체하고 있다. 로보어드바이저는 인공지능 알고리즘으로 자동화된 투자 결정을 내려 다양한 자산배분 모형과 함께 활용되고 있다. 자산배분 모형 중 리스크패리티는 대표적인 위험 기반 자산배분 모형의 하나로 큰 자산을 운용하는 데 있어 안정성을 나타내고 현업에서 역시 널리 쓰이고 있다. 그리고 XGBoost 모형은 병렬화된 트리 부스팅 기법으로 제한된 메모리 환경에서도 수십억 가지의 예제로 확장이 가능할 뿐만 아니라 기존의 부스팅에 비해 학습속도가 매우 빨라 많은 분야에서 널리 활용되고 있다. 이에 본 연구에서 리스크패리티와 XGBoost를 장점을 결합한 모형을 제안하고자 한다. 기존에 널리 사용되는 최적화 자산배분 모형은 과거 데이터를 기반으로 투자 비중을 추정하기 때문에 과거와 실투자 기간 사이의 추정 오차가 발생하게 된다. 최적화 자산배분 모형은 추정 오차로 인해 포트폴리오 성과에서 악영향을 받게 된다. 본 연구는 XGBoost를 통해 실투자 기간의 변동성을 예측하여 최적화 자산배분 모형의 추정 오차를 줄여 모형의 안정성과 포트폴리오 성과를 개선하고자 한다. 본 연구에서 제시한 모형의 실증 검증을 위해 한국 주식시장의 10개 업종 지수 데이터를 활용하여 2003년부터 2019년까지 총 17년간 주가 자료를 활용하였으며 in-sample 1,000개, out-of-sample 20개씩 Moving-window 방식으로 예측 결과값을 누적하여 총 154회의 리밸런싱이 이루어진 백테스팅 결과를 도출하였다. 본 연구에서 제안한 자산배분 모형은 기계학습을 사용하지 않은 기존의 리스크패리티와 비교하였을 때 누적수익률 및 추정 오차에서 모두 개선된 성과를 보여주었다. 총 누적수익률은 45.748%로 리스크패리티 대비 약 5% 높은 결과를 보였고 추정오차 역시 10개 업종 중 9개에서 감소한 결과를 보였다. 실험 결과를 통해 최적화 자산배분 모형의 추정 오차를 감소시킴으로써 포트폴리오 성과를 개선하였다. 포트폴리오의 추정 오차를 줄이기 위해 모수 추정 방법에 관한 다양한 연구 사례들이 존재한다. 본 연구는 추정 오차를 줄이기 위한 새로운 추정방법으로 기계학습을 제시하여 최근 빠른 속도로 발전하는 금융시장에 맞는 진보된 인공지능형 자산배분 모형을 제시한 점에서 의의가 있다.

Importance-Performance Analysis of Mountain Village Promotion Projects in the Forest Sector by Upper-Level Local Governments

  • Kang, Byung-Hoon;Kim, Seong-Hak;Chae, Jin-Hae
    • 인간식물환경학회지
    • /
    • 제24권6호
    • /
    • pp.707-718
    • /
    • 2021
  • Background and objective: Due to the recent crisis of extinction in local areas, the mountain village promotion policy is recognized as an important task. This study examined the priorities of major policy projects in the forest sector that affect mountain village promotion. Methods: For research methods, literature search, expert advisory meetings, and a survey were conducted. The survey was conducted on 42 policy stakeholders from June 1 to August 13, 2021. The literature search was based on policy projects in the forest sector by 8 upper-level local governments including mountain villages. For questionnaire items, 173 forest policy projects were classified into 27 types through expert review, and the importance and performance of each type were rated on a 5-point Likert scale. Paired t-test, IPA, Locus for Focus model, and Borich needs assessment were used as the analysis methods, and the statistical program SPSS 21.0 was used as the analytical tool. Results: The results showed that 'creating forest-related jobs' and 'supporting cultivation of professional forestry workers' both showed high importance and performance, implying that they would show an effect in mountain village promotion. 'Creating forests for environmental improvement', 'discovering forest cultural assets' 'establishing and boosting forest tourism', 'providing forest therapy services', 'creating forest-related jobs', 'supporting community revitalization', and 'urban-rural exchanges' were found to be the types that needed improvement and concentration for mountain village promotion. In particular, 'creating forests for environmental improvement' and 'discovering forest cultural assets' were derived as priority considerations for mountain village promotion policies. Conclusion: In summary, it was found that in order to promote mountain villages, various content projects must be improved and carried out to enhance the physical environment and revitalize mountain villages.

머신러닝과 딥러닝을 이용한 영산강의 Chlorophyll-a 예측 성능 비교 및 변화 요인 분석 (Comparison of Chlorophyll-a Prediction and Analysis of Influential Factors in Yeongsan River Using Machine Learning and Deep Learning)

  • 심선희;김유흔;이혜원;김민;최정현
    • 한국물환경학회지
    • /
    • 제38권6호
    • /
    • pp.292-305
    • /
    • 2022
  • The Yeongsan River, one of the four largest rivers in South Korea, has been facing difficulties with water quality management with respect to algal bloom. The algal bloom menace has become bigger, especially after the construction of two weirs in the mainstream of the Yeongsan River. Therefore, the prediction and factor analysis of Chlorophyll-a (Chl-a) concentration is needed for effective water quality management. In this study, Chl-a prediction model was developed, and the performance evaluated using machine and deep learning methods, such as Deep Neural Network (DNN), Random Forest (RF), and eXtreme Gradient Boosting (XGBoost). Moreover, the correlation analysis and the feature importance results were compared to identify the major factors affecting the concentration of Chl-a. All models showed high prediction performance with an R2 value of 0.9 or higher. In particular, XGBoost showed the highest prediction accuracy of 0.95 in the test data.The results of feature importance suggested that Ammonia (NH3-N) and Phosphate (PO4-P) were common major factors for the three models to manage Chl-a concentration. From the results, it was confirmed that three machine learning methods, DNN, RF, and XGBoost are powerful methods for predicting water quality parameters. Also, the comparison between feature importance and correlation analysis would present a more accurate assessment of the important major factors.

2010, 2011년 학업성취도 평가에서 나타난 중학교 학생들의 학업 특성 (The Characteristics of Study of Middle School Students Appeared in 2010, 2011 National Assessment of Educational Achievement)

  • 조윤동
    • 한국수학사학회지
    • /
    • 제25권3호
    • /
    • pp.97-117
    • /
    • 2012
  • 정부는 기존의 교육과정과 교육 정책을 점검하고 개선하기 위한 자료의 하나로 국가수준 학업성취도 평가 결과를 활용하고 있다. 이러한 노력을 기울이는 까닭은 학생들의 학력을 신장시키기 위함이다. 이때 학생들의 학력을 높이기 위해서 가장 기본이 되는 것의 하나는 그들이 어느 내용에서 취약한가를 밝히는 것이다. 다음으로 해당되는 내용을 가르치는 방법을 개선하는 것이다. 그래서 이 글에서는 먼저 2010, 2011년 국가수준 학업성취도 평가 결과에서 나타난 중학교 학생 전체와 남녀학생별 경향을 파악하고 있다. 이를 바탕에 두고 학생 전체와 남녀학생별로 어떤 내용에서 취약한지를 파악하고 그에대한 교수 학습의 시사점을 제시하고 있다.

Real-time and Power Hardware-in-the-loop Simulation of PEM Fuel Cell Stack System

  • Jung, Jee-Hoon
    • Journal of Power Electronics
    • /
    • 제11권2호
    • /
    • pp.202-210
    • /
    • 2011
  • Polymer electrolyte membrane (PEM) fuel cell is one of the popular renewable energy sources and widely used in commercial medium power areas from portable electronic devices to electric vehicles. In addition, the increased integration of the PEM fuel cell with power electronics, dynamic loads, and control systems requires accurate electrical models and simulation methods to emulate their electrical behaviors. Advancement in parallel computation techniques, various real-time simulation tools, and smart power hardware have allowed the prototyping of novel apparatus to be investigated in a virtual system under a wide range of realistic conditions repeatedly, safely, and economically. This paper builds up advancements of optimized model constructions for a fuel cell stack system on a real-time simulator in the view points of improving dynamic model accuracy and boosting computation speed. In addition, several considerations for a power hardware-in-the-loop (PHIL) simulation are provided to electrically emulate the PEM fuel cell stack system with power facilities. The effectiveness of the proposed PHIL simulation method developed on Opal RT's RT-Lab Matlab/Simulink based real-time engineering simulator and a programmable power supply is verified using experimental results of the proposed PHIL simulation system with a Ballard Nexa fuel cell stack.