• 제목/요약/키워드: stepwise variable selection

검색결과 53건 처리시간 0.029초

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

슈퍼 그래픽의 이미지와 선호성 분석에 관한 연구 -시각디자인 요 소를 중심으로- (Studies on the Analysis of Super Graphic Image and Preference -with Visual Design Element-)

  • 나성숙
    • 한국조경학회지
    • /
    • 제20권4호
    • /
    • pp.54-75
    • /
    • 1993
  • The purpose of this thesis is to suggest objective basic data for the super graphics in the urban landscape through the quantitative visual quality analysis. For this, the image structure of super graphics have been measured mainly by questionnaries and semantic differential scle method and analyzed by the method of factor analysis, means and multiple regression. Degree of visual preference have been measured mainly by questionnaries and likert attitude scale method and finaly these data have been analyzed by using the stepwise method. The data were collected by presenting 12 super graphics photographs-4 each sample pictures from the 3 each selected districts representing typical urban landscape style(central business district, shopping district, apartment complex). Observer groups were categorized as professionals, students, the others. Result of this thesis can be summarized as fallows: 1. From all 12(3${\times}$4) sample super graphics, the value of each semantic differential scale among the observer groups were presented significant group difference. But no significant difference of the S.D. scale value were observed among central business district, shopping district and apartment complex super graphics. 2. For all experimental points, 4 types of factor have been observed. Factors covering the image of super graphics were found to be the evaluation, the intimacy, the potentiality and the tidiness. 3. Main factors of the super graphics image and factors indicating the group variations yielded high significance between areas. 4. The harmony with surrounding environment, the proper selection of super graphics subject yielded high values for all groups. Especially, the good color sense with building was the most important variable determining the degree of visual preference. 5. The urban C.B.D. super graphics obtained 5∼12 ranks of regional visual preference and the shopping district super graphics obtained 2∼11 ranks, and apartment complex super graphics obtained 1∼7 ranks.

  • PDF

분광특성 분석에 의한 논 잡초 검출의 기초연구 (A Fundamental Study on Detection of Weeds in Paddy Field using Spectrophotometric Analysis)

  • 서규현;서상룡;성제훈
    • Journal of Biosystems Engineering
    • /
    • 제27권2호
    • /
    • pp.133-142
    • /
    • 2002
  • This is a fundamental study to develop a sensor to detect weeds in paddy field using machine vision adopted spectralphotometric technique in order to use the sensor to spread herbicide selectively. A set of spectral reflectance data was collected from dry and wet soil and leaves of rice and 6 kinds of weed to select desirable wavelengths to classify soil, rice and weeds. Stepwise variable selection method of discriminant analysis was applied to the data set and wavelengths of 680 and 802 m were selected to distinguish plants (including rice and weeds) from dry and wet soil, respectively. And wavelengths of 580 and 680 nm were selected to classify rice and weeds by the same method. Validity of the wavelengths to distinguish the plants from soil was tested by cross-validation test with built discriminant function to prove that all of soil and plants were classified correctly without any failure. Validity of the wavelengths for classification of rice and weeds was tested by the same method and the test resulted that 98% of rice and 83% of weeds were classified correctly. Feasibility of CCD color camera to detect weeds in paddy field was tested with the spectral reflectance data by the same statistical method as above. Central wavelengths of RGB frame of color camera were tried as tile effective wavelengths to distingush plants from soil and weeds from plants. The trial resulted that 100% and 94% of plants in dry soil and wet soil, respectively, were classified correctly by the central wavelength or R frame only, and 95% of rice and 85% of weeds were classified correctly by the central wavelengths of RGB frames. As a result, it was concluded that CCD color camera has good potential to be used to detect weeds in paddy field.

Improvement of Thunderstorm Detection Method Using GK2A/AMI, RADAR, Lightning, and Numerical Model Data

  • Yu, Ha-Yeong;Suh, Myoung-Seok;Ryu, Seoung-Oh
    • 대한원격탐사학회지
    • /
    • 제37권1호
    • /
    • pp.41-55
    • /
    • 2021
  • To detect thunderstorms occurring in Korea, National Meteorological Satellite Center (NMSC) also introduced the rapid-development thunderstorm (RDT) algorithm developed by EUMETSAT. At NMCS, the H-RDT (HR) based on the Himawari-8 satellite and the K-RDT (KR) which combines the GK2A convection initiation output with the RDT were developed. In this study, we optimized the KR (KU) to improve the detection level of thunderstorms occurring in Korea. For this, we used all available data, such as GK2A/AMI, RADAR, lightning, and numerical model data from the recent two years (2019-2020). The machine learning of logistic regression and stepwise variable selection was used to optimize the KU algorithms. For considering the developing stages and duration time of thunderstorms, and data availability of GK2A/AMI, a total of 72 types of detection algorithms were developed. The level of detection of the KR, HR, and KU was evaluated qualitatively and quantitatively using lightning and RADAR data. Visual inspection using the lightning and RADAR data showed that all three algorithms detect thunderstorms that occurred in Korea well. However, the level of detection differs according to the lightning frequency and day/night, and the higher the frequency of lightning, the higher the detection level is. And the level of detection is generally higher at night than day. The quantitative verification of KU using lightning (RADAR) data showed that POD and FAR are 0.70 (0.34) and 0.57 (0.04), respectively. The verification results showed that the detection level of KU is slightly better than that of KR and HR.

골격형에 따른 치아치조성 보상기전의 분석 및 골격형 판별 (Analysis of dentoalveolar compensation and discrimination of skeletal types)

  • Kim, Ji-Young;Kim, Tae-Woo;Nahm, Dong-Seok;Chang, Young-Il
    • 대한치과교정학회지
    • /
    • 제33권6호
    • /
    • pp.407-418
    • /
    • 2003
  • 본 연구의 목적은 전후방 및 수직적 골격형에 따라 선험적으로 9 개의 유형 (type)으로 분류된 정상교합자의 치아치조부 보상기전의 양상을 분석하고 이를 임상적으로 개별 부정교합자에게 적용이 가능한 신뢰성 있고 간편한 골격 유형의 감별기준을 도출하고자 한 것이었다. 이를 위하여 정상교합자 294명의 측모두부방사선계측치 중 치아치조부 계측 항목의 기술 통계량을 구하고 각 유형간의 특징을 비교하기 위하여 분산 분석과 다중 비교를 시행하였으며, 골격 계측 항목과 치아치조부 계측 항목간의 상관관계를 분석하였다. 또한 이러한 유형을 부정교합자의 개별 골격형에 적용할 수 있도록 판별 분석을 시행하여 골격형 감별의 효율성과 정확성을 가늠하였다. 그 결과 갈 골격 유형별로 특징적인 치아치조부 보상기전을 확인할 수 있었으며, 상/하악 전치의 위치 및 교합 평면을 나타내는 변수에서 높은 상관관계가 관찰되었다. 판별 분석 결과 9개의 골격 유형을 분류할 수 있는 4개의 변수(AB-MP, SN-AB, PMA)를 구할 수 있었으며, 이들 4개의 변수로 이루어진 판별 계수로 전체 표본의 $87.8\%$를 정확하게 분류할 수 있었다. 결론적으로, 이러한 연구 결과를 통해 개별 부정교합자의 개별화된 진단 및 치료 지침 수립시 기초적 정보를 제공할 수 있을 것으로 예견되었다.

제주마 주파기록에 대한 연도별 추세 및 환경효과 분석 (Estimation of Annual Trends and Environmental Effects on the Racing Records of Jeju Horses)

  • 이종안;이수현;이재구;김남영;최재영;신상민;최정우;조인철;양병철
    • 생명과학회지
    • /
    • 제31권9호
    • /
    • pp.840-848
    • /
    • 2021
  • 본 연구는 제주마의 연도별 주파기록 특성을 파악하고 경주기록에 대한 환경효과 분석을 위해 수행되었다. 한국마사회가 2002년부터 2019년까지 수집한 제주마 2,167두의 48,645개 관측치 정보가 분석에 사용되었다. 환경효과 분석을 위하여 관측치 빈도가 가장 높은 800 m 기준으로 주파기록은 보정되었다. 거리별 경주기록은 동일거리 기준으로 변환되었으며 연도별 비교가 가능했다. 그 결과 표현형에서 매년 주파기록이 0.242초(R2=0.66) 단축됨을 알 수 있었다. 보정된 주파기록에 대한 환경효과의 유의성 검증 위해 일원분산분석을 수행하였고 모형에서 설정한 모든 변수에서 고도의 유의성을 나타내었다(p<0.001). 이들 변수에 대해 단계적 변수 선발법을 적용, AIC 값 산출을 통해 모형 적합도를 평가하였으며 연도, 부담구분, 기수 순위, 조교사 순위, 주로상태, 날씨, 마령, 성별 순으로 변수 선택 시 가장 낮은 AIC 값을 갖는 모형이 수립되었다. 최종적으로 주파기록에 영향하는 환경효과 분석을 위하여 기수, 조교사 순위 및 마령 3가지 변수를 임의효과로 가정하였다. 그 결과 기수와 마령을 임의효과로 설정하였을 때 주파기록에 영향하는 환경효과 분석에 가장 적합한 모형인 것으로 나타났다. 본 연구에서 도출된 결과는 제주마 유전능력 평가를 위한 모형설정 시 기초자료로 활용 가능할 것으로 사료된다.

기상요인이 대두의 지방함량에 미치는 영향 (Climatic Influence on Seed Oil Concentration in Soybean (Glycine max))

  • 양무희
    • 한국자원식물학회지
    • /
    • 제10권2호
    • /
    • pp.151-158
    • /
    • 1997
  • 본 연구는 콩계통들의 지방함량이 서로 다른 가상요인에 어떻게 영향을 받는 지를 규명하기 위해 미국 노스캐롤라이나지방의 5개 지역에서 3년에 걸쳐 수행하였다. 각 계통의 지방함량 및 지방수량들이 기상요인에 대한 Linear response가 조사되었고, 또한 최저기상 반응모델을 결정하기 위해 Stepwise Selection Program이 사용되었다. 콩지방함량, 지방수량은 기상 요인인 온도와 강우량에 의해 크게 영향을 받았으며 성숙시기에 온도가 가장 높고, 최고최저 온도범위가 가장 작은 환경에서 지방함량이 가장 낮게 나타났고, 최저온도 변이가 가장 작고 강우량변이가 가장 큰 환경에서 지방수량이 가장 높게 나타났다. 계통들의 대부준으 지방함량이 MxDT, HTD, ADT, ADTRg에 반비례하는 경향을 나타내었으며 이는 성숙시기에 온도가 높아질수록 지방함량이 감소한다는 것을 의미한다. 그러나 NC107은 MxDT, ADT에 비례하는 경향을 보였다. 모든 계통들이 VMnDT, VADTRg, ADRa에 비례하는 경향을 나타내었고 이는 최저온도와 최고최저 온도범위의 변이가 클수록, 평균강우량이 많을수록 지방함량은 증가한다는 것을 의미한다. 11계통이 1개 내지 3개의 기상변수를 가지는 최적기상모델을 형성하였다. 그러나 NC109와 NC105는 모든 기상변수에 유의한 Linear 반응을 나타내지는 않았으나 전자는 2개의 기상변수를 가지는 최적기상모델을 형성하였고 후자는 가지지 않았다. 이는 NC109는 지방 함량이 아마도 기상변수 하나에 의한 영향보다도 2개 변수의 상호작용에 의한 영향이 큰 것으로 추측 할 수 있고, NC105는 지방함량이 기상환경에 상대적으로 더 안정하기 때문인 것으로 생각된다. 위와 같은 사실은 콩지방함량의 기상반응에 대한 품종적 차이가 상당히 크다는 것을 의미한다. 지방수량은 ADTRg와 VADRa에 반비례하는 경향을 나타내었으며 이는 최고최저 온도차이와 평균강수량 변이가 클수록 지방수량은 감소한다는 것을 의미한다.

  • PDF

신경망 모형을 이용한 태풍시기의 남해안 기압예측 연구 (Study on the Sea Level Pressure Prediction of Typhoon Period in South Coast of the Korean Peninsula Using the Neural Networks)

  • 박종길;김병수;정우식;서장원;손용희;이대근;김은별
    • 대기
    • /
    • 제16권1호
    • /
    • pp.19-31
    • /
    • 2006
  • The purpose of this study is to develop the statistical model to predict sea level pressure of typhoon period in south coast of the Korean Peninsula. Seven typhoons, which struck south coast of the Korean Peninsula, are selected for this study, and the data for analysis include the central pressure and location of typhoon, and sea level pressure and location of 19 observing site. Models employed in this study are the first order regression, the second order regression and the neural network. The dependent variable of each model is a 3-hr interval sea level pressure at each station. The cause variables are the central pressure of typhoon, distance between typhoon center and observing site, and sea level pressure of 3 hrs before, whereas the indicative variable reveals whether it is before or after typhoon passing. The data are classified into two groups - one is the full data obtained during typhoon period and the other is the data that sea level pressure is less than 1000 hPa. The stepwise selection method is used in the regression model while the node number is selected in the neural network by the Schwarz's Bayesian Criterion. The performance of each model is compared in terms of the root-mean square error. It turns out that the neural network shows better performance than other models, and the case using the full data produces similar or better results than the case using the other data.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

Preoperative Prediction for Early Recurrence Can Be as Accurate as Postoperative Assessment in Single Hepatocellular Carcinoma Patients

  • Dong Ik Cha;Kyung Mi Jang;Seong Hyun Kim;Young Kon Kim;Honsoul Kim;Soo Hyun Ahn
    • Korean Journal of Radiology
    • /
    • 제21권4호
    • /
    • pp.402-412
    • /
    • 2020
  • Objective: To evaluate the performance of predicting early recurrence using preoperative factors only in comparison with using both pre-/postoperative factors. Materials and Methods: We retrospectively reviewed 549 patients who had undergone curative resection for single hepatcellular carcinoma (HCC) within Milan criteria. Multivariable analysis was performed to identify pre-/postoperative high-risk factors of early recurrence after hepatic resection for HCC. Two prediction models for early HCC recurrence determined by stepwise variable selection methods based on Akaike information criterion were built, either based on preoperative factors alone or both pre-/postoperative factors. Area under the curve (AUC) for each receiver operating characteristic curve of the two models was calculated, and the two curves were compared for non-inferiority testing. The predictive models of early HCC recurrence were internally validated by bootstrap resampling method. Results: Multivariable analysis on preoperative factors alone identified aspartate aminotransferase/platelet ratio index (OR, 1.632; 95% CI, 1.056-2.522; p = 0.027), tumor size (OR, 1.025; 95% CI, 0.002-1.049; p = 0.031), arterial rim enhancement of the tumor (OR, 2.350; 95% CI, 1.297-4.260; p = 0.005), and presence of nonhypervascular hepatobiliary hypointense nodules (OR, 1.983; 95% CI, 1.049-3.750; p = 0.035) on gadoxetic acid-enhanced magnetic resonance imaging as significant factors. After adding postoperative histopathologic factors, presence of microvascular invasion (OR, 1.868; 95% CI, 1.155-3.022; p = 0.011) became an additional significant factor, while tumor size became insignificant (p = 0.119). Comparison of the AUCs of the two models showed that the prediction model built on preoperative factors alone was not inferior to that including both pre-/postoperative factors {AUC for preoperative factors only, 0.673 (95% confidence interval [CI], 0.623-0.723) vs. AUC after adding postoperative factors, 0.691 (95% CI, 0.639-0.744); p = 0.0013}. Bootstrap resampling method showed that both the models were valid. Conclusion: Risk stratification solely based on preoperative imaging and laboratory factors was not inferior to that based on postoperative histopathologic risk factors in predicting early recurrence after curative resection in within Milan criteria single HCC patients.