디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.
자동차보험 교통사고 진료비는 매년 증가하고 있다. 본 연구는 교통사고 진료비용 상승의 주요 항목인 경상환자 중 장기입원환자(18일 이상)를 예측하는 모델을 decision tree 등 5개 알고리즘을 이용하여 생성하고, 장기입원에 영향을 미치는 요인을 분석했다. 그 결과, 예측 모델의 정확도는 91.377 ~ 91.451이며 각 모델 사이에 큰 차이점은 없었으나 random forest와 XGBoost 모델이 91.451로 가장 높았다. 설명변수 중요도에 있어서 병원 소재지, 상병명, 병원 종류 등 장기환자군과 비 장기입원 환자군 사이에 모델마다 상당한 차이가 있었다. 모델 평가는 훈련 데이터의 교차검증(10회)한 모델별 평균 정확도와 실험 데이터의 정확도를 상호 비교한 결과로 검정했다. 설명변수 유의성 검증을 위해 범주형 변수는 카이제곱 테스트를 실시하였다. 본 논문의 연구 결과는 경상 환자들의 과잉진료 및 사회적 보험료 비용을 줄이는 진료행태 분석에 도움이 될 것이다.
Purpose: The purpose of this study is to propose useful suggestions by analyzing the causal effect relationship between the failure rate of quality and the process variables in the C5ISR domain of the defense industry. Methods: The collected data through the in house Systems were analyzed using Big data analysis. Data analysis between quality data and A/S history data was conducted using the CRISP-DM(Cross-Industry Standard Process for Data Mining) analysis process. Results: The results of this study are as follows: After evaluating the performance of candidate models for the influence of inspection data and A/S history data, logistic regression was selected as the final model because it performed relatively well compared to the decision tree with an accuracy of 82%/67% and an AUC of 0.66/0.57. Based on this model, we estimated the coefficients using 'R', a data analysis tool, and found that a specific variable(continuous maximum discharge current time) had a statistically significant effect on the A/S quality failure rate and it was analysed that 82% of the failure rate could be predicted. Conclusion: As the first case of applying big data analysis to quality issues in the defense industry, this study confirms that it is possible to improve the market failure rates of defense products by focusing on the measured values of the main causes of failures derived through the big data analysis process, and identifies improvements, such as the number of data samples and data collection limitations, to be addressed in subsequent studies for a more reliable analysis model.
국내 NPL (Non performing loan) 시장은 1998년에 형성되었지만, 본격적으로 활성화 된 시기는 2009년으로 역사가 짧은 시장이다. 이로 인해 NPL 시장에 대한 연구도 아직까지는 활발히 진행되지 않고 있는 상황이다. 본 연구는 NPL 시장의 각 물건 별 기준 수익률 달성 유무를 예측할 수 있는 모델을 제안한다. 모델 구축에 사용되는 종속변수는 물건 별 최종 수익률이 기준 수익률 수치 도달 여부를 나타내는 이항변수를 사용하였고, 독립변수로는 물건의 특성을 나타내는 11개의 변수를 대상으로 one to one t-test와 logistic regression stepwise, decision tree를 수행하여 의미있는 7개의 독립변수를 선별하였다. 그리고 통상적으로 사용되는 기준 수익률 수치(12%)가 의미있는 기준 수치인지 확인하기 위해 수치 값을 조절해가며 종속변수를 산출하여 예측모델을 구축해보았다. 그 결과 12%의 기준 수익률 수치로 산출한 종속변수를 이용하여 구축한 예측모델의 평균 Hit ratio가 64.60%로 가장 우수하다는 결과를 얻었다. 다음으로 선별된 7개의 독립변수들과 12%를 기준으로한 수익률 달성유무 종속변수를 이용하여 판별분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망, 유전자알고리즘 선형 모델의 5가지 방법론을 적용해 예측모델을 구축해보았다. 5가지 방법론으로 도출한 예측 모델 간 Hit ratio를 비교한 결과 인공신경망을 이용하여 구축한 예측모델의 Hit ratio가 67.4%로 가장 우수한 결과를 도출해내었다. 본 연구를 통해 추후 NPL시장 신규 물건 매매에 있어서 7가지의 독립변수들과 인공신경망 예측 모델을 활용하는 것이 효과적임을 증명하였다. 물건의 12% 수익률 달성 여부를 사전에 예측해봄으로써 유동화회사가 투자 의사결정을 하는 데에 도움을 줄 것으로 예상하며, 나아가 NPL 시장의 거래가 적정한 가격 선에서 진행됨으로 인해 유동성이 더욱 높아질 것이라 기대한다.
본 연구의 목적은 당뇨환자 관리와 관련된 요인을 규명하는데 있다. 2005년 국민건강 영양조사에 참여한 20세 이상의 성인 당뇨환자를 대상으로 하였다. 데이터마이닝 기법을 이용하여 로지스틱 회귀모형, 의사결정나무, 신경망 모형으로 당뇨환자관리모형을 개발한 결과 의사결정나무가 가장 설명력이 뛰어났다. 당뇨인지율과 관련된 요인으로는 연령, 거주지 및 직업이었고 중 연령이 가장 중요한 요인으로 나타났다. 당뇨치료율과 관련된 요인으로는 당뇨인지여부, 거주지 및 직업이었고 그 중 당뇨인지여부가 가장 중요한 변수로 나타났다. 당뇨환자의 관리프로그램은 당뇨환자의 특성별 군집으로 분류하고 그에 따라 관리해야 한다.
본 연구는 다양한 머신러닝 기법을 통해 코스닥(KOSDAQ) 시장 내 관리종목 지정을 예측할 수 있는 모델에 대해 연구하였다. 증권시장 내 기업이 관리종목으로 지정이 되면 시장에서는 이를 부정적인 정보로 인식하여 해당 기업과 투자자에게 손실을 가져오게 된다. 본 연구를 통해 기업의 재무적 데이터를 바탕으로 조기에 관리종목 지정을 예측하고, 투자자들의 포트폴리오 리스크 관리에 도움을 주기 위한 머신러닝 접근이 타당한지 살펴본다. 본 연구를 위해 활용한 독립변수는 수익성, 안정성, 활동성, 성장성을 나타내는 21개의 재무비율을 활용하였으며, K-IFRS가 적용된 2011년부터 2020년까지 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 추출하였다. 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, LightGBM을 활용하여 관리종목 지정 예측 연구를 수행하였다. 연구결과는 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 의사결정나무 기반 학습 모형의 변수 중요도의 상위 3개 변수를 확인한 결과 각 모형에서 공통적으로 나온 재무변수는 ROE(당기순이익), 자본금회전율(Capital stock turnover ratio)로 해당 재무변수가 관리종목 지정에 있어 상대적으로 중요한 변수임을 확인하였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높은 것을 확인하였다. 기존 선행연구가 K-IFRS에 대한 고려를 하지 않았고, 다소 제한된 머신러닝에 의존하였다. 따라서 본 연구의 필요성과 함께 현실적 요구를 충족시키는 결과를 제시하였음을 알 수 있으며, 시장참여자들에게 있어 관리종목 지정에 대한 사전 예측을 확인할 수 있도록 기여했다고 볼 수 있다.
Erdal, Hamit;Erdal, Mursel;Simsek, Osman;Erdal, Halil Ibrahim
Computers and Concrete
/
제21권4호
/
pp.407-417
/
2018
Concrete which is a composite material is one of the most important construction materials. Compressive strength is a commonly used parameter for the assessment of concrete quality. Accurate prediction of concrete compressive strength is an important issue. In this study, we utilized an experimental procedure for the assessment of concrete quality. Firstly, the concrete mix was prepared according to C 20 type concrete, and slump of fresh concrete was about 20 cm. After the placement of fresh concrete to formworks, compaction was achieved using a vibrating screed. After 28 day period, a total of 100 core samples having 75 mm diameter were extracted. On the core samples pulse velocity determination tests and compressive strength tests were performed. Besides, Windsor probe penetration tests and Schmidt hammer tests were also performed. After setting up the data set, twelve artificial intelligence (AI) models compared for predicting the concrete compressive strength. These models can be divided into three categories (i) Functions (i.e., Linear Regression, Simple Linear Regression, Multilayer Perceptron, Support Vector Regression), (ii) Lazy-Learning Algorithms (i.e., IBk Linear NN Search, KStar, Locally Weighted Learning) (iii) Tree-Based Learning Algorithms (i.e., Decision Stump, Model Trees Regression, Random Forest, Random Tree, Reduced Error Pruning Tree). Four evaluation processes, four validation implements (i.e., 10-fold cross validation, 5-fold cross validation, 10% split sample validation & 20% split sample validation) are used to examine the performance of predictive models. This study shows that machine learning regression techniques are promising tools for predicting compressive strength of concrete.
연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.
In the entertainment industry which has great uncertainty, it is essential to predict public preference first. Thanks to various mass media channels such as cable TV and internet-based streaming services, the reality audition program has been getting big attention every day and it is being used as a new window to new entertainers' debut. This phenomenon means that it is changing from a closed selection process to an open selection process, which delegates selection rights to the public. This is characterized by the popularity of the public being reflected in the selection process. Therefore, this study aims to implement a machine learning model which predicts the winner of , which has recently been popular in South Korea. By doing so, this study is to extend the research method in the cultural industry and to suggest practical implications. We collected the data of winners from the 1st, 2nd, and 3rd seasons of the Produce 101 and implemented the predictive model through the machine learning method with the accumulated data. We tried to develop the best predictive model that can predict winners of by using four machine learning methods such as Random Forest, Decision Tree, Support Vector Machine (SVM), and Neural Network. This study found that the audience voting and the amount of internet news articles on each participant were the main variables for predicting the winner and extended the discussion by analyzing the precision of prediction.
국가수준에서 시행되는 진단평가는 학교에서 학습부진이 있는 학생을 조기 발견하는 것이 매우 중요하다. 본연구는 부산교육종단의 2019년 중학교 1학년의 데이터를 입력하여 2020년 성취여부를 판별하는 인공지능 모델을 구축하고 분석하였다. 머신러닝 알고리즘으로 중학교 국어, 영어, 수학 기초학력을 예측하는 예측모형을 개발하고, 다음 학년 예측에도 78%, 82%, 83% 의 정확도를 보이는 것을 확인하였다. 또한, 중학교 과목별 성취예측 의사결정트리를 그려서 과정을 분석해보면서, 성취 예측에 영향을 미치는 특성들은 어떠한 것들이 있는지 살펴보았다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.