• 제목/요약/키워드: k-fold cross validation

검색결과 154건 처리시간 0.021초

K-겹 교차 검증과 서포트 벡터 머신을 이용한 고무 오링결함 검출 시스템 (Rubber O-ring defect detection system using K-fold cross validation and support vector machine)

  • 이용은;최낙준;변영후;김대원;김경천
    • 한국가시화정보학회지
    • /
    • 제19권1호
    • /
    • pp.68-73
    • /
    • 2021
  • In this study, the detection of rubber o-ring defects was carried out using k-fold cross validation and Support Vector Machine (SVM) algorithm. The data process was carried out in 3 steps. First, we proceeded with a frame alignment to eliminate unnecessary regions in the learning and secondly, we applied gray-scale changes for computational reduction. Finally, data processing was carried out using image augmentation to prevent data overfitting. After processing data, SVM algorithm was used to obtain normal and defect detection accuracy. In addition, we applied the SVM algorithm through the k-fold cross validation method to compare the classification accuracy. As a result, we obtain results that show better performance by applying the k-fold cross validation method.

시계열 교차검증을 적용한 2,3-BDO 분리공정 온도예측 모델의 초매개변수 최적화 (Application of Time-series Cross Validation in Hyperparameter Tuning of a Predictive Model for 2,3-BDO Distillation Process)

  • 안나현;최영렬;조형태;김정환
    • Korean Chemical Engineering Research
    • /
    • 제59권4호
    • /
    • pp.532-541
    • /
    • 2021
  • 최근 인공지능에 대한 관심이 높아짐에 따라 화학공정분야에서도 인공지능을 활용한 연구가 많아지고 있다. 그러나 인공지능 기반 모델이 충분히 일반화되지 않아 학습에 이용되지 않은 새로운 데이터에 대한 예측률이 떨어지는 과적합 현상이 빈번하게 일어나고 있으며, 교차검증은 과적합을 해결하는 방법 중 하나이다. 본 연구에서는 2,3-BDO 분리 공정 온도 예측 모델의 초매개변수 중에서 배치 개수와 반복횟수를 조정하기 위해 시계열 교차검증을 적용하고 일반적으로 사용되는 K 겹 교차검증과 비교하였다. 결과적으로 K 겹 교차검증을 사용했을 때 보다 시계열 교차검증 방식을 사용했을 때 MAPE는 0.61% 증가한 반면 RMSE는 9.06% 감소하였고 학습 시간은 198.29초 적게 소요되었다.

Developing a Molecular Prognostic Predictor of a Cancer based on a Small Sample

  • Kim Inyoung;Lee Sunho;Rha Sun Young;Kim Byungsoo
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.195-198
    • /
    • 2004
  • One Important problem in a cancer microarray study is to identify a set of genes from which a molecular prognostic indicator can be developed. In parallel with this problem is to validate the chosen set of genes. We develop in this note a K-fold cross validation procedure by combining a 'pre-validation' technique and a bootstrap resampling procedure in the Cox regression . The pre-validation technique predicts the microarray predictor of a case without having seen the true class level of the case. It was suggested by Tibshirani and Efron (2002) to avoid the possible over-fitting in the regression in which a microarray based predictor is employed. The bootstrap resampling procedure for the Cox regression was proposed by Sauerbrei and Schumacher (1992) as a means of overcoming the instability of a stepwise selection procedure. We apply this K-fold cross validation to the microarray data of 92 gastric cancers of which the experiment was conducted at Cancer Metastasis Research Center, Yonsei University. We also share some of our experience on the 'false positive' result due to the information leak.

  • PDF

SVM 교차검증을 활용한 토지피복 ROI 선정 (Region of Interest (ROI) Selection of Land Cover Using SVM Cross Validation)

  • 정종철;윤형진
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.75-85
    • /
    • 2020
  • 본 연구는 토지피복 분류에 사용 가능한 ROI 생성 과정에서 기계학습 기반 교차검증을 활용하였다. 연구지역은 세종시를 포함한 2019년 10월 28일 단시기 KOMPSAT-3A 영상을 활용하였다. 연구 과정에서 4개의 밴드(Red, Green, Blue, Near Infra-red)를 독립변수로 교차검증 과정에서 학습시켰다. 또한 SVM의 4가지 기법(Linear, Polynomial, RBF, Sigmoid)을 활용하여 추출된 ROI를 기반으로 토지피복 분류를 실시하였다. 교차검증 과정에서 훈련된 3,500개의 데이터 중 1,813개의 데이터가 추출되었으며 건물, 도로, 그리고 초지에서 약 60%의 데이터가 제거되었다. 추출된 ROI를 기반으로 다른 SVM기법에 비해 SVM Linear 기법이 91.77%로 가장 높은 분류 정확도를 나타냈다. 분류 클래스 중 초지의 경우 산림과의 오분류가 가장 많이 발생하며 79.43%의 생산자 정확도로 가장 낮은 분류 정확도를 보여주었다. 연구 결과에 따라 교차검증에서 추출된 ROI는 산림, 수역, 그리고 농업지역에 대해서는 90%이상의 분류정확도를 보여주며 효과적인 분류결과를 도출할 수 있었으나, 80%의 분류정확도를 보여주는 건물, 도로, 나대지, 그리고 초지 지역을 분류하는 방법에 대해서는 추가적인 연구가 진행되어야 할 필요성이 존재한다.

스마트 기기 환경에서 전력 신호 분석을 통한 프라이버시 침해 위협 (Threatening privacy by identifying appliances and the pattern of the usage from electric signal data)

  • 조재연;윤지원
    • 정보보호학회논문지
    • /
    • 제25권5호
    • /
    • pp.1001-1009
    • /
    • 2015
  • 스마트 그리드 안에서 고안된 스마트 미터는 우리가 사용하는 전력 신호를 실시간으로 데이터화해서 전력 공급단의 메인 서버로 전송한다. 이를 통해 전력 관리의 효율성은 증가한 반면, 사용자의 정보를 담은 데이터의 보안 문제가 새로운 위협으로 부상하였다. 본 논문은 스마트 미터에서 추출한 전력 데이터를 통해 가정 내 기기의 식별 및 기기별 사용패턴에 대한 추론을 보안 관점에서 해석함으로써 스마트 기기 환경에서 데이터 노출의 위협을 지적한다. 주성분분석(Principal Component Analysis)으로 데이터의 특징을 추출하였고 k-근접 이웃(k- Nearest Neighbor)분류기로 기기를 식별하고 기기상태를 추론하였으며, 검증방법으로는 10차 교차검증(10-fold Cross Validation)을 활용하였다.

항공기 날개의 통계적 중량 예측식 도출 연구 (A Study on Deriving the Statistical Weight Estimation Formula for an Aircraft Wing)

  • 김석범;정한규;황호연
    • 한국항공우주학회지
    • /
    • 제46권1호
    • /
    • pp.32-40
    • /
    • 2018
  • 본 논문에서는 개념설계 단계에서 주로 사용되는 통계적 중량 예측식 도출 방법에 관한 연구를 수행하였으며 Microsoft Excel을 이용해 이를 프로그램화하고 제트 여객기에 적용하여 검증하였다. 기존 중량 예측식들의 변수들을 참고하여 데이터베이스를 구축하였고 이를 사용하여 제트 여객기 날개 중량 예측식을 모델링하였다. 모델의 과적합 문제를 해결하기 위해 K-fold cross validation 방법을 사용하여 모델을 평가하였다.

교차검증과 SVM을 이용한 도시침수 위험기준 추정 알고리즘 적용성 검토 (Applicability study on urban flooding risk criteria estimation algorithm using cross-validation and SVM)

  • 이한승;조재웅;강호선;황정근
    • 한국수자원학회논문집
    • /
    • 제52권12호
    • /
    • pp.963-973
    • /
    • 2019
  • 본 연구는 도시침수 위험기준이 산정되지 않은 지역의 예·경보 기준을 예측하기 위해 유역특성 자료와 피해이력 기반으로 산정된 한계강우량을 활용하여 도시침수 위험기준을 추정하는 모델을 검토하였다. 위험기준 추정모델은 머신러닝 알고리즘의 하나인 Support Vector Machine을 이용하여 설계하였으며, 학습자료는 지역별 한계강우량과 유역특성으로 구성하였다. 학습자료는 정규화 한 후 SVM 알고리즘에 적용하였으며, SVM에 적용시 Leave-One-Out과 K-fold 교차검증 알고리즘을 이용하여 절대평균오차와 표준편차를 계산한 후 모델의 성능을 평가하였다. Leave-One-Out의 경우 표준편차가 작은 모델이 최적모델로 선정되었으며, K-fold의 경우 fold의 개수가 적은 모델이 선정되었다. 선정된 모델의 지속시간별 평균 정확도는 80% 이상으로 나타나 침수 위험기준 추정을 위해 SVM을 활용가능 할 것으로 판단된다.

호흡곤란 환자 퇴원 결정을 위한 벌점 로지스틱 회귀모형 (Penalized logistic regression models for determining the discharge of dyspnea patients)

  • 박철용;계묘진
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.125-133
    • /
    • 2013
  • 이 논문에서는 호흡곤란을 주호소로 내원한 668명의 환자를 대상으로 11개 혈액검사 결과를 이용하여 퇴원여부를 결정하는 벌점 이항 로지스틱 회귀 기반 통계모형을 유도하였다. 구체적으로 $L^2$ 벌점에 근거한 능형 모형과 $L^1$ 벌점에 근거한 라소 모형을 고려하였다. 이 모형의 예측력 비교 대상으로는 일반 로지스틱 회귀의 11개 전체 변수를 사용한 모형과 변수선택된 모형이 사용되었다. 10-묶음 교차타당성 (10-fold cross-validation) 비교 결과 능형 모형의 예측력이 우수한 것으로 나타났다.

Machine Learning Based Hybrid Approach to Detect Intrusion in Cyber Communication

  • Neha Pathak;Bobby Sharma
    • International Journal of Computer Science & Network Security
    • /
    • 제23권11호
    • /
    • pp.190-194
    • /
    • 2023
  • By looking the importance of communication, data delivery and access in various sectors including governmental, business and individual for any kind of data, it becomes mandatory to identify faults and flaws during cyber communication. To protect personal, governmental and business data from being misused from numerous advanced attacks, there is the need of cyber security. The information security provides massive protection to both the host machine as well as network. The learning methods are used for analyzing as well as preventing various attacks. Machine learning is one of the branch of Artificial Intelligence that plays a potential learning techniques to detect the cyber-attacks. In the proposed methodology, the Decision Tree (DT) which is also a kind of supervised learning model, is combined with the different cross-validation method to determine the accuracy and the execution time to identify the cyber-attacks from a very recent dataset of different network attack activities of network traffic in the UNSW-NB15 dataset. It is a hybrid method in which different types of attributes including Gini Index and Entropy of DT model has been implemented separately to identify the most accurate procedure to detect intrusion with respect to the execution time. The different DT methodologies including DT using Gini Index, DT using train-split method and DT using information entropy along with their respective subdivision such as using K-Fold validation, using Stratified K-Fold validation are implemented.

Prediction of concrete compressive strength using non-destructive test results

  • Erdal, Hamit;Erdal, Mursel;Simsek, Osman;Erdal, Halil Ibrahim
    • Computers and Concrete
    • /
    • 제21권4호
    • /
    • pp.407-417
    • /
    • 2018
  • Concrete which is a composite material is one of the most important construction materials. Compressive strength is a commonly used parameter for the assessment of concrete quality. Accurate prediction of concrete compressive strength is an important issue. In this study, we utilized an experimental procedure for the assessment of concrete quality. Firstly, the concrete mix was prepared according to C 20 type concrete, and slump of fresh concrete was about 20 cm. After the placement of fresh concrete to formworks, compaction was achieved using a vibrating screed. After 28 day period, a total of 100 core samples having 75 mm diameter were extracted. On the core samples pulse velocity determination tests and compressive strength tests were performed. Besides, Windsor probe penetration tests and Schmidt hammer tests were also performed. After setting up the data set, twelve artificial intelligence (AI) models compared for predicting the concrete compressive strength. These models can be divided into three categories (i) Functions (i.e., Linear Regression, Simple Linear Regression, Multilayer Perceptron, Support Vector Regression), (ii) Lazy-Learning Algorithms (i.e., IBk Linear NN Search, KStar, Locally Weighted Learning) (iii) Tree-Based Learning Algorithms (i.e., Decision Stump, Model Trees Regression, Random Forest, Random Tree, Reduced Error Pruning Tree). Four evaluation processes, four validation implements (i.e., 10-fold cross validation, 5-fold cross validation, 10% split sample validation & 20% split sample validation) are used to examine the performance of predictive models. This study shows that machine learning regression techniques are promising tools for predicting compressive strength of concrete.