• 제목/요약/키워드: random forest classification

검색결과 302건 처리시간 0.026초

메탈부쉬 누락예방을 위한 데이터마이닝 기법의 적용 및 비교 (Application and Comparison of Data Mining Technique to Prevent Metal-Bush Omission)

  • 고상현;이동주
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.139-147
    • /
    • 2023
  • The metal bush assembling process is a process of inserting and compressing a metal bush that serves to reduce the occurrence of noise and stable compression in the rotating section. In the metal bush assembly process, the head diameter defect and placement defect of the metal bush occur due to metal bush omission, non-pressing, and poor press-fitting. Among these causes of defects, it is intended to prevent defects due to omission of the metal bush by using signals from sensors attached to the facility. In particular, a metal bush omission is predicted through various data mining techniques using left load cell value, right load cell value, current, and voltage as independent variables. In the case of metal bush omission defect, it is difficult to get defect data, resulting in data imbalance. Data imbalance refers to a case where there is a large difference in the number of data belonging to each class, which can be a problem when performing classification prediction. In order to solve the problem caused by data imbalance, oversampling and composite sampling techniques were applied in this study. In addition, simulated annealing was applied for optimization of parameters related to sampling and hyper-parameters of data mining techniques used for bush omission prediction. In this study, the metal bush omission was predicted using the actual data of M manufacturing company, and the classification performance was examined. All applied techniques showed excellent results, and in particular, the proposed methods, the method of mixing Random Forest and SA, and the method of mixing MLP and SA, showed better results.

Protecting Accounting Information Systems using Machine Learning Based Intrusion Detection

  • Biswajit Panja
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.111-118
    • /
    • 2024
  • In general network-based intrusion detection system is designed to detect malicious behavior directed at a network or its resources. The key goal of this paper is to look at network data and identify whether it is normal traffic data or anomaly traffic data specifically for accounting information systems. In today's world, there are a variety of principles for detecting various forms of network-based intrusion. In this paper, we are using supervised machine learning techniques. Classification models are used to train and validate data. Using these algorithms we are training the system using a training dataset then we use this trained system to detect intrusion from the testing dataset. In our proposed method, we will detect whether the network data is normal or an anomaly. Using this method we can avoid unauthorized activity on the network and systems under that network. The Decision Tree and K-Nearest Neighbor are applied to the proposed model to classify abnormal to normal behaviors of network traffic data. In addition to that, Logistic Regression Classifier and Support Vector Classification algorithms are used in our model to support proposed concepts. Furthermore, a feature selection method is used to collect valuable information from the dataset to enhance the efficiency of the proposed approach. Random Forest machine learning algorithm is used, which assists the system to identify crucial aspects and focus on them rather than all the features them. The experimental findings revealed that the suggested method for network intrusion detection has a neglected false alarm rate, with the accuracy of the result expected to be between 95% and 100%. As a result of the high precision rate, this concept can be used to detect network data intrusion and prevent vulnerabilities on the network.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

러프 하한 근사를 갖는 로컬 커버링 기반 규칙 획득 기법을 이용한 섬망 환자의 분류 방법 (A Classification Method of Delirium Patients Using Local Covering-Based Rule Acquisition Approach with Rough Lower Approximation)

  • 손창식;강원석;이종하;문경자
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.137-144
    • /
    • 2020
  • 섬망은 의식 장애, 주의력 장애 및 언어력 장애와 같은 일시적인 인지 장애가 있는 환자, 특히 노인에서 나타나는 가장 흔한 정신 장애 중 하나이다. 섬망은 환자와 가족에게 고통을 주고, 통증과 같은 증상의 관리를 방해할 수 있으며 노인 사망률 증가와 관련이 있다. 본 논문의 목적은 장기 요양 시설에서 섬망 환자를 구별하는데 사용될 수 있는 유용한 임상적 지식을 생성하는데 있다. 이러한 목적을 위해, 러프 하한 근사 영역을 갖는 로컬 커버링 규칙 기법을 활용하여 섬망과 관련된 임상적 분류 지식을 추출하였다. 제안된 방법의 임상적 적용 가능성은 전향적 코호트 연구로부터 수집된 데이터를 활용하여 확인하였다. 연구 결과, 섬망 기간이 12일 이상 지속될 수 있는 6가지 유용한 임상적 증거를 발견하였고, 체질량 지수, 동반질환 지수, 입원경로, 영양결핍, 감염, 수면박탈, 욕창, 기저귀 사용과 같은 8가지 인자들이 섬망 결과를 구별하는 데 중요한 요인이라는 것을 확인하였다. 제안된 방법의 분류 성능은 통계적 5-겹 교차검정 방법을 사용하여 3가지 벤치마킹 모델, 즉 ANN, RBF 커널 함수를 활용한 SVM, 랜덤 포레스트와 비교하여 검증하였다. 제안된 방법은 3가지 모델 중 가장 높은 성능을 제공한 SVM 모델과 비교했을 때 정확도와 AUC 기준에서 평균 0.6%와 2.7% 개선된 성능을 보였다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

토지피복 공간정보를 활용한 자동 훈련지역 선택 기법 (Automatic selection method of ROI(region of interest) using land cover spatial data)

  • 조기환;정종철
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.171-183
    • /
    • 2018
  • 급속한 위성영상 공급확대에도 불구하고 자동화되지 못한 영상처리과정으로 인해 영상활용이 제약받는 경우가 많다. 본 연구에서는 감독영상분류를 위한 훈련지역 선택과정을 자동화함으로써 영상처리과정의 비용과 시간을 절감하는 방안을 제시하였다. 이를 위해 기존의 토지피복 정보를 활용하여 훈련관심영역을 추출하는 방법을 최신영상에 적용하여 토지피복분류를 실행한 후 분류정확도를 평가하였다. 원주시 도심지역을 대상지로 하여 토지유형을 시가지역과 농지/초지, 숲, 나대지 및 수계로 나누고 유형별 훈련관심영역을 환경부 중분류 토지피복지도를 활용하여 선택하였다. 관심영역 선택을 위해 먼저 토지피복지도 폴리곤 경계를 기준으로 negative buffer (-15m)를 적용하여 새로 폴리곤을 만들었고 너무 작은 폴리곤(<$2,000m^3$)과 큰 폴리곤(>$200,000m^3$)을 제외하였다. 선택된 폴리곤들의 밴드별 반사율 표준편차와 평균값 및 NDVI의 평균값을 계산하였다. 이 정보를 이용하여 먼저 표준편차가 적은 폴리곤 (폴리곤 내 반사율 값의 편차가 크지 않은 폴리곤)을 선택한 후 이들 중 반사율 평균값이 각 유형의 특징적인 분광특성을 반영할 수 있는 폴리곤을 관심영역으로 선택하였다. 2017년 Sentinel-2영상을 활용하여 토지피복유형을 분류한 결과 86.9%의 분류정확도($\hat{K}=0.81$)가 도출되었다. 본 연구에서 시도된 자동 관심영역 선택방법 적용한 결과 수동 디지타이징 과정을 생략하고도 높은 분류정확도를 도출 할 수 있었으며 이와 같은 방법을 통해 영상처리에 필요한 시간과 비용을 절약하여 급속히 증가하고 있는 영상을 효율적으로 활용할 수 있게 될 것으로 기대된다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

유제품 산업의 품질검사를 위한 빅데이터 플랫폼 개발: 머신러닝 접근법 (Building an Analytical Platform of Big Data for Quality Inspection in the Dairy Industry: A Machine Learning Approach)

  • 황현석;이상일;김성현;이상원
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.125-140
    • /
    • 2018
  • 품질검사는 중간상품이나 최종상품을 품질관리 표준을 만족하는 양품과 불량품으로 분리하는 일을 수행한다. 대량생산체계에서 품질을 수작업으로 검사하는 것은 일관성과 효율성을 저하시키므로 대량으로 생산되는 상품의 품질을 검사하는 것은 다수의 공정에서 기계에 의한 자동 확인과 분류를 포함하게 된다. 생산공정에서 발생하는 데이터를 활용하여 공정을 개선하고 최적화하려는 선행 연구들이 많았음에도 불구하고, 실시간에 많은 데이터를 처리하는데 있어서의 기술적인 한계로 인해 실제 구현에서의 제약이 많이 있었다. 최근 빅데이터에 관한 연구에서는 데이터 처리기술을 개선하였고, 실시간에 데이터를 수집, 처리, 분석하는 과정을 가능하게 하게 하고 있다. 본 논문에서는 품질검사를 위한 빅데이터 적용의 단계와 세부사항을 제안하고, 유제품 산업에 적용 사례를 제시하려고 한다. 먼저 선행 연구들을 조사하고, 제조 부문에 적용할 수 있는 빅데이터 분석절차를 제안하며 제안된 방법의 실현가능성을 평가하기 위해서, 유제품 산업 분야의 품질검사과정 중 하나에 회선신경망(Convolutional Neural Network) 기술 및 랜덤포레스트(Random Forest) 기술을 적용하였다. 품질검사를 위해 제품의 뚜껑 및 빨대의 사진을 수집, 처리, 분석하여, 결함 여부를 판단하고, 과거 품질 검사결과와 비교하였다. 제안된 방법은 과거에 수행되었던 품질검사에 비해 분류 정확성 측면에서 의미 있는 개선을 확인할 수 있었다. 본 연구를 통해, 유제품 산업의 빅데이터 활용을 통한 품질검사 정확도 개선 가능성을 확인하였다.

기계학습을 통한 여름철 노면상태 추정 알고리즘 개발 (Estimation of Road Surface Condition during Summer Season Using Machine Learning)

  • 여지호;이주영;김강화;장기태
    • 한국ITS학회 논문지
    • /
    • 제17권6호
    • /
    • pp.121-132
    • /
    • 2018
  • 기상은 교통흐름, 운전자의 주행패턴, 교통사고 등 여러 방면에서 도로교통에 영향을 미치는 중요한 요인이다. 본 연구는 기상상황과 노면상태 사이의 관계에 초점을 맞추어 기계학습을 통해 도로의 노면상태를 추정하는 모델을 개발하였다. 노면 상태의 수집을 위해 실험 차량에 노면센서를 부착하여 '건조', '습윤', '젖음', 3가지 범주로 구분된 노면상태 정보를 수집하였고, 이를 추정하기 위한 변수로 도로의 기하구조 정보(곡률, 구배), 교통정보(교통량), 기상정보(강우량, 습도, 온도, 풍속)를 활용하였다. 노면 상태를 예측하기 위한 알고리즘으로는 다양한 기계학습 알고리즘이 검토되었으며, 그 중 가장 높은 정확도를 보인 'Random forest'를 기반으로 한 2단계 분류모형을 구축하였다. 총 16일의 실측 데이터 중 14일의 데이터를 모델을 학습하는 데 활용하였고, 2일의 데이터를 모형의 정확도를 검증하기 위해 사용하였다. 그 결과 81.74%의 검증 정확도를 가지는 노면상태 예측 모델을 구축하였다. 본 연구의 결과는 기상청에서 관측하는 기상정보로 도로의 노면상태를 추정할 수 있다는 가능성을 보여주며, 새로운 장비나 센서를 설치하지 않고도 기존의 기상 관측 정보와 교통정보 등을 활용하여 노면의 상태를 추정할 수 있음을 시사한다.

회전수가 변하는 기기의 고장진단에 있어서 특성 기반 분류와 합성곱 기반 알고리즘의 예측 정확도 비교 (Comparison of Prediction Accuracy Between Classification and Convolution Algorithm in Fault Diagnosis of Rotatory Machines at Varying Speed)

  • 문기영;김형진;황세윤;이장현
    • 한국항해항만학회지
    • /
    • 제46권3호
    • /
    • pp.280-288
    • /
    • 2022
  • 본 연구는 정상 가동 중에도 회전수가 변하는 기기의 이상 및 고장 진단 방안을 다루고 있다. 회전수가 변함에 따라 비정상적 시계열 특성을 내포한 센서 데이터에 기계학습을 적용할 수 있는 절차를 제시하고자 하였다. 기계학습으로는 k-Nearest Neighbor(k-NN), Support Vector Machine(SVM), Random Forest을 사용하여 이상 및 고장 진단을 수행하였다. 또한 진단 정확성을 비교할 목적으로 이상 감지에 오토인코더, 고장진단에는 합성곱 기반의 Conv1D도 추가로 이용하였다. 비정상적 시계열로부터 통계 및 주파수 속성으로 구성된 시계열 특징 벡터를 추출하고, 추출된 특징 벡터에 정규화 및 차원 축소 기법을 적용하였다. 특징 벡터의 선택과 정규화, 차원 축소 여부에 따라 달라지는 기계학습의 진단 정확도를 비교하였다. 또한, 적용된 학습 알고리즘 별로 초매개변수 최적화 과정과 적층 구조를 설명하였다. 최종적으로 기존의 심층학습과 비교하여, 기계학습도 가변 회전기기의 고장을 정확하게 진단할 수 있는 절차를 제시하였다.