• 제목/요약/키워드: SVM 모델

검색결과 395건 처리시간 0.029초

감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템 (Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments)

  • 고민수;신효필
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.669-696
    • /
    • 2010
  • 본 논문은 한 문서의 전체 의미는 각 부분의미의 합성이라는 관점에서 미리 반자동으로 구축된 감정어휘 평가사전을 기반으로 한 시스템을 제안한다. 인간의 의사 결정 과정과 유사한 방식으로 의사 결정 과정을 모델링하려는 노력으로써 본 ARSSA 시스템은 개별 리뷰의 의미값 연산과 자료 분류를 통해 감정 표현이 나타난 영화평 리뷰의 자동 등급화에 대한 연구를 수행한다. 이는 {'평점' : '리뷰'} 이항구조로 이루어진 현재의 평점 부여 형식에서 발생하는 두 변항의 불연속성 문제를 해결해보려는 목적을 가진다. 이는 어휘 의미 합성 과정에서 반영된 추상적 의미들의 합성 함수를 통해 실현될 수 있다. 시스템의 성능 실험에서 네이버 무비에서 확보한 1000개의 리뷰에 대한 10-fold 교차 검증 실험이 수행되었다. 이 실험은 기존에 부여된 평점과 비교하여 감정어휘 평가사전을 이용하였을 때 85%의 F1 Score를 보였다.

  • PDF

역삼투압 해수담수화(SWRO) 플랜트에서 독립변수의 다중공선성을 고려한 예측모델에 관한 연구 (A Study on the Prediction Model Considering the Multicollinearity of Independent Variables in the Seawater Reverse Osmosis)

  • 한인섭;윤연아;장태우;김용수
    • 품질경영학회지
    • /
    • 제48권1호
    • /
    • pp.171-186
    • /
    • 2020
  • Purpose: The purpose of this study is conducting of predictive models that considered multicollinearity of independent variables in order to carry out more efficient and reliable predictions about differential pressure in seawater reverse osmosis. Methods: The main variables of each RO system are extracted through factor analysis. Common variables are derived through comparison of RO system # 1 and RO system # 2. In order to carry out the prediction modeling about the differential pressure, which is the target variable, we constructed the prediction model reflecting the regression analysis, the artificial neural network, and the support vector machine in R package, and figured out the superiority of the model by comparing RMSE. Results: The number of factors extracted from factor analysis of RO system #1 and RO system #2 is same. And the value of variability(% Var) increased as step proceeds according to the analysis procedure. As a result of deriving the average RMSE of the models, the overall prediction of the SVM was superior to the other models. Conclusion: This study is meaningful in that it has been conducting a demonstration study of considering the multicollinearity of independent variables. Before establishing a predictive model for a target variable, it would be more accurate predictive model if the relevant variables are derived and reflected.

빅데이터 기반의 IoT 이상 장애 탐지 시스템 설계 (Design of Anomaly Detection System Based on Big Data in Internet of Things)

  • 나성일;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.377-383
    • /
    • 2018
  • 사물인터넷(IoT) 서비스는 스마트 환경이 발전하면서 다양한 데이터를 생산하고 있다. 이 데이터는 사용자의 상황을 판단하는 중요한 데이터로 사용된다. 그렇기 때문에 센서의 이상 상태를 실시간으로 모니터링하고 이상 데이터를 탐지하는 것이 중요하다. 하지만 데이터 구조와 프로토콜이 다양하기 때문에 표준화된 데이터 구조로 변환하는 과정이 필요하다. 그럼으로써 데이터의 품질을 보장하고 정확한 분석을 통해 서비스의 품질까지 좋아지는 효과를 기대할 수 있다. 본 논문은 수집된 센서의 이상탐지를 위해 빅데이터 기반의 이상탐지 시스템을 제안한다. 제안한 시스템은 이상탐지를 위해 데이터 표준화 전처리와 시계열 기반의 이상탐지가 우수한 SVM(Support Vector Machine) 모델을 적용하였다. 실험에서는 전처리와 전처리되지 않은 데이터를 각각 학습시키고 비교하였다. 그 결과, 전처리된 데이터는 이상 장애를 정확히 탐지하고 예측하였다.

실시간 공정 모니터링을 통한 제품 품질 예측 모델 개발 (A Product Quality Prediction Model Using Real-Time Process Monitoring in Manufacturing Supply Chain)

  • 오영광;박해승;유아름;김남훈;김영학;김동철;최진욱;윤성호;양희종
    • 대한산업공학회지
    • /
    • 제39권4호
    • /
    • pp.271-277
    • /
    • 2013
  • In spite of the emphasis on quality control in auto-industry, most of subcontract enterprises still lack a systematic in-process quality monitoring system for predicting the product/part quality for their customers. While their manufacturing processes have been getting automated and computer-controlled ever, there still exist many uncertain parameters and the process controls still rely on empirical works by a few skilled operators and quality experts. In this paper, a real-time product quality monitoring system for auto-manufacturing industry is presented to provide the systematic method of predicting product qualities from real-time production data. The proposed framework consists of a product quality ontology model for complex manufacturing supply chain environments, and a real-time quality prediction tool using support vector machine algorithm that enables the quality monitoring system to classify the product quality patterns from the in-process production data. A door trim production example is illustrated to verify the proposed quality prediction model.

지도학습 알고리즘 기반 3D 노지 작물 구분 모델 개발 (Development of 3D Crop Segmentation Model in Open-field Based on Supervised Machine Learning Algorithm)

  • 정영준;이종혁;이상익;오부영;;서병훈;김동수;서예진;최원
    • 한국농공학회논문집
    • /
    • 제64권1호
    • /
    • pp.15-26
    • /
    • 2022
  • 3D open-field farm model developed from UAV (Unmanned Aerial Vehicle) data could make crop monitoring easier, also could be an important dataset for various fields like remote sensing or precision agriculture. It is essential to separate crops from the non-crop area because labeling in a manual way is extremely laborious and not appropriate for continuous monitoring. We, therefore, made a 3D open-field farm model based on UAV images and developed a crop segmentation model using a supervised machine learning algorithm. We compared performances from various models using different data features like color or geographic coordinates, and two supervised learning algorithms which are SVM (Support Vector Machine) and KNN (K-Nearest Neighbors). The best approach was trained with 2-dimensional data, ExGR (Excess of Green minus Excess of Red) and z coordinate value, using KNN algorithm, whose accuracy, precision, recall, F1 score was 97.85, 96.51, 88.54, 92.35% respectively. Also, we compared our model performance with similar previous work. Our approach showed slightly better accuracy, and it detected the actual crop better than the previous approach, while it also classified actual non-crop points (e.g. weeds) as crops.

공작기계의 절삭용 인서트의 잔여 유효 수명 예측 모형 (Machine Learning Model for Predicting the Residual Useful Lifetime of the CNC Milling Insert)

  • 최원근;김흥섭;고봉진
    • 한국항행학회논문지
    • /
    • 제27권1호
    • /
    • pp.111-118
    • /
    • 2023
  • 스마트팩토리의 구축을 위해서는 제조환경에서 여러 센서 및 기기 등을 연결하여 데이터를 수집하고, 데이터 분석을 통해 생산설비 등의 장애를 진단하거나 예측하여야 한다. 본 논문에서는 공작기계에서 제품을 가공하기 위해 사용되는 절삭용 인서트의 잔여 유효 수명을 예측하기 위해 진동 신호를 기반으로 한 가중화 k-최근접이웃(Weighted k-NN) 알고리즘, 의사결정나무(Decision Tree), 서포트벡터회귀(SVM), XGBoost, 랜덤포레스트(Random forest), 1차원 합성곱신경망(1D-CNN), 그리고 진동 신호를 FFT한 주파수 스펙트럼에 대해 알아보았다. 연구결과, 주파수 스펙트럼으로는 잔여 유효수명의 정확한 예측에 대해서는 신빙성있는 기준을 제공하지 못한다는 것을 알수 있었고, 예측 모델 중 가중화 k-최근접이웃 알고리즘이 MAE가 0.0013, MSE가 0.004, RMSE가 0.0192로 가장 우수한 성능을 나타내었다. 이는 가중화 k-최근접이웃 알고리즘에 의해 예측되는 인서트의 잔여 유효 수명의 오차가 0.001초 수준으로 평가되어, 실제 산업현장에 적용이 가능한 수준으로 사료된다.

BLE 신호 기반 기계학습을 이용한 재실 여부 결정 방법 (BLE Signals-based Machine Learning for Determining Indoor Presence)

  • 김성창;김진호
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1855-1862
    • /
    • 2022
  • Beacon을 이용한 실내 재실 여부 결정 및 실내 측위 기술을 통해 다양한 실내 위치기반 서비스를 제공할 수 있다. 하지만, Beacon이 송출하는 BLE 신호는 다중 경로 페이딩 등의 문제로 인해 RSSI 값이 불안정하기 때문에 재실 여부 결정의 정확도를 보장하기 어렵다. 본 논문에서는 다양한 상황에서도 정확성을 보장하기 위해 강의실의 문이 열린 상태에서 데이터를 수집하였다. 수집된 데이터를 기반으로 신호의 특성을 고려한 재실 여부 결정 방법을 제안한다. 제안된 방법은 SVM 모델을 사용하며, 수신 신호 강도만을 사용한 결과에 비해 약 10% 정확도 향상을 보였다. 이 방법은 수신기 하나만으로도 재실 여부를 정확하게 판단할 수 있다는 장점이 있다. 제안된 방법을 통해 정확도 높은 염가형 재실 여부 결정 시스템을 구현할 수 있을 것으로 기대된다.

머신러닝을 활용한 대학생 중도탈락 위험군의 예측모델 비교 연구 : N대학 사례를 중심으로 (A Comparative Study of Prediction Models for College Student Dropout Risk Using Machine Learning: Focusing on the case of N university)

  • 김소현;조성현
    • 대한통합의학회지
    • /
    • 제12권2호
    • /
    • pp.155-166
    • /
    • 2024
  • Purpose : This study aims to identify key factors for predicting dropout risk at the university level and to provide a foundation for policy development aimed at dropout prevention. This study explores the optimal machine learning algorithm by comparing the performance of various algorithms using data on college students' dropout risks. Methods : We collected data on factors influencing dropout risk and propensity were collected from N University. The collected data were applied to several machine learning algorithms, including random forest, decision tree, artificial neural network, logistic regression, support vector machine (SVM), k-nearest neighbor (k-NN) classification, and Naive Bayes. The performance of these models was compared and evaluated, with a focus on predictive validity and the identification of significant dropout factors through the information gain index of machine learning. Results : The binary logistic regression analysis showed that the year of the program, department, grades, and year of entry had a statistically significant effect on the dropout risk. The performance of each machine learning algorithm showed that random forest performed the best. The results showed that the relative importance of the predictor variables was highest for department, age, grade, and residence, in the order of whether or not they matched the school location. Conclusion : Machine learning-based prediction of dropout risk focuses on the early identification of students at risk. The types and causes of dropout crises vary significantly among students. It is important to identify the types and causes of dropout crises so that appropriate actions and support can be taken to remove risk factors and increase protective factors. The relative importance of the factors affecting dropout risk found in this study will help guide educational prescriptions for preventing college student dropout.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.