• 제목/요약/키워드: Multiple Machine Learning

검색결과 356건 처리시간 0.027초

생활 폐기물 다중 객체 검출과 분류를 위한 i-YOLOX 구조에 관한 연구 (A Study on the i-YOLOX Architecture for Multiple Object Detection and Classification of Household Waste)

  • 왕웨이광;정경권;이태원
    • 융합보안논문지
    • /
    • 제23권5호
    • /
    • pp.135-142
    • /
    • 2023
  • 생활 폐기물 쓰레기는 기후 변화, 자원 부족, 환경 오염을 불러오는 대표적인 문제로서, 이러한 문제를 해결하기 위해 지능적으로 쓰레기를 분류하는 방식을 연구하였고, 전통적인 분류 알고리즘부터 기계학습, 신경망에 이르기까지 많은 연구가 진행되고 있다. 그러나, 다양한 환경과 조건에서 쓰레기를 분류하기에는 여전히 데이터셋이 부족하고, 신경망 네트워크 구성 복잡도가 증가하며, 성능 측면에서도 실생활에 적용하기에 아직 미흡하다. 따라서 본 논문에서는 신속한 분류와 정확도 향상을 위해 i-YOLOX를 제안하고, 네트워크 매개변수, 검출속도, 정확도 등을 평가한다. 이를 위해 17개의 폐기물 범주를 포함하는 10,000개의 가정용 쓰레기 대상 샘플로 데이터 세트를 구성하고, YOLOX 구조에 Involution 채널 컨볼루션 연산자와 CBAM(Convolution Branch Attention Module)을 도입하여 i-YOLOX를 구성하고, 기존의 YOLO 구조와 성능을 비교한다. 실험 결과 복잡한 장면에서 쓰레기 객체 검출 속도와 정확도가 기존의 신경망에 비해 향상되어, 제안한 i-YOLOX 구조가 생활 폐기물 다중 객체 검출과 분류에 효과적임을 확인하였다.

우리나라 시군단위 벼 수확량 예측을 위한 다종 기상자료의 비교평가 (A Comparative Evaluation of Multiple Meteorological Datasets for the Rice Yield Prediction at the County Level in South Korea)

  • 조수빈;윤유정;김서연;정예민;김근아;강종구;김광진;조재일;이양원
    • 대한원격탐사학회지
    • /
    • 제37권2호
    • /
    • pp.337-357
    • /
    • 2021
  • 노지에서 재배되는 벼는 필연적으로 기상요소의 영향을 받을 수밖에 없으며, 벼 생장에 영향을 미치는 최적의 기상자료 확보 및 변수 선정은 벼 수확량 예측 모델링에 있어 매우 중요하다. 본 연구에서는 1996-2019년의 7월, 8월, 9월에 대하여, 다종의 기상자료 비교평가를 통해 우리나라 벼 수확량 모델링에 대한 적합성을 살펴보고, 기상요소와 벼 수확량 사이의 비선형적인 관계를 고려하여 기계학습 기법을 이용한 수확량 하인드캐스트 실험을 수행하고자 한다. 다종의 기상자료로는, 기상청 ASOS 지상관측과 함께, CRU-JRA ver. 2.1, ERA5 재분석장을 사용하였다. 이들 기상자료에서 공통적으로 도출할 수 있는 월 단위 기온, 상대습도, 일사량, 강수량 변수에 대한 비교를 통하여, 각 자료의 특성 및 벼 수확량과의 연관성을 분석하였다. CRU-JRA ver. 2.1 재분석장은 전반적으로 타 자료와 높은 일치성을 나타냈으며, 변수별 특징을 보았을 때, 상대습도는 벼 수확량에 미치는 영향이 거의 없었으나, 일사량은 벼 수확량과의 상관성이 상당히 높은 것으로 나타났다. 7월, 8월, 9월의 기온, 일사량, 강수량을 랜덤 포리스트 모델에 투입하여 벼 수확량 하인드캐스트 실험을 수행한 결과, CRU-JRA ver. 2.1 재분석장은 세 종류 기상자료 중에 가장 높은 정확도를 나타냈다(CC = 0.772). 또한 예측 모델에서 변수의 중요도는 일사량이 가장 높게 나타나, 기존의 농학적 연구결과와 일치하였다. 본 연구는 벼 수확량 예측을 위한 다종 기상자료의 선택에 있어 하나의 합리적 방법을 제시한 것으로써 의미가 있다고 하겠다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

유전자 알고리즘을 이용한 분류자 앙상블의 최적 선택 (Optimal Selection of Classifier Ensemble Using Genetic Algorithms)

  • 김명종
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.99-112
    • /
    • 2010
  • 앙상블 학습은 분류 및 예측 알고리즘의 성과개선을 위하여 제안된 기계학습 기법이다. 그러나 앙상블 학습은 기저 분류자의 다양성이 부족한 경우 다중공선성 문제로 인하여 성과개선 효과가 미약하고 심지어는 성과가 악화될 수 있다는 문제점이 제기되었다. 본 연구에서는 기저 분류자의 다양성을 확보하고 앙상블 학습의 성과개선 효과를 제고하기 위하여 유전자 알고리즘 기반의 범위 최적화 기법을 제안하고자 한다. 본 연구에서 제안된 최적화 기법을 기업 부실예측 인공신경망 앙상블에 적용한 결과 기저 분류자의 다양성이 확보되고 인공신경망 앙상블의 성과가 유의적으로 개선되었음을 보여주었다.

2D-QSAR방법을 이용한 농약류의 무지개 송어 급성 어독성 분석 및 예측 (Prediction and analysis of acute fish toxicity of pesticides to the rainbow trout using 2D-QSAR)

  • 송인식;차지영;이성광
    • 분석과학
    • /
    • 제24권6호
    • /
    • pp.544-555
    • /
    • 2011
  • 본 연구는 농약류에 대하여 구조-활성의 정량적 관계(QSAR)를 이용하여 무지개 송어(학명: Oncorhynchus mykiss)의 급성 독성을 예측-분석하는 과정을 수행하였다. 모델 구현을 위해 사용된 275종의 농약류에 대한 수중 독성(96h $LC_{50}$) 값은 DEMETRA프로젝트의 데이터를 사용하였다. 예측 모델에 사용된 2차원 분자 표현자는 PreADMET프로그램으로부터 계산을 하였고, 선형 (다중 선형 회귀 방법)모델과 비선형(서포트 벡터 머신, 인공 신경망) 학습 방법들은 실험값과 예측값의 적합도를 고려하여 최적화 되었다. 데이터 전처리 과정을 거친 뒤에, 5묶음 교차 검증과정을 포함한 모집단 기반 전진 선택법을 통해서 각 학습 방법의 최적의 표현자 집합을 결정하였다. 가장 좋은 결과는 SVM 방법 ($R^2_{CV}$=0.677, RMSECV=0.887, MSECV=0.674) 이었고, EU의 규제 기준에 따른 분류에서는 87%의 정확도를 나타내었다. MLR방법을 통해서는 무지개 송어의 급성 독성에 대하여 독성을 나타내는 농약류의 구조적 특징과 지질 층과의 상호작용을 설명할 수 있었다. 개발된 모든 모델들은 5묶음 교차 검증과 Y-scrambling test을 통해 검증되었다.

랜덤포레스트를 이용한 모기업의 하향 거래처 기업의 분류: 자동차 부품산업의 가치사슬을 중심으로 (Classification of Parent Company's Downward Business Clients Using Random Forest: Focused on Value Chain at the Industry of Automobile Parts)

  • 김태진;홍정식;전윤수;박종률;안태욱
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.1-22
    • /
    • 2018
  • 가치사슬은 경쟁우위 강화를 위한 전략적 도구로써 주로 기업수준, 산업수준에서 분석되어 왔다. 그런데 기업수준에서 가치사슬 분석을 수행하기 위해서는 분석 기업의 거래처 기업들이 그 기업의 가치 사슬에 속하는지의 여부에 따라 분류되어야 한다. 단일 기업에 대한 가치사슬 분류는 전문가들에 의해 원활히 수행될 수 있지만 다수의 기업을 대상으로 분류할 때는 많은 비용과 시간이 소요되는 등의 한계점이 따른다. 따라서 본 연구에서는 실거래 데이터를 기반으로 특정 기업의 거래처 기업들을 분류해서 가치사슬 기업을 자동적으로 도출해주는 모형을 제안하고자 한다. 총 19개의 거래 속성 변수를 실거래 데이터로부터 도출하여 기계학습의 입력 데이터의 형태로 가공하였고, 랜덤포레스트 알고리즘을 이용하여 가치사슬 분류 모형을 구축하였다. 자동차 부품 기업 사례에 본 연구 모형을 적용한 결과, 정확도 92%, F1-척도 76% 그리고 AUC 94%로 자동적 가치사슬 분류의 가능성을 확인하였다. 또한 거래집중도, 거래금액 그리고 거래처별 총 매출액 등과 같은 거래 속성들이 가치사슬에 속하는 기업들을 대표하는 주요 특성임을 확인하였다.

일반화가속모형을 이용한 기술신용평가 주요 지표 분석 (Analysis of Important Indicators of TCB Using GBM)

  • 전우정;서영욱
    • 한국전자거래학회지
    • /
    • 제22권4호
    • /
    • pp.159-173
    • /
    • 2017
  • 기술력 기반의 중소벤처기업에 대한 기술금융 지원을 위해 정부는 2014년 7월부터 기술보증기금 및 일정 자격을 갖춘 민간 기술신용평가사에게 일종의 기술력 등급평가인 기술신용평가를 실시하여 은행의 여신에 활용토록 하였다. 본 논문에서는 최근까지의 기술신용평가 현황 및 한국신용정보원에서 축적하고 있는 기술평가 관련 가용 지표들에 대한 선행 연구를 개략적으로 살펴본 후 기술평가등급점수에 유의적인 영향을 미치는 지표(indicator)를 통상적인 다중회귀기법으로 탐색할 것이다. 본 논문의 관심 대상인 지표 별 등급 영향도와 모형의 적합도는 대표적인 기계학습 분류기(classifier)인 일반화가속모형(Generalized Boosting Model; GBM)을 적용하여 분석하였는 바, 주요 지표를 독립변수(feature)로 투입하여 지표의 상대적 중요성 및 분류 정확도를 산출하였다. 분석결과 회귀모형과 기계학습 모형 간 지표별 상대적인 중요도는 크게 차이나지 않는 것으로 분석되었으나, GBM 모형의 경우 회귀모형에 비해서 이노비즈인증, 연구소 및 연구개발전담부서 보유, 특허등록건수, 벤처확인 지표 등 기술개발역량이 상대적으로 기술등급에 더 큰 영향을 미치는 것으로 분석되었다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

Deep Neural Network 기반 프로야구 일일 관중 수 예측 : 광주-기아 챔피언스 필드를 중심으로 (Deep Neural Network Based Prediction of Daily Spectators for Korean Baseball League : Focused on Gwangju-KIA Champions Field)

  • 박동주;김병우;정영선;안창욱
    • 스마트미디어저널
    • /
    • 제7권1호
    • /
    • pp.16-23
    • /
    • 2018
  • 본 연구는 Deep Neural Network(DNN)을 이용하여 광주-기아 챔피언스 필드의 일일 관중 수를 예측함으로써 이를 통해 구단과 관련기업의 마케팅 자료제공 및 구장 내 부대시설의 재고관리에 자료로 쓰임을 목적으로 수행 되었다. 본 연구에서는 Artificial Neural Network(ANN)의 종류인 DNN 모델을 이용하였으며 DNN 모델의 과적합을 막기 위해 Dropout과 Batch normalization 적용한 모델을 바탕으로 총 4종류를 설계하였다. 각각 10개의 DNN을 만들어 예측값의 Root Mean Square Error(RMSE)와 Mean Absolute Percentage Error(MAPE)의 평균값을 낸 모델과 예측값의 평균으로 RMSE와 MAPE를 평가한 Ensemble 모델을 만들었다. 모델의 학습 데이터는 2008년부터 2017년까지의 관중 수 데이터를 수집하여 수집된 데이터의 80%를 무작위로 선정하였으며, 나머지 20%는 테스트 데이터로 사용하였다. 총 100회의 데이터 선정, 모델구성 그리고 학습 및 예측을 한 결과 Ensemble 모델은 DNN 모델의 예측력이 가장 우수하게 나왔으며, 다중선형회귀 모델 대비 RMSE는 15.17%, MAPE는 14.34% 높은 예측력을 보이고 있다.