• 제목/요약/키워드: Multiple Machine Learning

검색결과 356건 처리시간 0.024초

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

Sentinel-1 SAR 영상과 AI 기법을 이용한 국내 중소규모 농업저수지의 수표면적 산출 (An Artificial Intelligence Approach to Waterbody Detection of the Agricultural Reservoirs in South Korea Using Sentinel-1 SAR Images)

  • 최소연;윤유정;강종구;박강현;김근아;이슬찬;최민하;정하규;이양원
    • 대한원격탐사학회지
    • /
    • 제38권5_3호
    • /
    • pp.925-938
    • /
    • 2022
  • 농업용 저수지는 전국적으로 중요한 수자원으로 기후변화에 따른 가뭄과 같은 이상기후의 영향에 취약한 특성을 가지며 적절한 운영을 위해 강화된 관리가 필요하다. 지속적인 모니터링을 통한 수위 추적(water level tracking)이 필요하지만 현실적인 문제로 현장 실측 및 관측이 어려운 실정이다. 본 연구는 저수지 수표면적을 측정하기 위해 광역 모니터링이 가능한 위성레이더 자료를 이용하여 4가지 AI 모델 간의 수체 탐지 성능에 대해 객관적인 비교를 제시한다. 위성 레이더자료는 Sentinel-1 SAR 이미지를 사용하였으며, 광학영상과 달리 기상환경에 영향을 적게 받기 때문에 장기 모니터링에 적합하다. 드론 이미지, Sentinel-1 SAR 그리고 DSM 데이터를 사용하여 Support Vector Machine (SVM), Random Forest (RF), Artificial Neural Network (ANN), Automated Machine Learning (AutoML)의 4가지 AI 모델을 구축했다. 연구대상 저수지는 총 22개소로 유효저수량이 30만톤 미만의 중소형 저수지이다. 총 45개 이미지가 모델 훈련과 검증에 사용되었으며, 연구 결과 AutoML 모델이 Accuracy=0.92, mIoU=0.81로 다른 3가지 모델에 비해 수체 픽셀 분류에서 0.01-0.03 더 나은 것을 보여주었다. 해당 결과는 SAR 영상으로부터 AutoML을 이용한 중소형 저수지 대상의 수체 분류 기법이 기존의 머신러닝 기법만큼의 성능을 보이는 것을 보여주었고, 학습을 통한 수표면적 분류 기술의 저수지 모니터링에 대한 적용 가능성을 보여주었다.

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

Multi-Time Window Feature Extraction Technique for Anger Detection in Gait Data

  • Beom Kwon;Taegeun Oh
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.41-51
    • /
    • 2023
  • 본 논문에서는 보행자의 걸음걸이로부터 분노 감정 검출을 위한 다중 시간 윈도 특징 추출 기술을 제안한다. 기존의 걸음걸이 기반 감정인식 기술에서는 보행자의 보폭, 한 보폭에 걸리는 시간, 보행 속력, 목과 흉부의 전방 기울기 각도(Forward Tilt Angle)를 계산하고, 전체 구간에 대해서 최솟값, 평균값, 최댓값을 계산해서 이를 특징으로 활용하였다. 하지만 이때 각 특징은 보행 전체 구간에 걸쳐 항상 균일하게 변화가 발생하는 것이 아니라, 때로는 지역적으로 변화가 발생한다. 이에 본 연구에서는 장기부터 중기 그리고 단기까지 즉, 전역적인 특징과 지역적인 특징을 모두 추출할 수 있는 다중 시간 윈도 특징 추출(Multi-Time Window Feature Extraction) 기술을 제안한다. 또한, 제안하는 특징 추출 기술을 통해 각 구간에서 추출된 특징들을 효과적으로 학습할 수 있는 앙상블 모델을 제안한다. 제안하는 앙상블 모델(Ensemble Model)은 복수의 분류기로 구성되며, 각 분류기는 서로 다른 다중 시간 윈도에서 추출된 특징으로 학습된다. 제안하는 특징 추출 기술과 앙상블 모델의 효과를 검증하기 위해 일반인에게 공개된 3차원 걸음걸이 데이터 세트를 사용하여 시험 평가를 수행했다. 그 결과, 4가지 성능 평가지표에 대해서 제안하는 앙상블 모델이 기존의 특징 추출 기술로 학습된 머신러닝(Machine Learning) 모델들과 비교하여 최고의 성능을 달성하는 것을 입증하였다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

인공지능을 이용한 신규간호사 이직률 예측 (Artificial Intelligence to forecast new nurse turnover rates in hospital)

  • 최주희;박혜경;박지은;이창민;최병관
    • 한국융합학회논문지
    • /
    • 제9권9호
    • /
    • pp.431-440
    • /
    • 2018
  • 본 연구에서는 인공지능 기술 중 구글에서 개발하여 오픈소스로 제공하고 있는 텐서플로우(Tensorflow) 활용하여 신규간호사 이직률을 예측해 보았고, 이를 통해 전략적 인적자원관리 방안을 제시하였다. 부산지역 한 대학병원의 2010년에서 2017년 사이 퇴직한 간호사 데이터 1,018건을 수집하였다. 학습에 사용된 자료는 순서를 임의로 재배열 한 뒤 전체 데이터의 80%를 학습에, 나머지 20%를 테스트에 이용하였다. 활용된 알고리즘은 다중신경망회로(multiple neural network)로서 입력층과 출력층, 3개 층의 은닉층을 가지도록 설계 되었다. 본 연구의 결과 텐서플로우 플랫폼을 활용하여 1년 이내 이직률을 88.7%, 3년 이내 조기 이직률은 79.8%의 정확도로 예측하였고, 대상자들의 퇴직 시 연령은 20대 후반부터 30대에 집중되어 있었다. 가장 높은 빈도를 차지한 이직 사유로는 '결혼, 출산, 육아, 가정 및 개인사정'이었으나, 근무기간 1년 이하 대상자 들의 가장 높은 이직사유는 '업무 부적응 및 대인관계 문제'로 나타났다.

주파수 공간상의 특징 데이터를 활용한 손목에 부착된 가속도 센서 기반의 낙상 감지 (Fall detection based on acceleration sensor attached to wrist using feature data in frequency space)

  • 노정현;김진헌
    • 스마트미디어저널
    • /
    • 제10권3호
    • /
    • pp.31-38
    • /
    • 2021
  • 낙상사고는 언제, 어디에서 일어날지 예측하기 어렵다. 또한 신속한 후속 조치가 수행되지 않으면 생명의 위협으로 이어지므로 낙상사고를 자동으로 감지할 수 있는 연구가 필요하게 되었다. 자동적인 낙상사고 감지기법 중 손목에 부착된 IMU 센서를 활용한 기법은 움직임이 많아 낙상사고 검출이 어렵지만, 착용의 간편함과 접근성이 뛰어난 기법으로 인식되고 있다. 낙상 데이터 확보의 어려움을 극복하기 위해 본 연구는 KNN과 SVM과 같은 머신러닝으로 적은 데이터를 효율적으로 학습하는 알고리즘을 제안한다. 또한, 이들 수학적 분류기의 성능을 높이기 위해 본 연구에서는 주파수 공간에서 취득한 특징 데이터를 활용하였다. 제안된 알고리즘은 표준 데이터세트를 활용한 실험을 통해 모델의 파라미터와 주파수 특징 추출기의 파라미터를 다각화하여 그 영향을 분석하였다. 제안된 알고리즘은 학습 데이터를 확보하기 어려운 현실적인 문제에 적절히 대처할 수 있었다. 또한 본 알고리즘이 다른 분류기보다 경량화되어 있기 때문에 SIMD(Single Instruction Multiple Data) 처리장치 탑재가 어려운 소형 임베디드시스템에도 구현이 용이했다.

머신러닝을 이용한 탄성파 반사법 자료의 해저면 겹반사 제거 (Removal of Seabed Multiples in Seismic Reflection Data using Machine Learning)

  • 남호수;임보성;권일룡;김지수
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.168-177
    • /
    • 2020
  • 해저면 탄성파 겹반사는 발파점 모음자료와 겹쌓기 단면에서 모두 일차 반사파의 해석에 잘못된 결과를 초래할 수 있다. 따라서, 해저면 겹반사는 자료처리를 통해 제거해야 한다. 전통적인 자료처리 과정에서 겹반사 제거는 예측오차 곱풀기와 라돈 필터링 등과 같은 모델-기반 기법과 지표관련-겹반사제거와 같은 데이터-기반 기법에 의해 이루어져 왔다. 그러나 대다수의 자료처리 과정들은 방대한 컴퓨터 자원과 전문적인 자료처리 기법뿐만 아니라 자료처리 변수들을 테스트하고 선택하는데 많은 시간을 필요로 한다. 이 논문에서는 머신러닝 시스템을 활용한 해저면 겹반사의 제거효과를 살펴보기 위해 Marmousi2 속도모델에 대한 수치모델링으로 겹반사가 포함된 입력데이터와 겹반사가 포함되지 않은 레이블데이터를 생성하였다. 수직시간차가 보정된 공통중간점 모음자료로 훈련데이터를 구성하였으며 인공신경망은 U-Net 모델을 적용하였다. 해저면 겹반사를 제거하기 위해 훈련된 모델은 레이블데이터에 거의 근접하는 예측 결과를 만들어내며, 현장자료에 대한 예측 테스트에서 해저면 겹반사를 효과적으로 제거하는 것으로 나타났다.

정수장 전염소 공정제어를 위한 침전지 잔류염소농도 예측 머신러닝 모형 (Machine learning model for residual chlorine prediction in sediment basin to control pre-chlorination in water treatment plant)

  • 김주환;이경혁;김수전;김경훈
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1283-1293
    • /
    • 2022
  • 본 연구는 정수장의 수처리 공정에서 계측되고 있는 수량 및 수질데이터의 활용과 수처리 공정제어의 지능화를 위한 것으로 정수장에서 전염소 공정이 수반되는 처리공정에서 침전지 유출수 잔류염소농도 안정화를 위하여 이를 추정할 수 있는 모형을 구축하고자 하였다. 정수장 침전지 유출수의 잔류염소농도를 예측하기 위하여 중회귀모형과 인공지능 알고리즘 중 다층퍼셉트론 신경망, 랜덤포레스트 및 장단기기억(Long Short Term Memory; LSTM) 모형을 활용하였고 그 결과를 비교, 평가하였다. 모형의 입력변수로는 전염소 공정이 도입된 정수장에서의 잔류염소농도, 수온, 탁도, pH, 전기전도도, 유량, 알칼리도 등이 사용되었고 전염소에 따른 침전지의 안정적 운영을 위해 요구되는 침전지 잔류염소농도를 출력변수로 구성하였다. 적용 결과에서는 랜덤포레스트 모형이 가장 양호한 결과를 보여 주었으며 다음으로 LSTM, 다층퍼셈트론 신경망 순으로 나타났다. 수학적 모형인 중회귀모형은 적합도 측면에서 가장 낮은 결과를 보여 주었는데, 이는 수량과 수질데이터의 수치적인 규모나 차원의 차이뿐만 아니라 계절별 수질특성에 따라 염소소비 특성이 매우 다양하게 반응하기 때문으로 판단된다. 따라서 정수장 수처리 공정에서 인공지능 알고리즘의 적용을 위해서는 랜덤포레스트와 같이 의사결정 트리구조의 도입과 적용이 타당한 것으로 나타났다. 본 연구에서 분석된 결과를 근거로 전염소 공정이 도입된 정수장 수처리 공정에서 염소주입량을 실시간으로 예측 가능하게 함으로써 침전지 유출수에서 잔류염소농도를 일정하게 유지하는데 기여할 수 있을 것으로 기대된다.

Defect Diagnosis and Classification of Machine Parts Based on Deep Learning

  • Kim, Hyun-Tae;Lee, Sang-Hyeop;Wesonga, Sheilla;Park, Jang-Sik
    • 한국산업융합학회 논문집
    • /
    • 제25권2_1호
    • /
    • pp.177-184
    • /
    • 2022
  • The automatic defect sorting function of machinery parts is being introduced to the automation of the manufacturing process. In the final stage of automation of the manufacturing process, it is necessary to apply computer vision rather than human visual judgment to determine whether there is a defect. In this paper, we introduce a deep learning method to improve the classification performance of typical mechanical parts, such as welding parts, galvanized round plugs, and electro galvanized nuts, based on the results of experiments. In the case of poor welding, the method to further increase the depth of layer of the basic deep learning model was effective, and in the case of a circular plug, the surrounding data outside the defective target area affected it, so it could be solved through an appropriate pre-processing technique. Finally, in the case of a nut plated with zinc, since it receives data from multiple cameras due to its three-dimensional structure, it is greatly affected by lighting and has a problem in that it also affects the background image. To solve this problem, methods such as two-dimensional connectivity were applied in the object segmentation preprocessing process. Although the experiments suggested that the proposed methods are effective, most of the provided good/defective images data sets are relatively small, which may cause a learning balance problem of the deep learning model, so we plan to secure more data in the future.