• 제목/요약/키워드: 딥러닝 분석

검색결과 1,403건 처리시간 0.077초

다중 객체 추적 알고리즘을 이용한 가공품 흐름 정보 기반 생산 실적 데이터 자동 수집 (Automatic Collection of Production Performance Data Based on Multi-Object Tracking Algorithms)

  • 임현아;오서정;손형준;오요셉
    • 한국전자거래학회지
    • /
    • 제27권2호
    • /
    • pp.205-218
    • /
    • 2022
  • 최근 제조업에서의 디지털 전환이 가속화되고 있다. 이에 따라 사물인터넷(internet of things: IoT) 기반으로 현장 데이터를 수집하는 기술의 중요성이 증대되고 있다. 이러한 접근법들은 주로 각종 센서와 통신 기술을 활용하여 특정 제조 데이터를 확보하는 것에 초점을 맞춘다. 현장 데이터 수집의 채널을 확장하기 위해 본 연구는 비전(vision) 인공지능 기반으로 제조 데이터를 자동 수집하는 방법을 제안한다. 이는 실시간 영상 정보를 객체 탐지 및 추적 기술로 분석하고, 필요한 제조 데이터를 확보하는 것이다. 연구진은 객체 탐지 및 추적 알고리즘으로 YOLO(You Only Look Once)와 딥소트(DeepSORT)를 적용하여 프레임별 객체의 움직임 정보를 수집한다. 이후, 움직임 정보는 후보정을 통해 두 가지 제조 데이터(생산 실적, 생산 시간)로 변환된다. 딥러닝을 위한 학습 데이터를 확보하기 위해 동적으로 움직이는 공장 모형이 제작되었다. 또한, 실시간 영상 정보가 제조 데이터로 자동 변환되어 데이터베이스에 저장되는 상황을 재현하기 위해 운영 시나리오를 수립하였다. 운영 시나리오는 6개의 설비로 구성된 흐름 생산 공정(flow-shop)을 가정한다. 운영 시나리오에 따른 제조 데이터를 수집한 결과 96.3%의 정확도를 보였다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

합성곱 신경망(Convolutional Neural Network)을 활용한 지능형 아토피피부염 중증도 진단 모델 개발 (Development of Intelligent Severity of Atopic Dermatitis Diagnosis Model using Convolutional Neural Network)

  • 윤재웅;전재헌;방철환;박영민;김영주;오성민;정준호;이석준;이지현
    • 경영과정보연구
    • /
    • 제36권4호
    • /
    • pp.33-51
    • /
    • 2017
  • 제4차 산업혁명의 등장과 경제성장으로 인한 '국민 삶의 질 향상' 요구 증대로 인해 의료서비스의 질과 의료비용에 대한 국민들의 요구수준이 향상되고 있으며, 이로 인해 인공지능이 의료현장에 도입되고 있다. 하지만 인공지능이 의료분야에 활용된 사례를 살펴보면 '삶의 질'에 직접적인 영향을 끼치는 만성피부질환에 활용된 사례는 부족한 실정이며, 만성피부질환 중 대표적 질병인 아토피피부염은 정성적 진단 방법으로 인해 진단의 객관성을 확보할 수 없다는 한계가 존재한다. 본 연구에서는 아토피피부염의 객관적 중증도 평가 방법을 마련하여 아토피피부염 환자의 삶의 질을 향상시키고자 다음과 같은 연구를 수행하였다. 첫째, 가톨릭대학교 의과대학 성모병원의 데이터베이스로부터 아토피피부염 환자의 이미지 데이터를 수집했으며, 수집된 이미지 데이터에 대한 정제 및 라벨링 작업을 수행하여 모델 학습과 검증에 적합한 데이터를 확보했다. 둘째, 지능형 아토피피부염 중증도 진단 모형에 적합한 이미지 인식 알고리즘을 파악하기 위해 다양한 CNN 알고리즘들을 병변별 학습용 데이터로 학습시키고, 검증용 데이터를 활용하여 해당 모델의 이미지 인식 정확도를 측정했다. 실증분석 결과 홍반(Erythema)의 경우 'ResNet V1 101', 긁은 정도(Excoriation)의 경우 'ResNet V2 50'이 90% 이상의 정확도를 기록하였으며, 태선화(Lichenification)의 경우 학습용 데이터 부족의 한계로 인해 두 병변보다 낮은 89%의 정확도를 보였다. 해당 결과를 통해 이미지 인식 알고리즘이 단순한 사물 인식 분야뿐만 아니라 전문적 지식이 요구되는 분야에도 높은 성능을 나타낸다는 것을 실증적으로 입증했으며, 본 연구는 실제 아토피피부염 환자의 이미지 데이터를 활용했다는 측면에서 실제 임상환경에서 활용성이 높을 것으로 사료된다.

  • PDF

정지궤도 기상위성 및 수치예보모델 융합을 통한 Multi-task Learning 기반 태풍 강도 실시간 추정 및 예측 (Multi-task Learning Based Tropical Cyclone Intensity Monitoring and Forecasting through Fusion of Geostationary Satellite Data and Numerical Forecasting Model Output)

  • 이주현;유철희;임정호;신예지;조동진
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1037-1051
    • /
    • 2020
  • 최근 기후변화로 인해 강도가 높은 태풍의 빈도가 높아짐에 따라 태풍 예측의 중요성이 강조되고 있는 데, 태풍경로예측에 비해 태풍강도예측에 대한 연구는 미비한 상황이다. 이에 본 연구에서는 딥러닝 모델인 Multi-task learning (MTL) 기법을 활용하여 정지궤도기상위성을 활용한 관측자료와 수치예보모델을 융합한 실시간 추정 및 6시간, 12시간 후의 태풍강도예측 모델을 제안하고자 한다. 본 연구에서는 2011년에서 2016년까지 북서태평양에서 발생한 총 142개의 태풍을 대상으로 강도 예측 연구를 시행하였다. 한국 최초의 기상위성인 Communication, Ocean and Meteorological Satellite (COMS) Meteorological Imager (MI)를 활용하여 태풍의 관측영상을 추출하였고, National Center of Environmental Prediction (NCEP)에서 제공하는 Climate Forecast System version 2 (CFSv2)를 활용하여 6시간, 12시간 후의 태풍 주변 대기 및 해양 예측변수를 추출하였다. 본 연구에서는 각 입력자료의 활용성을 정량화 하기 위하여, 위성 기반 태풍관측영상만을 활용한 MTL 모델(Scheme 1)과 수치예보모델을 융합적으로 활용한 MTL 모델(Scheme 2)을 구축하고, 각 모델의 훈련 및 검증 성능을 정량적으로 비교하였다. 실시간 강도 추정의 결과 scheme 1과 scheme 2에서 비슷한 성능을 보이는 반면, 6시간, 12시간 후 태풍강도예측의 경우 scheme 2에서 각각 13%, 16% 개선된 결과를 보였다. 태풍 단계별 예측성능에 대한 분석을 시행한 결과, 저강도 태풍일수록 낮은 평균제곱근오차를 보인 반면, 대부분의 강도 단계에서 평균제곱근편차비는 30% 미만의 값을 보이며 유의미한 검증 결과를 보였다. 이에 본 연구에서 제시한 두가지 모델을 기반으로 2014년 발생한 태풍 HALONG의 시계열검증을 시행하였다. 그 결과, scheme 1의 경우 태풍 초기발달단계에서 태풍의 강도를 약 20 kts가량 과대 추정하는 경향을 보이는데, 환경예측자료를 융합한 scheme 2에서는 오차가 약 5 kts가량으로 과대 추정 경향이 줄어들었다. 본 연구에서 제시하는 현재, 6시간, 12시간 후 강도를 동시에 추출하는 MTL 모델은 Single-tasking model 대비 약 300%의 시간 효율을 보이며, 향후 신속한 태풍 예보 정보 추출에 큰 기여를 할 수 있을 것으로 기대된다.

휠체어 탄 인공지능: 자율적 기술에서 상호의존과 돌봄의 기술로 (Artificial Intelligence In Wheelchair: From Technology for Autonomy to Technology for Interdependence and Care)

  • 하대청
    • 과학기술학연구
    • /
    • 제19권2호
    • /
    • pp.169-206
    • /
    • 2019
  • 이 글은 인공지능이 만들어내는 문화적 상상을 분석하면서 기술과 인간 사이의 새로운 윤리를 모색한다. 과학기술을 돌봄물(matter of care)로 이해하는 페미니스트 과학기술학 연구(Puig de la Bellacas, 2011)에 기댄 이 글은 우선 인공지능이 자율성을 문화적 상상으로 강력하게 생산하고 있다는 점에 주목한다. 스스로의 경험과 학습을 통해 새로운 환경에 적응할 수 있는 능력으로 정의된 이 자율성은 기술적 영역을 넘어 이상적인 인간상을 정의하고 있다. 하지만 데이터에 기반한 딥러닝 기법과 무장한 무인 비행기가 예증하듯, 인공지능 기술은 보이지 않는 인간노동과 복잡한 물질적 장치에 의존하고 있으며, 자율성은 허구에 가깝다. 또한 이른바 '조수 기술 (assistant technology)'이 보여주듯, 가사노동을 부불노동화하는 우리 사회의 오래된 젠더화된 노동인식에 기초해 수많은 인간의 돌봄 노동은 비가시화되는 반면, 기계의 돌봄노동은 적극적으로 가시화되고 있다. 또한 인공지능의 문화적 상상은 자율성과 행위능력을 이상적인 인간의 특질로 정의하면서 장애의 몸과 이 몸이 갖는 가치인 연약함과 의존성의 연대는 가치 없는 것으로 만들고 있다. 인공지능과 그 문화적 상상은 능력이 있는 몸(abled-bodies)을 이상화하고 기술의 자율성을 우선 가치로 삼으면서 서로 의존하는 인간과 기술의 현실적 관계를 삭제하고 있다. 결론에서 저자는 우리에게 필요한 기술은 타자의 비정형적인 몸과 인간의 돌봄노동을 가치 없게 여기도록 하는 것이 아니라 이들을 있는 그대로 드러내면서 그 가치를 인정하는 것이어야 한다고 주장한다. 책임 있게 응답하는 기술은 주변화된 존재들에 공감하고 의존성을 긍정하고 연약성 사이의 연대를 촉진하는 것이어야 한다. 저자는 이런 대안적인 기술을 형상화하기 위해 예술가 수 오스틴의 퍼포먼스에서 영감을 얻어 '휠체어 탄 인공지능'을 제안한다. '휠체어 탄 인공지능'은 자율성을 과시하기보다는 타자의 몸과 노동을 부정하지 않고 이들의 존재론적 가능성을 함께 만들어가려 노력하는 상호의존과 돌봄의 기술이다.

환경요인을 이용한 다층 퍼셉트론 기반 온실 내 기온 및 상대습도 예측 (Prediction of Air Temperature and Relative Humidity in Greenhouse via a Multilayer Perceptron Using Environmental Factors)

  • 최하영;문태원;정대호;손정익
    • 생물환경조절학회지
    • /
    • 제28권2호
    • /
    • pp.95-103
    • /
    • 2019
  • 온도와 상대습도는 작물 재배에 있어서 중요한 요소로써, 수량과 품질의 증대를 위해서는 적절히 제어 되어야 한다. 그리고 정확한 환경 제어를 위해서는 환경이 어떻게 변화할지 예측할 필요가 있다. 본 연구의 목적은 현시점의 환경 데이터를 이용한 다층 퍼셉트론(multilayer perceptrons, MLP)을 기반으로 미래 시점의 기온 및 상대습도를 예측하는 것이다. MLP 학습에 필요한 데이터는 어윈 망고(Mangifera indica cv. Irwin)을 재배하는 8연동 온실($1,032m^2$)에서 2016년 10월 1일부터 2018년 2월 28일까지 10분 간격으로 수집되었다. MLP는 온실내부 환경 데이터, 온실 외 기상 데이터, 온실 내 장치의 설정 및 작동 값을 사용하여 10~120분 후 기온 및 상대습도를 예측하기 위한 학습을 진행하였다. 사계절이 뚜렷한 우리나라의 계절에 따른 예측 정확도를 분석하기 위해서 테스트 데이터로 계절별로 3일간의 데이터를 사용했다. MLP는 기온의 경우 은닉층이 4개, 노드 수가 128개일 때($R^2=0.988$), 상대습도는 은닉층 4개, 노드 수 64개에서 가장 높은 정확도를 보였다($R^2=0.990$). MLP 특성상 예측 시점이 멀어질수록 정확도는 감소하였지만, 계절에 따른 환경 변화에 무관하게 기온과 상대습도를 적절히 예측하였다. 그러나 온실 내 환경 제어 요소 중 분무 관수처럼 특이적인 데이터의 경우, 학습 데이터 수가 적기 때문에 예측 정확도가 낮았다. 본 연구에서는 MLP의 최적화를 통해서 기온 및 상대습도를 적절히 예측하였지만 실험에 사용된 온실에만 국한되었다. 따라서 보다 일반화를 위해서 다양한 장소의 온실 데이터 이용과 이에 따른 신경망 구조의 변형이 필요하다.

LSTM을 이용한 한반도 근해 이상수온 예측모델 (Abnormal Water Temperature Prediction Model Near the Korean Peninsula Using LSTM)

  • 최혜민;김민규;양현
    • 대한원격탐사학회지
    • /
    • 제38권3호
    • /
    • pp.265-282
    • /
    • 2022
  • 해수면 온도(Sea surface temperature, SST)는 지구시스템에서 해양의 순환과 생태계에 큰 영향을 주는 요소이다. 지구온난화로 한반도 근해 해수면 온도에 변화가 생기면서 이상 수온(고수온, 저수온) 현상이 발생하여 해양생태계와 수산업 피해를 지속적으로 발생시키고 있다. 따라서 본 연구는 한반도 근해 해수면 온도를 예측하여 이상 수온 현상 예측으로 피해를 예방하는 방법론을 제안한다. 연구 지역은 한반도 근해로 설정하여 동시간대 해수면 온도 데이터를 사용하기 위해 Europe Centre for Medium-Range Weather Forecasts (ECMWF)의 ERA5 자료를 사용하였다. 연구방법으로는 해수면 온도 데이터의 시계열 특징을 고려하여 딥러닝 모델 중 시계열 데이터 예측에 특화된 Long Short-Term Memory (LSTM) 알고리즘을 이용하였다. 예측 모델은 1~7일 이후 한반도 근해 해수면 온도를 예측하고 고수온(High water temperature, HWT) 혹은 저수온(Low water temperature, LWT) 현상을 예측한다. 해수면 온도 예측 정확도 평가를 위해 결정계수(Coefficient of determination, R2), 평균제곱근 편차(Root Mean Squared Error, RMSE), 평균 절대 백분율 오차(Mean Absolute Percentage Error, MAPE) 지표를 사용하였다. 예측 모델의 여름철(JAS) 1일 예측 결과는 R2=0.996, RMSE=0.119℃, MAPE=0.352% 이고, 겨울철(JFM) 1일 예측 결과는 R2=0.999, RMSE=0.063℃, MAPE=0.646% 이었다. 예측한 해수면 온도를 이용하여 이상 수온 예측 정확도 평가를 F1 Score로 수행하였다(여름철(2021/08/05) 고수온 예측 결과 F1 Score=0.98, 겨울철(2021/02/19) 저수온 예측 결과 F1 Score=1.0). 예측 기간이 증가하면서 예측 모델이 해수면 온도를 과소추정하는 경향을 보여주었고, 이로 인해 이상 수온 예측 정확도 또한 낮아졌다. 따라서, 향후 예측 모델의 과소추정 원인을 분석하고 예측 정확도 향상을 위한 연구가 필요할 것으로 판단된다.

미세먼지 예측 성능 개선을 위한 시공간 트랜스포머 모델의 적용 (Application of spatiotemporal transformer model to improve prediction performance of particulate matter concentration)

  • 김영광;김복주;안성만
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.329-352
    • /
    • 2022
  • 미세먼지는 폐나 혈관에 침투해 각종 심장 질환이나 폐암 등의 호흡기 질환을 일으키는 것으로 보고되고 있다. 지하철은 일 평균 천만 명이 이용하는 교통수단으로, 깨끗하고 쾌적한 환경조성이 중요하나 지하터널을 통과하는 지하철의 운행 특성과 터널에 갇힌 미세먼지가 열차 풍으로 인해 지하역사로 이동하는 등의 문제로 지하역사의 미세먼지 오염도는 높은 것으로 나타나고 있다. 환경부와 서울시는 지하역사 공기질 개선대책을 수립하여 다양한 미세먼지 저감 노력을 기울이고 있다. 스마트 공기질 관리 시스템은 공기질 데이터 수집 및 미세먼지 농도를 예측하여 공기질을 관리하는 시스템으로 미세먼지 농도 예측 모델이 중요한 구성 요소이다. 그동안 시계열 데이터 예측에 관한 다양한 연구가 진행되어왔지만, 지하철 역사의 미세먼지 농도 예측과 관련해서는 통계나 순환신경망 기반의 딥러닝 모델 연구에 국한되어 있다. 이에 본 연구에서는 시공간 트랜스포머를 포함한 4개의 트랜스포머 기반 모델을 제안한다. 서울시 지하철 역사의 대합실을 대상으로 한 시간 후의 미세먼지 농도 예측실험을 수행한 결과, 트랜스포머 기반 모델들의 성능이 기존의 ARIMA, LSTM, Seq2Seq 모델들에 비해 우수한 성능을 나타냄을 확인하였다. 트랜스포머 기반 모델 중에서는 시공간 트랜스포머의 성능이 가장 우수하였다. 데이터 기반의 예측을 통하여 운영되는 스마트 공기질 관리 시스템은 미세먼지 예측의 정확도가 향상될수록 더욱더 효과적이고 에너지 효율적으로 운영될 수 있다. 본 연구 결과는 스마트 공기질 관리 시스템의 효율적 운영에 기여할 수 있을 것으로 기대된다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.