• 제목/요약/키워드: LSTM 알고리즘

검색결과 189건 처리시간 0.026초

빅데이터를 활용한 인공지능 주식 예측 분석 (Stock prediction analysis through artificial intelligence using big data)

  • 최훈
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1435-1440
    • /
    • 2021
  • 저금리 시대의 도래로 인해 많은 투자자들이 주식 시장으로 몰리고 있다. 과거의 주식 시장은 사람들이 기업 분석 및 각자의 투자기법을 통해 노동 집약적으로 주식 투자가 이루어졌다면 최근 들어 인공지능 및 데이터를 활용하여 주식 투자가 널리 이용되고 있는 실정이다. 인공지능을 통해 주식 예측의 성공률은 현재 높지 않아 다양한 인공지능 모델을 통해 주식 예측률을 높이는 시도를 하고 있다. 본 연구에서는 다양한 인공지능 모델에 대해 살펴보고 각 모델들간의 장단점 및 예측률을 파악하고자 한다. 이를 위해, 본 연구에서는 주식예측 인공지능 프로그램으로 인공신경망(ANN), 심층 학습 또는 딥 러닝(DNN), k-최근접 이웃 알고리즘(k-NN), 합성곱 신경망(CNN), 순환 신경망(RNN), LSTM에 대해 살펴보고자 한다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

데이터 증강 기반 효율적인 무선 신호 분류 연구 (An Efficient Wireless Signal Classification Based on Data Augmentation)

  • 임상순
    • Journal of Platform Technology
    • /
    • 제10권4호
    • /
    • pp.47-55
    • /
    • 2022
  • 사물인터넷 환경에서는 다양한 무선 통신 기술을 사용하는 기기들이 점점 증가하고 있다. 특히, 다양한 무선 신호 변조 유형을 정확하게 식별하기 위해 효율적인 특성 추출 기법을 설계하고 무선 신호의 종류를 분류하는 것이 필수적이다. 하지만, 실제 환경에서 레이블이 지정된 무선 신호 데이터를 수집하는 것은 쉬운 문제가 아니다. 최근 무선 신호 분류를 위해 딥러닝 기반의 다양한 학습 기법들이 제안되어졌다. 딥러닝의 경우 훈련 데이터셋이 적을 경우 과대적합에 빠질 가능성이 높으며, 이는 딥러닝 모델을 활용한 무선 신호 분류 기법의 성능 저하를 유발한다. 본 연구에서는 다양한 무선 신호들이 존재할 때 분류 성능을 높이기 위해 생성적 적대 신경망 기반 데이터 증대 기법을 제안한다. 분류해야 하는 무선 신호의 종류가 다양할 때 특정 무선 신호를 나타내는 데이터의 양이 적거나 균형이 맞지 않는 경우 제안한 기법을 활용하여 필요한 무선 신호와 관련된 데이터의 양을 증가시킨다. 제안한 데이터 증강 알고리즘의 유효성을 검증하기 위해 무선 신호의 데이터양을 증가시키고 균형을 맞춘 결과를 바탕으로 CNN 및 LSTM 기반 무선 신호 분류기를 구현하여 실험해본 결과 데이터 균형을 맞추지 않았을 때보다 분류 정확도가 높아지는 것을 확인하였다.

검색어 빈도 데이터를 반영한 코로나 19 확진자수 예측 딥러닝 모델 (Predicting the Number of Confirmed COVID-19 Cases Using Deep Learning Models with Search Term Frequency Data)

  • 정성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권9호
    • /
    • pp.387-398
    • /
    • 2023
  • 코로나 19 유행은 인류 생활 방식과 패턴에 큰 영향을 주었다. 코로나 19는 침 방울(비말)은 물론 공기를 통해서도 감염되기 때문에 가능한 대면 접촉을 피하고 많은 사람이 가까이 모이는 장소는 피할 것을 권고하고 있다. 코로나 19 환자와 접촉했거나 코로나 19 환자가 발생한 장소에 있었던 사람이 코로나 19에 감염되었을 것을 염려한다면 구글에서 코로나 19 증상을 찾아볼 것이라고 충분히 예상해 볼 수 있다. 본 연구에서는 과거 독감 감시와 관리에 중요 역할을 했었던 구글 트렌드(Google Trends)를 다시 소환하고 코로나 19 확진자수 데이터와 결합하여 미래의 코로나 19 확진자수를 예측할 수 있을지 딥러닝 모델(DNN & LSTM)을 사용한 탐색적 데이터 분석을 실시하였다. 특히 이 연구에 사용된 검색어 빈도 데이터는 공개적으로 사용할 수 있으며 사생활 침해의 우려도 없다. 심층 신경망 모델(DNN model)이 적용되었을 때 한국에서 가장 많은 인구가 사는 서울(960만 명)과 두 번째로 인구가 많은 부산(340만 명)에서는 검색어 빈도 데이터를 포함하여 예측했을 때 더 낮은 오류율을 기록했다. 이와 같은 분석 결과는 검색어 빈도 데이터가 일정 규모 이상의 인구수를 가진 도시에서 중요한 역할을 할 수 있다는 것을 보여주는 것이다. 우리는 이와 같은 예측이 더 강력한 예방 조치의 실행이나 해제 같은 정책을 결정하는데 근거 자료로 충분히 사용될 수 있을 것으로 믿는다.

댐 운영 고도화를 위한 AI 기법 적용 연구 (Research on the Application of AI Techniques to Advance Dam Operation)

  • 최현구;정석일;박진용;권이재;이준열
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.387-387
    • /
    • 2022
  • 기존 홍수기시 댐 운영은 예측 강우와 실시간 관측 강우를 이용하여 댐 운영 모형을 수행하며, 예측 결과에 따라 의사결정 및 댐 운영을 실시하게 된다. 하지만 이 과정에서 반복적인 분석이 필요하며, 댐 운영 모형 수행자의 경험에 따라 예측 결과가 달라져서 반복작업에 대한 자동화, 모형 수행자에 따라 달라지지 않는 예측 결과의 일반화가 필요한 상황이다. 이에 댐 운영 모형에 AI 기법을 적용하여, 다양한 강우 상황에 따른 자동 예측 및 모형 결과의 일반화를 구현하고자 하였다. 이를 위해 수자원 분야에 적용된 국내외 129개 연구논문에서 사용된 딥러닝 기법의 활용성을 분석하였으며, 다양한 수자원 분야 AI 적용 사례 중에서 댐 운영 예측 모형에 적용한 사례는 없었지만 유사한 분야로는 장기 저수지 운영 예측과 댐 상·하류 수위, 유량 예측이 있었다. 수자원의 시계열 자료 활용을 위해서는 Long-Short Term Memory(LSTM) 기법의 적용 활용성이 높은 것으로 분석되었다. 댐 운영 모형에서 AI 적용은 2개 분야에서 진행하였다. 기존 강우관측소의 관측 강우를 활용하여 강우의 패턴분석을 수행하는 과정과, 강우에서 댐 유입량 산정시 매개변수 최적화 분야에 적용하였다. 강우 패턴분석에서는 유사한 표본끼리 묶음을 생성하는 K-means 클러스터링 알고리즘과 시계열 데이터의 유사도 분석 방법인 Dynamic Time Warping을 결합하여 적용하였다. 강우 패턴분석을 통해서 지점별로 월별, 태풍 및 장마기간에 가장 많이 관측되었던 강우 패턴을 제시하며, 이를 모형에서 직접적으로 활용할 수 있도록 구성하였다. 강우에서 댐 유입량을 산정시 활용되는 매개변수 최적화를 위해서는 3층의 Multi-Layer LSTM 기법과 경사하강법을 적용하였다. 매개변수 최적화에 적용되는 매개변수는 중권역별 8개이며, 매개변수 최적화 과정을 통해 산정되는 결과물은 실측값과 오차가 제일 적은 유량(유입량)이 된다. 댐 운영 모형에 AI 기법을 적용한 결과 기존 반복작업에 대한 자동화는 이뤘으며, 댐 운영에 따른 상·하류 제약사항 표출 기능을 추가하여 의사결정에 소요되는 시간도 많이 줄일 수 있었다. 하지만, 매개변수 최적화 부분에서 기존 댐운영 모형에 적용되어 있는 고전적인 매개변수 추정기법보다 추정시간이 오래 소요되며, 매개변수 추정결과의 일반화가 이뤄지지 않아 이 부분에 대한 추가적인 연구가 필요하다.

  • PDF

Catboost 알고리즘을 통한 교통흐름 예측에 관한 연구 (A Study on the traffic flow prediction through Catboost algorithm)

  • 전민종;최혜진;박지웅;최하영;이동희;이욱
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.58-64
    • /
    • 2021
  • 자동차 등록대수와 비례하여 증가하는 교통 혼잡은 도시의 사회경제 발전의 저해 요소로 작용하고 있다. 본 논문은 VDS(Vehicle Detection System)을 통한 데이터를 입력 변수로 사용한다. 본 연구의 목적은 교통 흐름을 단순히 2단계(원할, 정체)가 아닌 5단계(원할, 다소 지체, 지체, 다소 정체, 정체)로 더 정교하게 예측하고, 이 예측에서 가장 정확도가 높은 모델인 Catboost 모델과 다른 모델들을 비교하는 것이다. 이를 위해 본 논문에서는 머신러닝 알고리즘인 Catboost 모델을 통해 5가지 단계를 예측하고 정확도를 다른 머신러닝 알고리즘들과 비교, 분석한다. 또한, 하이퍼 파라미터(Hyper Parameter) 튜닝 및 원-핫 인코딩(One-Hot Encoding) 전처리를 거치지 않은 Catboost 모델과 랜덤 선택(RandomizedSearchcv)을 통해 튜닝 및 데이터 전처리를 거친 모델을 비교, 분석한다. 분석 결과 하이퍼 파라미터 튜닝을 하지 않은 초기 Catboost 모델이 정확도 93%를 보이며 가장 높은 정확도를 기록하였다. 따라서 본 연구는 두가지 의의를 가진다. 첫번째로, 초기 세팅된 파라미터들이 적용된 Catboost 모델이 다수의 범주형 변수를 포함하는 교통 흐름 예측에서 다른 머신러닝, 딥러닝 모델들보다 성능이 높다는 결론을 도출했다는 점에서 의의가 있다. 두번째로, 기존 2단계로 예측하던 교통 흐름을 5단계로 예측함으로써 더욱 정교한 교통 흐름 예측 모델을 제안한다는 점에서 의의를 가진다.

인공지능을 이용하여 매출성장성과 거시지표 분석을 통한 주가 예측 연구 (A study on stock price prediction through analysis of sales growth performance and macro-indicators using artificial intelligence)

  • 홍성혁
    • 융합정보논문지
    • /
    • 제11권1호
    • /
    • pp.28-33
    • /
    • 2021
  • 주가는 그 기업의 미래 가치의 척도이기 때문에 주가를 분석할 때 기업의 성장성인 매출과 이익 등을 고려하여 주식을 투자한다. 기관투자자들은 종목 선정 기준을 잡기 위해서 현재 산업의 트렌드와 거시경제 지표를 보고 성장 가능한 관련 분야를 먼저 정하고 관련 기업을 선정한 후 기업에 대한 분석을 하고 목표가를 설정 후에 매수를 하고 목표가에 도달하면 매도하는 방식으로 주식 매매를 실시한다. 하지만, 일반 개인 투자자들은 경제에 대한 지식이 기관이나 외국인 투자자에 비교하여 부족하고, 기업에 대한 재무재표 분석이나 성장성에 대한 분석 없이 전문가나 지인의 추천종목을 따라 투자를 하여 기관투자자나 외국인 투자자들 보다 수익률 면에서 낮은 편이다. 따라서, 본 연구에서는 기업의 성장성인 매출과 이익 등을 고려한 지표인 ROE를 분석하여 저평가된 종목을 선택하고, 선택된 종목의 주가 흐름을 딥러닝 알고리즘을 통하여 예측하는 연구방법을 제안하여 투기가 아닌 건전한 투자에 도움이 되기 위해 본 연구를 진행한다.

데이터센터 냉각 시스템의 에너지 절약을 위한 인공신경망 기반 열환경 예측 모델 (Artificial Neural Network-based Thermal Environment Prediction Model for Energy Saving of Data Center Cooling Systems)

  • 임채영;여채은;안성율;이상현
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.883-888
    • /
    • 2023
  • 데이터센터는 24시간 365일 IT 서비스를 제공하는 곳이기 때문에, 2030년에는 데이터센터의 전력 소비량은 약 10%로 증가될 것으로 예측되고, 고밀도 IT장비들의 도입이 점차 증가하면서, IT장비가 안정적으로 운영될 수 있도록 냉방 에너지 절감 및 이를 위한 에너지 관리가 갖춰져야 하기에 다양한 연구가 요구되고 있는 상황이다. 본 연구는 데이터센터의 에너지 절약을 위해 다음과 같은 과정을 제안한다. 데이터센터를 CFD 모델링하고, 인공지능기반 열환경 예측 모델을 제안하였으며, 실측 데이터와 예측 모델 그리고 CFD 결과를 비교하여 최종적으로 데이터 센터의 열관리 성능을 평한 결과 전처리 방식은 정규화 방식으로 사용되었고, 정규화에 따른 RCI, RTI 및 PUE의 예측값 또한 유사한 것을 확인할 수 있다. 따라서 본 연구에서 제안하는 알고리즘으로 데이터센터에 적용될 열환경 예측 모델로 적용 및 제공할 수 있을 것으로 판단된다.

밀집 샘플링 기법을 이용한 네트워크 트래픽 예측 성능 향상 (Improving prediction performance of network traffic using dense sampling technique)

  • 이진선;오일석
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.24-34
    • /
    • 2024
  • 시계열인 네트워크 트래픽 데이터로부터 미래를 예측할 수 있다면 효율적인 자원 배분, 악성 공격에 대한 예방, 에너지 절감 등의 효과를 거둘 수 있다. 통계 기법과 딥러닝 기법에 기반한 많은 모델이 제안되었는데, 이들 연구 대부분은 모델 구조와 학습 알고리즘을 개선하는 일에 치중하였다. 모델의 예측 성능을 높이는 또 다른 접근방법은 우수한 데이터를 확보하는 것이다. 이 논문은 우수한 데이터를 확보할 목적으로, 시계열 데이터를 증강하는 밀집 샘플링 기법을 네트워크 트래픽 예측 응용에 적용하고 성능 향상을 분석한다. 데이터셋으로는 네트워크 트래픽 분석에 널리 사용되는 UNSW-NB15를 사용한다. RMSE와 MAE, MAPE를 사용하여 성능을 분석한다. 성능 측정의 객관성을 높이기 위해 10번 실험을 수행하고 기존 희소 샘플링과 밀집 샘플링의 성능을 박스플롯으로 비교한다. 윈도우 크기와 수평선 계수를 변화시키며 성능을 비교한 결과 밀집 샘플링이 일관적으로 우수한 성능을 보였다.