• 제목/요약/키워드: long short-term memory recurrent network

검색결과 138건 처리시간 0.025초

머신러닝을 활용한 결측 부동산 매매 지수의 추정에 대한 연구 (A Study on the Index Estimation of Missing Real Estate Transaction Cases Using Machine Learning)

  • 김경민;김규석;남대식
    • 한국경제지리학회지
    • /
    • 제25권1호
    • /
    • pp.171-181
    • /
    • 2022
  • 부동산 시장 분석에 있어 기본이 되는 정량적 데이터는 부동산 가격 지수이다. OECD와 같은 국제기구에서는 국가별 부동산 가격 지수를 공표하고, 한국부동산원에서는 광역시 단위와 시군구 단위의 지수를 산출한다. 그런데 공간단위를 시군구보다 정교한 동단위, 아파트 단지 단위로 설정하는 경우, 여러 문제점을 맞이하게 된다. 대표적인 문제는 결측치이다. 공간적 범위를 좁힐수록 단위 기간에 따라 거래가 적거나 아예 존재하지 않는 경우가 존재하기에 이 경우에는 지수의 산출이 불가능한 결측치가 발생할 수 있다. 본 연구에서는 지도학습 기반의 머신러닝 기법을 활용하여 특정 범위와 기간에 거래가 존재하지 않아 발생할 수 있는 결측치를 보완하는 기법을 제안한다. 본 모형을 통해 부동산 매매 지수의 실제값이 존재하는 것들의 예측을 통해 그 정확도를 검증하고 결측치가 발생한 것들의 예측도 해 볼 수 있었다.

Prediction of pollution loads in agricultural reservoirs using LSTM algorithm: case study of reservoirs in Nonsan City

  • Heesung Lim;Hyunuk An;Gyeongsuk Choi;Jaenam Lee;Jongwon Do
    • 농업과학연구
    • /
    • 제49권2호
    • /
    • pp.193-202
    • /
    • 2022
  • The recurrent neural network (RNN) algorithm has been widely used in water-related research areas, such as water level predictions and water quality predictions, due to its excellent time series learning capabilities. However, studies on water quality predictions using RNN algorithms are limited because of the scarcity of water quality data. Therefore, most previous studies related to water quality predictions were based on monthly predictions. In this study, the quality of the water in a reservoir in Nonsan, Chungcheongnam-do Republic of Korea was predicted using the RNN-LSTM algorithm. The study was conducted after constructing data that could then be, linearly interpolated as daily data. In this study, we attempt to predict the water quality on the 7th, 15th, 30th, 45th and 60th days instead of making daily predictions of water quality factors. For daily predictions, linear interpolated daily water quality data and daily weather data (rainfall, average temperature, and average wind speed) were used. The results of predicting water quality concentrations (chemical oxygen demand [COD], dissolved oxygen [DO], suspended solid [SS], total nitrogen [T-N], total phosphorus [TP]) through the LSTM algorithm indicated that the predictive value was high on the 7th and 15th days. In the 30th day predictions, the COD and DO items showed R2 that exceeded 0.6 at all points, whereas the SS, T-N, and T-P items showed differences depending on the factor being assessed. In the 45th day predictions, it was found that the accuracy of all water quality predictions except for the DO item was sharply lowered.

LDA와 LSTM를 응용한 뉴스 기사 기반 선물가격 예측 (Futures Price Prediction based on News Articles using LDA and LSTM)

  • 주진현;박근덕
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.167-173
    • /
    • 2023
  • 경제지표를 분석하는 방법으로 회귀 분석이나, 인공지능을 활용하여 미래의 데이터를 예측하는 연구가 발표되었다. 본 연구에서는 토픽모델링을 사용하여 과거 뉴스 기사로부터 얻은 주제 확률 데이터를 이용한 인공지능으로 미래 선물 가격을 예측하는 시스템을 구상하였다. 과거 뉴스 기사로부터 비지도학습을 통한 문서의 주제를 추출할 수 있는 LDA 방법으로 각 뉴스 기사 주제 확률 분포 데이터를 얻을 수 있고, 해당 데이터를 인공지능의 RNN의 파생 구조인 LSTM의 입력 데이터로 활용함으로써 미래 선물 가격을 예측하였다. 본 연구에서 제안한 방법에서는 선물 가격의 추세를 예측할 수 있었고, 이를 활용하여 추후 옵션 상품 등의 파생 상품에 대한 가격 추세도 예측할 수 있을 것으로 보인다. 다만, 일부 데이터에 대해 오차가 발생하는 것이 확인되어 정확도 향상을 위한 추가적인 연구가 필요하다.

IoT 스트리밍 센서 데이터에 기반한 실시간 PM10 농도 예측 LSTM 모델 (Real-time PM10 Concentration Prediction LSTM Model based on IoT Streaming Sensor data)

  • 김삼근;오택일
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.310-318
    • /
    • 2018
  • 최근 사물인터넷(IoT)의 등장으로 인터넷에 연결된 다양한 기기들에 의해 대규모의 데이터가 생성됨에 따라 빅데이터 분석의 중요성이 증가하고 있다. 특히 실시간으로 생성되는 대규모의 IoT 스트리밍 센서 데이터를 분석하여 새로운 의미 있는 미래 예측을 통해 다양한 서비스를 제공하는 것이 필요하게 되었다. 본 논문은 AWS를 활용하여 IoT 센서로부터 생성되는 스트리밍 데이터에 기반하여 실시간 실내 PM10 농도 예측 LSTM 모델을 제안한다. 또한 제안 모델에 따른 실시간 실내 PM10 농도 예측 서비스를 구축한다. 논문에 사용된 데이터는 PM10 IoT 센서로부터 24시간 동안 수집된 스트리밍 데이터이다. 이를 LSTM의 입력 데이터로 사용하기 위해 PM10 시계열 데이터로부터 30개의 연속된 값으로 이루어진 시퀀스 데이터로 변환한다. LSTM 모델은 바로 인접한 공간으로 이동해 가는 슬라이딩 윈도우 프로세스를 통하여 학습한다. 또한 모델의 성능 개선을 위해 24시간마다 수집한 스트리밍 데이터에 대해 점진적 학습 방법을 적용한다. 제안한 LSTM 모델의 성능을 평가하기 위해 선형회귀 모델 및 순환형 신경망(RNN) 모델과 비교한다. 실험 결과는 제안한 LSTM 예측 모델이 선형 회귀보다 700%, RNN 모델보다는 140% 성능 개선이 있음을 보여주었다.

이진 분류문제에서의 딥러닝 알고리즘의 활용 가능성 평가 (Feasibility of Deep Learning Algorithms for Binary Classification Problems)

  • 김기태;이보미;김종우
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.95-108
    • /
    • 2017
  • 최근 알파고의 등장으로 딥러닝 기술에 대한 관심이 고조되고 있다. 딥러닝은 향후 미래의 핵심 기술이 되어 일상생활의 많은 부분을 개선할 것이라는 기대를 받고 있지만, 주요한 성과들이 이미지 인식과 자연어처리 등에 국한되어 있고 전통적인 비즈니스 애널리틱스 문제에의 활용은 미비한 실정이다. 실제로 딥러닝 기술은 Convolutional Neural Network(CNN), Recurrent Neural Network(RNN), Deep Boltzmann Machine (DBM) 등 알고리즘들의 선택, Dropout 기법의 활용여부, 활성 함수의 선정 등 다양한 네트워크 설계 이슈들을 가지고 있다. 따라서 비즈니스 문제에서의 딥러닝 알고리즘 활용은 아직 탐구가 필요한 영역으로 남아있으며, 특히 딥러닝을 현실에 적용했을 때 발생할 수 있는 여러 가지 문제들은 미지수이다. 이에 따라 본 연구에서는 다이렉트 마케팅 응답모델, 고객이탈분석, 대출 위험 분석 등의 주요한 분류 문제인 이진분류에 딥러닝을 적용할 수 있을 것인지 그 가능성을 실험을 통해 확인하였다. 실험에는 어느 포르투갈 은행의 텔레마케팅 응답여부에 대한 데이터 집합을 사용하였으며, 전통적인 인공신경망인 Multi-Layer Perceptron, 딥러닝 알고리즘인 CNN과 RNN을 변형한 Long Short-Term Memory, 딥러닝 모형에 많이 활용되는 Dropout 기법 등을 이진 분류 문제에 활용했을 때의 성능을 비교하였다. 실험을 수행한 결과 CNN 알고리즘은 비즈니스 데이터의 이진분류 문제에서도 MLP 모형에 비해 향상된 성능을 보였다. 또한 MLP와 CNN 모두 Dropout을 적용한 모형이 적용하지 않은 모형보다 더 좋은 분류 성능을 보여줌에 따라, Dropout을 적용한 CNN 알고리즘이 이진분류 문제에도 활용될 수 있는 가능성을 확인하였다.

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.

LSTM 모델 기반 주행 모드 인식을 통한 자율 주행에 관한 연구 (Automated Vehicle Research by Recognizing Maneuvering Modes using LSTM Model)

  • 김은희;오혜연
    • 한국ITS학회 논문지
    • /
    • 제16권4호
    • /
    • pp.153-163
    • /
    • 2017
  • 본 연구에서는 운전자 별로 생활 중에 이동하는 주행 도로의 특징 및 교통상황이 서로 다르며 운전습관이 상이함을 고려하여, 운전자 혹은 운전자 그룹별 기계학습모형을 구성하고, 학습된 모델을 분석하여 운전자의 주행모드 별 특징을 탐색하여 자율 주행 자동차를 시뮬레이션 하였다. 운전지식을 활용하여 주행조작 전후 센서의 동작 상황에 따라 8종류의 종방향 모드와 4종류 회전모드로 구분하고, 종방향 모드와 회전모드를 결합한 21개의 결합형 주행모드로 세분화 하였다. 주행모드가 레이블 된 시계열 데이터에 대해 딥러닝 지도학습 모델인 RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), Bi-LSTM 모델을 활용하여서 운전자 별 혹은 운전자 그룹별 주행데이터를 학습하고, 학습된 모델을 테스트 데이터 셋에서 주행 모드인식률을 검증하였다. 실험 데이터는 미국 VTTI 기관에서 수집된 22명의 운전자의 1,500개의 실생활 주행 데이터가 사용되었다. 주행 모드 인식에 있어, 데이터 셋에 대해 Bi-LSTM 모델이 RNN, LSTM 모델에 비해 향상된 성능을 보였으며, 최대 93.41%의 주행모드 인식률을 확인하였다.

제주도 표선유역 중산간지역의 최적 지하수위 예측을 위한 인공신경망의 활성화함수 비교분석 (Comparative analysis of activation functions of artificial neural network for prediction of optimal groundwater level in the middle mountainous area of Pyoseon watershed in Jeju Island)

  • 신문주;김진우;문덕철;이정한;강경구
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1143-1154
    • /
    • 2021
  • 활성화함수의 선택은 인공신경망(Artificial Neural Network, ANN) 모델의 지하수위 예측성능에 큰 영향을 미친다. 특히 제주도의 중산간 지역과 같이 지하수위의 변동폭이 크고 변동양상이 복잡한 경우 적절한 지하수위 예측을 위해서는 다양한 활성화함수의 비교분석을 통한 최적의 활성화함수 선택이 반드시 필요하다. 본 연구에서는 지하수위의 변동폭이 크고 변동양상이 복잡한 제주도 표선유역 중산간지역 2개 지하수위 관측정을 대상으로 5개의 활성화함수(sigmoid, hyperbolic tangent (tanh), Rectified Linear Unit (ReLU), Leaky Rectified Linear Unit (Leaky ReLU), Exponential Linear Unit (ELU))를 ANN 모델에 적용하여 지하수위 예측결과를 비교 및 분석하고 최적 활성화함수를 도출하였다. 그리고 최근 널리 사용되고 있는 순환신경망 모델인 Long Short-Term Memory (LSTM) 모델의 결과와 비교분석하였다. 분석결과 지하수위 변동폭이 상대적으로 큰 관측정과 상대적으로 작은 관측정에 대한 지하수위 예측에 대해서는 각각 ELU와 Leaky ReLU 함수가 최적의 활성화함수로 도출되었다. 반면 sigmoid 함수는 학습기간에 대해 5개 활성화함수 중 예측성능이 가장 낮았으며 첨두 및 최저 지하수위 예측에서 적절하지 못한 결과를 도출하였다. 따라서 ANN-sigmoid 모델은 가뭄기간의 지하수위 예측을 통한 지하수자원 관리목적으로 사용할 경우 주의가 필요하다. ANN-ELU와 ANN-Leaky ReLU 모델은 LSTM 모델과 대등한 지하수위 예측성능을 보여 활용가능성이 충분히 있으며 LSTM 모델은 ANN 모델들 보다 예측성능이 높아 인공지능 모델의 예측성능 비교분석 시 참고 모델로 활용될 수 있다. 마지막으로 학습기간의 정보량에 따라 학습기간의 지하수위 예측성능이 검증 및 테스트 기간의 예측성능보다 낮을 수 있다는 것을 확인하였으며, 관측지하수위의 변동폭이 크고 변동양상이 복잡할수록 인공지능 모델별 지하수위 예측능력의 차이는 커졌다. 본 연구에서 제시한 5개의 활성화함수를 적용한 연구방법 및 비교분석 결과는 지하수위 예측뿐만 아니라 일단위 하천유출량 및 시간단위 홍수량 등 지표수 예측을 포함한 다양한 연구에 유용하게 사용될 수 있다.