• 제목/요약/키워드: Data Collection and Preprocessing

검색결과 59건 처리시간 0.025초

자율 기계 학습을 위한 효과적인 스마트 온실 데이터 전처리 시스템 (An Effective Smart Greenhouse Data Preprocessing System for Autonomous Machine Learning)

  • 임종태;;김윤아;백정현;유재수
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.47-53
    • /
    • 2023
  • 최근 정보통신기술을 농업과 접목해 새로운 가치를 창출하는 스마트팜 연구가 활발하게 진행되고 있다. 국내 스마트팜 기술이 농업 선진국 수준의 생산성을 가지기 위해서는 기계 학습을 활용한 자동화된 의사결정이 필요하다. 그러나 현재의 스마트 온실 데이터 수집 기술은 빅데이터 분석이나 기계 학습을 수행하기에 충분하지 않다. 본 논문에서는 자율 기계 학습을 위한 스마트 온실 데이터 전처리 시스템을 설계하고 구현한다. 제안하는 시스템은 대상 데이터를 다양한 전처리 기법에 적용하고 평가를 수행하여 최적 전처리 기법을 탐색하고 저장한다. 이렇게 탐색 된 최적 전처리 기법은 새롭게 수집된 데이터에 대하여 전처리를 수행하는데 활용된다.

안정적 데이터 수집을 위한 지능형 IIoT 플랫폼 개발 (Development of an intelligent IIoT platform for stable data collection)

  • 조우진;이형아;김동주;구재회
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.687-692
    • /
    • 2024
  • 전 세계적으로 에너지 위기가 심각한 문제로 대두되고 있다. 대한민국의 경우 전체 에너지의 53% 이상 사용하며, 온실 가스 배출량 또한 대한민국 전체의 45% 이상을 차지하고 있는 산업 단지 관련 에너지 효율화 연구에 높은 관심을 가지고 있다. 그 연구 중 하나로 가상 에너지 네트워크 플랜트라는 산업 단지 내 동일 유틸리를 사용하는 공장 들 간의 공유 설비와 에너지 생산 공장과 수요 공장 간의 거래로 에너지를 절감하는 연구를 제시한다. 이러한 에너지 절감 연구에서는 분석, 예측 등 데이터의 활용처가 다양하기 때문에 데이터의 수집이 굉장히 중요하다. 하지만, 시계열 데이터를 안정적으로 수집하는데는 기존의 시스템들은 여러 부족함이 있었다. 본 연구에서는 그를 개선하기위해 지능형 IIoT 플랫폼을 제안한다. 지능형 IIoT 플랫폼은 비정상 데이터를 식별하고 적시에 처리하기 위한 전처리 시스템을 포함하며, 이상과 결측 데이터를 분류하고 안정적인 시계열 데이터를 유지하기 위한 보간 기법을 제시한다. 또한 데이터베이스 최적화를 통해 시계열 데이터 수집을 효율화한다. 본 논문은 안정적 데이터 수집과 신속한 문제대응을 통해 산업 환경에서의 데이터 활용성을 높이는데 기여하며, 다양한 챗봇 알림 시스템을 도입하여 데이터 수집부담을 줄이고 모니터링 부하를 최적화하는데 기여한다.

토픽모델링을 활용한 응급구조사 관련 연구동향 (Identifying research trends in the emergency medical technician field using topic modeling)

  • 이정은;김무현
    • 한국응급구조학회지
    • /
    • 제26권2호
    • /
    • pp.19-35
    • /
    • 2022
  • Purpose: This study aimed to identify research topics in the emergency medical technician (EMT) field and examine research trends. Methods: In this study, 261 research papers published between January 2000 and May 2022 were collected, and EMT research topics and trends were analyzed using topic modeling techniques. This study used a text mining technique and was conducted using data collection flow, keyword preprocessing, and analysis. Keyword preprocessing and data analysis were done with the RStudio Version 4.0.0 program. Results: Keywords were derived through topic modeling analysis, and eight topics were ultimately identified: patient treatment, various roles, the performance of duties, cardiopulmonary resuscitation, triage systems, job stress, disaster management, and education programs. Conclusion: Based on the research results, it is believed that a study on the development and application of education programs that can successfully increase the emergency care capabilities of EMTs is needed.

웹 크롤링과 전이학습을 활용한 이미지 분류 모델 (Image Classification Model using web crawling and transfer learning)

  • 이주혁;김미희
    • 전기전자학회논문지
    • /
    • 제26권4호
    • /
    • pp.639-646
    • /
    • 2022
  • 딥러닝의 발전으로 딥러닝 모델들이 이미지 인식, 음성 인식 등 여러 분야에서 활발하게 사용 중이다. 하지만 이 딥러닝을 효과적으로 사용하기 위해서는 대형 데이터 세트가 필요하지만 이를 구축하기에는 많은 시간과 노력 그리고 비용이 필요하다. 본 논문에서는 웹 크롤링이라는 이미지 수집 방법을 통해서 이미지를 수집하고 데이터 전처리 과정을 거쳐 이미지 분류 모델에 사용할 수 있게 데이터 세트를 구축한다. 더 나아가 전이학습을 이미지 분류 모델에 접목해 카테고리값을 넣어 자동으로 이미지를 분류할 수 있는 경량화된 모델과 적은 훈련 시간 및 높은 정확도를 얻을 수 있는 이미지 분류 모델을 제안한다.

보행행태조사방법론의 변화와 모바일 빅데이터의 가능성 진단 연구 - 보행환경 분석연구 최근 사례를 중심으로 - (Changes in Measuring Methods of Walking Behavior and the Potentials of Mobile Big Data in Recent Walkability Researches)

  • 김현주;박소현;이선재
    • 대한건축학회논문집:계획계
    • /
    • 제35권1호
    • /
    • pp.19-28
    • /
    • 2019
  • The purpose of this study is to evaluate the walking behavior analysis methodology used in the previous studies, paying attention to the demand for empirical data collecting for urban and neighborhood planning. The preceding researches are divided into (1)Recording, (2) Surveys, (3)Statistical data, (4)Global positioning system (GPS) devices, and (5)Mobile Big Data analysis. Next, we analyze the precedent research and identify the changes of the walkability research. (1)being required empirical data on the actual walking and moving patterns of people, (2)beginning to be measured micro-walking behaviors such as actual route, walking facilities, detour, walking area. In addition, according to the trend of research, it is analyzed that the use of GPS device and the mobile big data are newly emerged. Finally, we analyze pedestrian data based on mobile big data in terms of 'application' and distinguishing it from existing survey methodology. We present the possibility of mobile big data. (1)Improvement of human, temporal and spatial constraints of data collection, (2)Improvement of inaccuracy of collected data, (3)Improvement of subjective intervention in data collection and preprocessing, (4)Expandability of walking environment research.

Designing Bigdata Platform for Multi-Source Maritime Information

  • Junsang Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.111-119
    • /
    • 2024
  • 본 논문에서는 해상에서 수집되는 다양한 출처의 정보들을 수집할 수 있는 빅데이터 플랫폼을 제안한다. 현재 운영되는 해양 관련 빅데이터 플랫폼들은 만들어진 데이터를 저장 및 공유하는데 초점이 맞추어져 있고 데이터 수집과 전처리는 데이터 제공자가 각자 담당한다. 지상 대비 열악한 통신망을 사용하는 해양 환경에서 데이터를 수집 및 통합하는 것은 높은 비용과 비효율성이 존재하며, 이로 인해 관련 인프라의 구현이 쉽지 않다. 특히 기상 정보, 레이더 및 센서 데이터 등 실시간 데이터 수집 및 분석이 필요한 분야의 경우 통신망 문제와 더불어 데이터 보안, 조직과 선박의 특성, 데이터 수집 비용 문제 등 지상 대비 다수의 문제를 고려해야 한다. 먼저 본 논문에서는 이 문제들을 정의하고 해결방안을 제시한다. 그리고 이를 반영한 빅데이터 플랫폼 설계를 위해 데이터 소스, 계층적 MEC, 데이터 전송 구조를 우선 제안한 후 이를 모두 통합한 전체 플랫폼 구조를 제시한다.

자동 위성영상 수집을 통한 다종 위성영상의 시계열 데이터 생성 (Generation of Time-Series Data for Multisource Satellite Imagery through Automated Satellite Image Collection)

  • 남윤지;정성우;김태정;이수암
    • 대한원격탐사학회지
    • /
    • 제39권5_4호
    • /
    • pp.1085-1095
    • /
    • 2023
  • 위성데이터를 활용한 시계열 데이터는 다양한 분야에서 변화 탐지와 모니터링에 필수적인 자료로 활용되고 있다. 시계열 데이터 생성에 관한 선행 연구에서는 데이터의 통일성을 유지하기 위해 주로 단일 영상을 기반으로 분석하는 방식이 사용되었다. 또한 공간 및 시간 해상도 향상을 위해 다종 영상을 활용하는 연구도 활발하게 진행되고 있다. 시계열 데이터의 중요성은 계속해서 강조되지만, 데이터를 자동으로 수집하고 가공하여 연구에 활용하기 위한 산출물은 아직 제공되지 않고 있다. 따라서 이러한 한계를 극복하기 위해 본 논문에서는 사용자가 설정한 지역의 위성정보를 자동으로 수집하고 시계열 데이터를 생성하는 기능을 제안한다. 본 연구는 한 종류의 위성영상뿐만 아니라 동일 지역의 여러 위성데이터를 수집하고 이를 시계열 데이터로 변환하여 산출물을 생성하는 것을 목표로 하며, 이를 위한 위성영상 자동 수집 시스템을 개발하였다. 이 시스템을 활용하면 사용자는 관심 있는 지역을 설정함으로써 해당 지역에 맞게 데이터가 수집되고 Crop되어 즉시 활용할 수 있는 데이터를 생성할 수 있다. 실험 결과로는 웹 상에서 무료로 제공되는 Landsat-8/9 OLI 및 Sentinel-2 A/B 영상의 자동 획득이 가능함을 확인하였으며, 수동 입력을 통해 별도의 고해상도 위성영상도 함께 처리할 수 있었다. 고해상도 위성영상을 기준으로 자동 수집 및 편집된 영상 간의 정확도를 비교하고 육안 분석을 수행한 결과, 큰 오차 없이 결과물을 생성할 수 있음을 확인했다. 이후 시계열 데이터 간 상대적 위치 오차 최소화 및 좌표가 획득되어 있지 않은 데이터 처리 등에 대한 연구 및 다양한 위성영상을 활용한 시계열 데이터 생성 기능 추가가 계획되어 있다. 위성영상을 활용한 시계열 데이터의 생성 방법이 정립되고, 국토위성, 농림위성과 같은 국내 위성정보를 이용한 시계열 데이터가 효과적으로 활용될 경우, 국토·농림·산업·해양 분야에서 다양한 응용 가능성이 기대된다.

통행시간 추정을 위한 TCS 데이터의 전처리 모형 개발 (A Development of Preprocessing Models of Toll Collection System Data for Travel Time Estimation)

  • 이현석;남궁성
    • 한국ITS학회 논문지
    • /
    • 제8권5호
    • /
    • pp.1-11
    • /
    • 2009
  • TCS (Toll Collection System) 데이터는 원시 데이터 자체로서도 구간의 교통상황을 어느 정도 반영할 수 있는 교통특 성을 내포하고 있다. 그러나 TCS 데이터에는 이상치가 포함되어 있어 이러한 데이터는 해당 구간의 통행시간을 대표한다고 볼 수 없으므로 만약 이러한 이상치들이 포함되어 있음에도 불구하고 제거하지 않고 집락을 한다면 이상치들로 인해 통행시간은 크게 왜곡 될 가능성이 있다. 특히 장거리 구간일수록 통행시간의 분산이 증가하여 동일구간 동일시간대라도 다양한 통행시간이 분포하고 있다. 구간이 길어질수록 통행시간의 변동이 심하여 적절한 통행시간 대푯값을 구하기가 어렵다. 따라서 TCS 자료를 이용하여 통행시간의 대푯값을 산정하기 위해서는 통행시간의 변동 특성을 파악하는 것이 중요하다. 본 연구에서는 TCS 데이터의 전처리 기법을 개선하되 구간의 길이와 교통상황에 따른 통행시간의 변동을 고려하여 TCS 원시데이터로부터 시 공간적 통행패턴을 파악할 수 있는 의미 있는 통행시간을 추출하고자 한다.

  • PDF

전기 차 운행 데이터를 활용한 인공지능 기반의 배터리 분석 및 평가 방법 연구 (Research on artificial intelligence based battery analysis and evaluation methods using electric vehicle operation data)

  • 홍승모
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권6호
    • /
    • pp.385-391
    • /
    • 2023
  • 최근 탄소배출을 최소화하기 위해 전기자동차의 사용이 증가함에 따라 핵심 부품인 리튬이온 배터리의 상태 및 성능 분석의 중요성이 대두되고 있다. 따라서 배터리의 상태 및 성능에 영향을 줄 수 있는 배터리의 전압, 전류 및 온도뿐만 아니라 전기 자동차의 운행 데이터 및 충전 패턴 데이터를 활용한 종합적인 분석이 필요하다. 따라서 전기적 이동 수단에서 수집되는 배터리 데이터 수집 및 데이터 전처리, 단순 배터리 데이터에 추가적인 운전자 운전 습관에 대한 데이터 수집 및 전처리, 분석된 영향인자를 기반으로 인공지능 알고리즘 세부 설계 및 수정, 해당 알고리즘을 기반으로 하는 배터리 분석 및 평가 모델 설계하였다. 본 논문에서는 실시간 전기버스를 대상으로 운행 데이터와 배터리 데이터를 수집하여 Random Forest 알고리즘 활용하여 학습시킨 후, XAI 알고리즘을 통해 배터리 상태 중요 영향인자로 배터리의 상태, 운행 및 충전 패턴 데이터 등을 종합적으로 고려하여 운행 패턴에서 급가속, 급 감속, 급정지와 충 방전 패턴에서 일 주행횟수, 일일 누적 DOD와 셀 방전에서 셀 전압 차 , 셀 최대온도, 셀 최소온도의 요소가 배터리 상태에 많은 영향을 미치는 인자로 확인되었으며, Random Forest 알고리즘 기반으로 배터리 분석 및 평가 모델을 설계하고 평가하였다.

A study on Digital Agriculture Data Curation Service Plan for Digital Agriculture

  • Lee, Hyunjo;Cho, Han-Jin;Chae, Cheol-Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.171-177
    • /
    • 2022
  • 본 논문에서는 다출처 농업 데이터를 통찰할 수 있는 지식체계를 마련하고, 시간 흐름을 가지는 환경인자 분석 정보를 클러스터링 할 수 있는, 농작물 환경 인자 큐레이션 서비스 방법을 제안한다. 제안하는 큐레이션 서비스는 크게 수집, 전처리, 저장, 분석의 네 단계로 구성된다. 첫째, 수집 단계에서는 OpenAPI 기반의 웹크롤러를 이용하여 다출처 농업 데이터에 대한 수집 및 정리를 수행한다. 둘째, 전처리 단계에서는 데이터 측정 오차를 감소시키기 위해 데이터 평활화를 수행한다. 이때 온실, 노지 등의 시설 특성에 따른 오차율을 고려하여 시설 유형별 평활화 방법을 적용한다. 셋째, 저장단계에서는 대용량 농업 데이터 관리를 위해, 농업 데이터 통합 스키마 및 Hadoop HDFS 기반의 저장 구조를 제안한다. 마지막으로 분석 단계에서는 농업 디지털 데이터의 시계열 특성을 고려한 DTW 기반의 시계열 분류를 수행한다. DTW 기반 시계열 분류를 통해 시계열 데이터의 특성을 손실 없이 반영하여 예측 결과 정확도를 향상시킨다. 향후 연구로는 제안한 서비스 방법을 구현하여 스마트팜 온실에 적용하고, 테스트 및 검증을 수행할 예정이다.