• 제목/요약/키워드: distributed data storage

검색결과 297건 처리시간 0.026초

빅데이터 플랫폼을 이용한 보안로그 분석 시스템 구현 모델 연구 (A Study on implementation model for security log analysis system using Big Data platform)

  • 한기형;정형종;이두식;채명희;윤철희;노규성
    • 디지털융복합연구
    • /
    • 제12권8호
    • /
    • pp.351-359
    • /
    • 2014
  • 보안 장비에서 발생하는 로그는 그동안 ESM(Enterprise Security Management) 기반으로 통합적으로 데이터를 분석하였으나 데이터 저장 용량의 한계와 ESM자체의 데이터 처리 성능의 한계로 빅데이터 처리에 부적합하기 때문에 빅데이터 플랫폼을 이용한 보안로그 분석 기술이 필요하다. 빅데이터 플랫폼은 Hadoop Echosystem을 이용하여 대용량의 데이터 수집, 저장, 처리, 검색, 분석, 시각화 기능을 구현할 수 있다. 현재 ESM기술은 SIEM(Security Information & Event Management)방식으로 기술이 발전하고 있으며 SIEM방식의 보안기술을 구현하기 위해서는 현재 보안장비에서 발생하는 방대한 로그 데이터를 처리할 수 있는 빅데이터 플랫폼 기술이 필수적이다. 본 논문은 Hadoop Echosystem 이 가지고 있는 빅데이터 플랫폼 기술을 활용하여 보안로그를 분석하기 위한 시스템을 어떻게 구현할 수 있는지에 대한 모델을 연구하였다.

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

USB 메모리를 위한 보안 솔루션에 관한 연구 (A Study on Security Solution for USB Flash Drive)

  • 이선호;이임영
    • 한국멀티미디어학회논문지
    • /
    • 제13권1호
    • /
    • pp.93-101
    • /
    • 2010
  • USB 메모리는 휴대성과 가격대비 고용량을 제공하는 이동형 저장매체로 많은 사용자를 확보하고 있다. 이러한 USB 메모리의 분실 및 도난을 통하여 개인 정보 유출 사건이 증가함에 따라 보안USB 솔루션이 개발되어 사용자들에게 제공되고 있다. 하지만 보안USB의 사용 불편함과 보안 취약점이 발견되고 있어 더욱 안전하고 사용자 편의를 제공하는 보안 솔루션의 필요성이 대두되고 있다. 본 논문은 기존의 이동형 저장매체를 위한 보안 솔루션을 분석하고 더욱 안전하고 사용자 편의성을 제공하는 보안 솔루션을 제시하고자 한다.

Performance analysis of local exit for distributed deep neural networks over cloud and edge computing

  • Lee, Changsik;Hong, Seungwoo;Hong, Sungback;Kim, Taeyeon
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.658-668
    • /
    • 2020
  • In edge computing, most procedures, including data collection, data processing, and service provision, are handled at edge nodes and not in the central cloud. This decreases the processing burden on the central cloud, enabling fast responses to end-device service requests in addition to reducing bandwidth consumption. However, edge nodes have restricted computing, storage, and energy resources to support computation-intensive tasks such as processing deep neural network (DNN) inference. In this study, we analyze the effect of models with single and multiple local exits on DNN inference in an edge-computing environment. Our test results show that a single-exit model performs better with respect to the number of local exited samples, inference accuracy, and inference latency than a multi-exit model at all exit points. These results signify that higher accuracy can be achieved with less computation when a single-exit model is adopted. In edge computing infrastructure, it is therefore more efficient to adopt a DNN model with only one or a few exit points to provide a fast and reliable inference service.

Task failure resilience technique for improving the performance of MapReduce in Hadoop

  • Kavitha, C;Anita, X
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.748-760
    • /
    • 2020
  • MapReduce is a framework that can process huge datasets in parallel and distributed computing environments. However, a single machine failure during the runtime of MapReduce tasks can increase completion time by 50%. MapReduce handles task failures by restarting the failed task and re-computing all input data from scratch, regardless of how much data had already been processed. To solve this issue, we need the computed key-value pairs to persist in a storage system to avoid re-computing them during the restarting process. In this paper, the task failure resilience (TFR) technique is proposed, which allows the execution of a failed task to continue from the point it was interrupted without having to redo all the work. Amazon ElastiCache for Redis is used as a non-volatile cache for the key-value pairs. We measured the performance of TFR by running different Hadoop benchmarking suites. TFR was implemented using the Hadoop software framework, and the experimental results showed significant performance improvements when compared with the performance of the default Hadoop implementation.

수문기상데이터 기반 개념적 강우-유출관계 모형 연구 (Conceptual rainfall-runoff relationship model based on hydrometeorological data)

  • 전경수;선우우연
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.177-177
    • /
    • 2018
  • 유역의 홍수량 산정하기 위해서 데이터기반 모형, 개념적 모형, 프로세스 기반 모형과 같은 다양한 개념의 수문학적 모형이 개발되고 적용성이 검토되고 있다. 물리기반 강우-유출관계 모형의 경우, 이론적으로 강우유출응답의 연속 모의에 적합하다고 알려져 있으나 모형 구성에 필요한 수문자료 확보의 한계성 때문에 실절적인 적용에 어려움이 있다. 또한 수문 자료가 충분하지 않거나, 없는 미계측 유역에서 홍수량을 산정하기 위해서는 기존의 수문 관측 시스템의 데이터를 이용하기 어렵기 때문에 레이더 및 위성 등을 이용한 다양한 기상수문데이터 도입이 필요하다. 이에 본 연구에서는 관측된 자료와 함께 모델기반 수문기상 시스템인 GLDAS(Global Land Data Assimilation System, GLDAS)의 자료를 이용하여 개념적 강우-유출관계 모형인 PMD(Probaility Distributed Model, PMD)을 통해 홍수량을 모의하는 방법을 적용하였다. 이를 위해 개념적 강우유출관계 모형을 구성하고, 공간적 토양저류(soil moisture storage)분포를 산정하기 위해 토양의 함수상태를 산출하였다. 이같은 접근법은 수문 자료의 제한, 모형 검정의 문제와 같은 어려움을 해결하기 위한 대안으로 제시할 수 있으며, 분석 결과로부터 모델기반 수문기상 자료와 개념적 강우-유출관계 모형의 활용가능성을 검증할 계획이다.

  • PDF

클라우드 기반 지리공간정보를 활용한 작전상황 혼합현실 가시화 시스템 설계 (Design of Mixed Reality Visualization System for Operational Situation Using Cloud-based Geospatial Information)

  • 장영찬;박재일;조은지;곽송연;신상헌
    • 한국군사과학기술학회지
    • /
    • 제27권1호
    • /
    • pp.60-69
    • /
    • 2024
  • The importance of geospatial information is increasingly highlighted in the defense domain. Accurate and up-to-date geospatial data is essential for situational awareness, target analysis, and mission planning in millitary operations. The use of high-resolution geospatial data in military operations requires large storage and fast image processing capabilities. Efficient image processing is required for tasks such as extracting useful information from satellite images and creating 3D terrain for mission planning, In this paper, we designed a cloud-based operational situation mixed reality visualization system that utilizes large-scale geospatial information distributed processed on a cloud server based on the container orchestration platform Kubernetes. We implemented a prototype and confirmed the suitability of the design.

하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법 (Anomaly Detection Technique of Log Data Using Hadoop Ecosystem)

  • 손시운;길명선;문양세
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권2호
    • /
    • pp.128-133
    • /
    • 2017
  • 최근 대용량 데이터 분석을 위해 다수의 서버를 사용하는 시스템이 증가하고 있다. 대표적인 빅데이터 기술인 하둡은 대용량 데이터를 다수의 서버로 구성된 분산 환경에 저장하여 처리한다. 이러한 분산 시스템에서는 각 서버의 시스템 자원 관리가 매우 중요하다. 본 논문은 다수의 서버에서 수집된 로그 데이터를 토대로 간단하면서 효율적인 이상 탐지 기법을 사용하여 로그 데이터의 변화가 급증하는 이상치를 탐지하고자 한다. 이를 위해, 각 서버로부터 로그 데이터를 수집하여 하둡 에코시스템에 저장할 수 있도록 Apache Hive의 저장 구조를 설계하고, 이동 평균 및 3-시그마를 사용한 세 가지 이상 탐지 기법을 설계한다. 마지막으로 실험을 통해 세 가지 기법이 모두 올바로 이상 구간을 탐지하며, 또한 가중치가 적용된 이상 탐지 기법이 중복을 제거한 더 정확한 탐지 기법임을 확인한다. 본 논문은 하둡 에코시스템을 사용하여 간단한 방법으로 로그 데이터의 이상을 탐지하는 우수한 결과라 사료된다.

가중치 테이블 기반 안전한 e-비즈니스 데이터 분할 복원 방식 (Secure Sharing and Recovering Scheme of e-Business Data Based on Weight Table)

  • 송유진;김진석
    • 정보처리학회논문지C
    • /
    • 제16C권1호
    • /
    • pp.27-36
    • /
    • 2009
  • 최근의 개인정보 노출의 가장 큰 원인은 정당한 개인정보 관리자 즉, 내부자에 의한 부정 이용이다. 관리자는 사용자의 기밀문서를 몰래 복사하거나 고쳐 쓰는 것도 가능하다. 이러한 민감한 개인 및 기업 데이터의 안전한 관리 대책으로서 기밀정보의 안전한 분산 저장관리 기능이 요구되고 있다. 한편, 개인정보를 제공하는 경우, 정보 소유자가 프라이버시 데이터를 누구에게 얼마만큼 가중치(weight)을 두고 공개할지를 정해야 한다. 따라서 참여자의 중요도에 따라 개인정보 열람에 대한 권한의 가중치를 다르게 지정할 수 있는 구조가 요구된다. 본 논문에서는 개인정보를 권한의 가중치에 따라 안전하게 관리할 수 있는 새로운 데이터 관리 기법을 위한 Digit-independent 알고리즘을 새롭게 제안한다. 제안된 알고리즘을 근거로 데이터의 수집과 단순한 연산만으로 고속 연산처리가 가능하여 대량의 프라이버시 데이터에 적용할 수 있는 데이터 관리기법으로서 가중치 테이블 기반의 Digit-independent 알고리즘을 이용한 데이터 분할 복원 방식을 제안한다. 제안 방식은 유비쿼터스 환경에서 e-비즈니스 데이터의 안전한 관리 및 저장에 활용될 수 있을 것이다.