• 제목/요약/키워드: Apache-Flume

검색결과 4건 처리시간 0.017초

대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템 (A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data)

  • 손시운;김다솔;문양세;최형진
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.58-68
    • /
    • 2018
  • 분산 컴퓨팅이란 다수의 서버로 구성된 분산 시스템에서 데이터를 효율적으로 저장 및 처리하는 기술이다. 따라서 분산 시스템을 구성하는 서버의 상태에 따라 분산 컴퓨팅의 성능에 큰 영향을 미친다. 본 논문은 분산 시스템에서 실시간으로 발생하는 시스템 자원의 로그 데이터를 수집하고 이상을 탐지하여 결과를 시각화하는 자가 진단 시스템을 제안한다. 먼저, 자가 진단 과정을 수집, 전달, 분석, 저장, 시각화의 다섯 단계로 구분한다. 다음으로, 자가 진단 과정이 실시간성, 확장성, 고가용성의 목표를 만족하도록 실시간 자가 진단 시스템을 설계한다. 본 시스템은 대표적인 실시간 분산 기술인 Apache Flume, Apache Kafka, Apache Storm을 기반으로 구현되어 실시간성, 확장성, 고가용성의 세 가지 목표를 만족할 수 있다. 또한, 자가 진단 과정에서 로그 데이터 처리의 지연을 최소화하도록 간단하지만 효과적인 이동 평균 및 3-시그마 기반 이상 탐지 기법을 사용한다. 본 논문의 결과를 통해, 분산 시스템 내에서 서버 상태를 실시간으로 진단할 수 있는 분산 실시간 자가 진단 시스템을 구축할 수 있다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

아파치 엘라스틱서치 기반 로그스태시를 이용한 보안로그 분석시스템 (A Security Log Analysis System using Logstash based on Apache Elasticsearch)

  • 이봉환;양동민
    • 한국정보통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.382-389
    • /
    • 2018
  • 최근 사이버 공격은 다양한 정보시스템에 심각한 피해를 주고 있다. 로그 데이터 분석은 이러한 문제를 해결하는 하나의 방법이다. 보안 로그 분석시스템은 로그 데이터 정보를 수집, 저장, 분석하여 보안 위험에 적절히 대처할 수 있게 한다. 본 논문에서는 보안 로그 분석을 위하여 분산 검색 엔진으로 사용되고 있는 Elasticsearch와 다양한 종류의 로그 데이터를 수집하고 가공 및 처리할 수 있게 하는 Logstash를 사용하여 보안 로그 분석시스템을 설계하고 구현하였다. 분석한 로그 데이터는 Kibana를 이용하여 로그 통계 및 검색 리포트를 생성하고 그 결과를 시각화할 수 있게 하였다. 구현한 검색엔진 기반 보안 로그 분석시스템과 기존의 Flume 로그 수집기, Flume HDFS 싱크 및 HBase를 사용하여 구현한 보안 로그 분석시스템의 성능을 비교 분석하였다. 실험 결과 Elasticsearch 기반의 로그 분석시스템을 사용할 경우 하둡 기반의 로그 분석시스템에 비하여 데이터베이스 쿼리 처리시간 및 로그 데이터 분석 시간을 현저하게 줄일 수 있음을 보였다.

산업현장 실시간 센싱정보 활용/분석을 위한 빅데이터 플랫폼 (Big Data Platform for Utilizing and Analyzing Real-Time Sensing Information in Industrial Sites)

  • 이용환;서진형
    • 창의정보문화연구
    • /
    • 제6권1호
    • /
    • pp.15-21
    • /
    • 2020
  • 일반적인 산업현장에서의 빅 데이터 활용을 위해서는 먼저 산업현장의 설비, 공정, 환경 등에서 수집되는 정형화된 빅 데이터를 처리 및 저장하고, 비정형 데이터인 경우 비구조적 데이터로 저장하거나 정형 데이터로 변환하여 데이터베이스에 저장하여야 한다. 이러한 데이터베이스의 기본이 되는 데이터를 수집하기 위하여 본 논문에서는 산업현장의 계측정보, 환경 정보 등을 융합, 활용할 수 있는 개방형 IoT 표준기반의 빅데이터 수집 방안을 연구한다. 본 논문에서 제안된 빅 데이터 수집을 위한 플랫폼은 실시간 센싱 정보를 처리하기 위해 산업현장의 빅 데이터의 수집, 가공, 저장이 가능하며, 저장된 산업현장의 데이터를 활용 목적에 맞게 데이터를 처리 및 분석하는 다양한 빅 데이터 기술들을 적용할 수 있다.