• 제목/요약/키워드: 하둡 시스템

검색결과 169건 처리시간 0.025초

하둡 시스템 정보의 이상탐지를 위한 시각화 (Visualization of Anomaly Detection in Hadoop System Information)

  • 양석우;손시운;길명선;문양세;원희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.702-705
    • /
    • 2015
  • 본 논문에서는 하듐 환경에서 시스템 정보의 이상탐지를 위한 시각화 기능을 설계 및 구현한다. 제안한 이상탐지 시각화 기능은 크게 세 단계로 구분된다. 먼저, 각 노드로부터 시스템 로그 데이터(캐시 및 메인 메모리)를 수집하여 하이브(Hive) 저장한다. 그리고 저장한 데이터에 3-시그마 규칙을 적용하여 이상탐지를 수행한 후 관계형 데이터베이스에 적합하도록 재가공한다. 마지막으로, 스쿱(Sqoop)을 통해 RDBMS(MariaDB)에 이상탕지 결과를 저장하고, DHTMLX 차트 라이브러리를 사용하여 이를 시각화한다. 시각화 결과, 로그 데이터의 이상탐지와 데이터간의 상관관계를 직관적으로 이해할 수 있게 되었다.

하둡 및 스파크를 이용한 초고품질 영상 실시간 처리 시스템 개발 (Development of Real-time High-Fidelity Video Processing System using Hadoop and Spark)

  • 허진강;김용환
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.326-328
    • /
    • 2018
  • 최근 4K/8K 급 초고품질 콘텐츠의 서비스에 관심이 집중되는 만큼 스트리밍 서비스에 대한 연구도 활발히 이루어지고 있다. 하지만 단일 PC 성능의 한계로 인해 SW 기반 영상 처리에 어려움을 겪고 있다. 본 논문에서는 분산 처리를 통해 실시간 영상 처리가 가능하도록 시스템을 제안한다. 제안한 시스템은 영상 패킷 분석 및 분할, 분산 트랜스코딩, 패킷 통합 단계로 이루어지며 Hadoop 과 Spark 를 이용하여 실시간 분산 처리를 지원한다. 실험 결과는 초고품질 입력 영상($3840{\times}2160@60Hz$, YCbCr 4:2:2, 10-bit)에 대해 평균 74.47fps 의 트랜스코딩 속도를 보인다.

  • PDF

스파크 기반 분산 환경에서 슬레이브 노드의 개수에 따른 성능 분석과 예측 (Performance evaluation and prediction for number of slave nodes in Spark)

  • 박봉우;명노영;정광식;유헌창;최숙경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.94-96
    • /
    • 2017
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅 데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 분산 시스템 플랫폼 스파크(Apache Spark)가 등장하였다. 본 플랫폼을 바탕으로 슬레이브 노드들에게 작업을 분산하여 대용량 연산을 수행한다. 하지만 요구하는 성능을 내기 위해 어느 정도 규모의 슬레이브 노드가 필요한지, 각각의 컴퓨팅 능력은 얼마나 필요한지를 예측하는데 어려움이 있다. 본 논문에서는 스파크에서 원하는 성능을 내기 위해 어떤 조건을 충족해야 하는지, 현재 환경에서는 어느 정도 성능을 낼 수 있는지 실험을 통해 모델을 만들어 예측한다.

하둡 분산 파일 시스템을 위한 효율적인 데이터 분산 저장 기법 (An Efficient Data Distribution Store Schemes for Hadoop Distributed File System)

  • 최성진;전대석;배대극;최부영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(D)
    • /
    • pp.163-166
    • /
    • 2011
  • 클라우드 컴퓨팅이란 인터넷 기술을 활용하여 모든 인프라 자원(소프트웨어, 서버, 스토리지, 네트워크 등)을 서비스화(as a Service)하여, 언제, 어디서든, 장치에 독립적으로 네트워크를 통해 사용하고, 사용한 만큼 비용을 지불하는 컴퓨팅으로써, 대표적인 서비스 업체로는 구글과 아마존이 있다. 최근 아파치 재단에서는 구글의 GFS와 동일 또는 유사한 시스템을 만들기 위해 HDFS 오픈소스 프로젝트를 진행하고 있다. HDFS는 빈번한 하드웨어 고장에도 원본 데이터를 복구할 수 있는 가용성을 보장하기 위해 파일 데이터를 블록 단위로 나누어, 다시 datanode에 복제하여 저장한다. 이 기법은 복제가 많아 질수록 가용성은 높아지나 스토리지가 증가한다는 단점을 가지고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 행렬의 특성을 이용한 새로운 분산 저장 기법을 제안한다.

키워드 매칭에 의한 도서 빅데이터의 맵리듀스 모델 적용에 관한 연구 (A Study on Applications of Book Big Data to Map-Reduce Model by Keyword Mapping)

  • 김태진;이재웅;서정우;김미혜;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.247-249
    • /
    • 2015
  • 본 논문에서는 하둡 플랫폼의 맵리듀스 모델에 기반하여 도서관 이용자들이 자주 대출하는 도서와 키워드 매칭을 통해 연관성이 높은 도서들을 추출하고 추천해 주는 도서 대출 추천 시스템을 구현 개발한다. 구현 개발된 시스템은 빅데이터의 특징을 갖는 도서관의 대출 로그 데이터로부터 타겟 도서와 유사한 키워드를 갖고 자주 대출되는 도서를 찾아 이용자에게 제공해 준다.

ETL 상에서 처리속도 향상을 위한 빅데이터 처리 시스템 제안 (Suggestion of BigData Processing System for Enhanced Data Processing on ETL)

  • 이정빈;박석천;길기범;천승태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.170-171
    • /
    • 2015
  • 최근 디지털 정보량의 기하급수적인 증가에 따라 대규모 데이터인 빅데이터가 등장하였다. 빅데이터는 데이터가 실시간으로 매우 빠르게 생성되며 다양한 형태의 데이터를 가지며 이 데이터를 수집, 처리, 분석을 통해 새로운 지식을 창출한다. 그러나 기존의 ETL(Exact/Transform/Load) 연구에서 이러한 빅데이터를 처리 하는데 성능 저하가 발생되고 있으며 비정형 데이터를 관리할 수 없다. 따라서 본 논문에서는 기존의 ETL 처리의 한계를 극복하기 위해서 하둡을 이용하여 ETL 상에서 처리 속도를 높이고 비정형 데이터를 처리할 수 있는 빅데이터 처리 시스템을 제안하고자 한다.

빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템 (Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing)

  • 김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

Spark 기반 공간 분석에서 공간 분할의 성능 비교 (Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark)

  • 양평우;유기현;남광우
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.29-36
    • /
    • 2017
  • 본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

온라인 리뷰 데이터의 오피니언마이닝을 통한 콘텐츠 만족도 분석 시스템 설계 (A Design of Satisfaction Analysis System For Content Using Opinion Mining of Online Review Data)

  • 김문지;송은정;김윤희
    • 인터넷정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.107-113
    • /
    • 2016
  • 소셜 네트워크 서비스(SNS)의 활성화로 웹상에는 방대한 양의 온라인 리뷰들이 생산되고 있으며, 이러한 온라인 리뷰들은 다양한 콘텐츠들에 대한 의견 데이터로써 콘텐츠 이용자와 제공자들에게 가치 있는 정보로 활용되고 있다. 한편, 온라인 리뷰에 대한 중요도가 높아짐에 따라 온라인 리뷰를 분석하여 글쓴이의 의견이나 평가, 태도, 감정 등을 추출해 내는 오피니언마이닝에 대한 연구가 활발하게 진행되고 있다. 그러나 기존의 오피니언마이닝 연구들에서는 리뷰의 의견 분류에만 초점을 맞추어 감성 분석 기법을 설계하였기 때문에 리뷰 속에 내포되어있는 작성자의 자세한 만족도까지는 알 수 없었으며, 감성 분석 기법이 특정 콘텐츠에 한정되어있어 도메인이 같지 않은 다른 콘텐츠들에는 적용될 수 없다는 문제점이 있었다. 이에 본 연구에서는 기존 의견 분류 방법에 강도를 주어 좀 더 세밀한 감성 분석을 수행하고, 이 결과를 통계적 척도에 적용하여 리뷰에 내포되어 있는 작성자의 자세한 만족도를 도출 할 수 있는 감성 분석 기법을 제안한다, 그리고 제안한 기법을 바탕으로 도메인에 상관없이 다양한 콘텐츠에 적용되어 콘텐츠의 만족도를 분석 할 수 있는 시스템을 설계하였다. 또한 방대한 양의 리뷰 데이터들을 빠르고 효율적으로 처리하기 위해 빅 데이터 처리도구인 하둡을 기반으로 시스템을 구축하였다. 본 시스템을 통해 콘텐츠 이용자는 보다 효율적인 의사결정을, 제공자들은 빠른 반응분석을 할 수 있어 본 시스템은 사용자의 의견을 필요로 하는 다양한 분야에 매우 실용적으로 활용 될 것으로 기대한다.

스마트팩토리를 위한 운영빅데이터 분석 플랫폼 (Operational Big Data Analytics platform for Smart Factory)

  • 배혜림;박상혁;최유림;주병준;리스카;풀샤시;푸트라;타오픽;이상화;원석래
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.9-19
    • /
    • 2016
  • ICT 융합에 대한 관심이 높아진 가운데 독일의 Industry 4.0을 시작으로 제조업과 ICT 융합에 대한 연구가 활발하게 진행되고 있다. 이를 통해 전통적인 제조업의 제조단가를 낮추고 극적인 품질향상을 기대할 수 있게 되었다. 최근 정부의 제조업 3.0 전략 등에 힘입어 국내에서도 제조업에 대한 고도화가 진행되고 있으며, 이러한 추세에 발맞추어 제조업 운영에서 발생하는 빅데이터에 대한 주문맞춤형 분석 플랫폼을 개발하고 이를 통해 제조 현장의 경쟁력을 높이고자 한다. 주문맞춤형 분석 플랫폼은 확장성을 고려하여 스프링 프레임워크를 기반으로 웹에서 실행되도록 설계되었으며, 제조업 현장에서 발생하는 다량의 데이터를 빠르게 처리하기 위하여 스파크와 하둡 파일 시스템을 이용한다. 실시간으로 스트리밍 된 데이터를 프로세스 마이닝 기반 알고리즘을 통해 처리하고 공장의 현황을 분석하여 제조업 현장의 문제를 파악하고 신속한 의사결정을 지원할 수 있다.

  • PDF