• Title/Summary/Keyword: HADOOP

Search Result 395, Processing Time 0.033 seconds

Study on Methods to Improve Performance of Contents Delivery Service (콘텐츠 전송 서비스의 성능향상을 위한 방법 고찰)

  • Sim, Byeong-Ryeol;Lee, Yeon-Hee;Kang, Won-Chul;Lee, Young-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.263-266
    • /
    • 2011
  • P2P 및 스트리밍 서비스를 포함한 콘텐츠의 전송은 인터넷 트래픽의 80% 이상을 차지한다. 인터넷 사용자들은 보다 빠르게 콘텐츠를 받고 싶어하고, 이러한 요구를 수용하기 위하여 빠른 콘텐츠 전송을 위한 다양한 방법들이 제시되었다. 본 논문에서는 현재 콘텐츠 전송을 위해 사용되고 있는 CDN 방식과 P2P 방식을 비교한다. 동시에 파일 복구에 강한 Hadoop에서 사용하는 HDFS를 적용한 파일 전송 방식에 대해서 다운로드 속도, 전체 네트워크 트래픽 양과 희소 콘텐츠에 대한 파일 전송 방식을 비교하고, 이를 통해 콘텐츠 전송을 위한 보다 나은 서비스 방식을 제안한다.

Real-time log analysis system for detecting network attacks in a MapReduce environment (MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템 개발)

  • Chang, Jin-Su;Shin, Jae-Hwan;Chang, Jae-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.37-40
    • /
    • 2017
  • 네트워크 기술의 발전으로 인터넷의 보급률이 증가함에 따라, 네트워크 사용량 또한 증가하고 있다. 그러나 네트워크 사용량이 증가함에 따라 악의적인 네트워크 접근 또한 증가하고 있다. 이러한 악의적인 접근은 네트워크에서 발생하는 보안 로그를 분석함으로써 탐지가 가능하다. 그러나 대규모의 네트워크 트래픽이 발생함에 따라, 보안 로그의 처리 및 분석에 많은 시간이 소요된다. 본 논문에서는 MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템을 개발한다. 이를 위해, Hadoop의 MapReduce를 통해 보안 로그의 속성을 추출하고 대용량의 보안 로그를 분산 처리한다. 아울러 처리된 보안 로그를 분석함으로써 실시간으로 발생하는 네트워크 공격 패턴을 탐지하고, 이를 시각적으로 표현함으로써 사용자가 네트워크 상태를 보다 쉽게 파악할 수 있도록 한다.

Big Numeric Data Classification Using Grid-based Bayesian Inference in the MapReduce Framework

  • Kim, Young Joon;Lee, Keon Myung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • v.14 no.4
    • /
    • pp.313-321
    • /
    • 2014
  • In the current era of data-intensive services, the handling of big data is a crucial issue that affects almost every discipline and industry. In this study, we propose a classification method for large volumes of numeric data, which is implemented in a distributed programming framework, i.e., MapReduce. The proposed method partitions the data space into a grid structure and it then models the probability distributions of classes for grid cells by collecting sufficient statistics using distributed MapReduce tasks. The class labeling of new data is achieved by k-nearest neighbor classification based on Bayesian inference.

Kerberos Authentication Deployment Policy of US in Big data Environment (빅데이터 환경에서 미국 커버로스 인증 적용 정책)

  • Hong, Jinkeun
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.435-441
    • /
    • 2013
  • This paper review about kerberos security authentication scheme and policy for big data service. It analyzed problem for security technology based on Hadoop framework in big data service environment. Also when it consider applying problem of kerberos security authentication system, it analyzed deployment policy in center of main contents, which is occurred in commercial business. About the related applied Kerberos policy in US, it is researched about application such as cross platform interoperability support, automated Kerberos set up, integration issue, OPT authentication, SSO, ID, and so on.

Distributed Cache for High-Performance in real time cloud (실시간 클라우드 환경에서 HDFS의 고 성능을 위한 분산캐시)

  • Choi, Ji Hyeon;Youn, Hee Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.351-352
    • /
    • 2014
  • 분산 파일시스템은 서로 분산된 여러 서버들을 가지고 파일 시스템을 구성함으로써 높은 확장성과 고가용성을 지원한다. HDFS는 대용량 데이터 저장장치로 처리되고 있지만 실시간 파일 접근에 관한 고려는 부족하다. 파일을 읽을 때 네임노드와 데이터 노드는 상호 작용을 하지만 엄청난 대용량의 데이터 그리고 동시작업량이 많을 때 접근수행속가 급격하게 감소하게 된다. 따라서 실시간 클라우드 서비스 환경에서 HDFS 파일 접근 수행속도를 향상시키기 위한 연구가 이슈이다. 본 논문에서는 HDFS의 위에 분산 캐시를 둔 새로운 캐시시스템을 제안한다.

  • PDF

Current Status of Educational Big Data Research (교육 빅데이터 관련 연구 동향)

  • Lee, Eun-young;Park, Do-oung;Choi, In-ong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.175-176
    • /
    • 2014
  • 본고에서는 교육 빅데이터의 개념, 가치, 처리 기술 및 분석 방법 등을 탐색하였다. '온라인과 오프라인 교수 학습 활동의 투입, 과정, 산출을 통해 생산되는 국가, 지역, 학교, 교사, 학생 수준의 자료'로 정의할 수 있는 교육 빅데이터는 Hadoop으로 대표되는 분산 컴퓨팅 기술을 통해 효율적으로 처리할 수 있다. 대규모 교육 자료에서 의미있고 유용한 결과를 도출하기 위해 주로 사용되는 분석 방법에는 교육 데이터 마이닝, 학습 분석학과 시각 자료 분석학이 있다. 교육 데이터 마이닝은 학생과 교사, 학교의 다양한 수준에서 자료를 폭넓게 분석하는 측면이 강한 반면에 학습 분석학은 학생 수준에서의 자료 분석에 더 초점을 맞추는 경향이 있으며, 시각 자료 분석학은 자료에 대한 분석 자체보다는 분석 결과를 효과적으로 표현하는 방식에 초점이 주어져 있다.

  • PDF

Dynamic Replication Management Scheme based on AVL Tree for Hadoop Distributed File System (하둡 분산 파일 시스템 기반의 AVL트리를 이용한 동적 복제 관리 기법)

  • Ryu, Yeon-Joong;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.337-340
    • /
    • 2014
  • 클라우드 시스템이 큰 이슈로 떠오르면서 그 기반이 되는 분산 파일 시스템에 관한 연구가 계속되고 있다. 최근 제안된 분산파일 시스템은 대부분 확장 가능하며 신뢰성이 있는 시스템으로 구성되어 있으며 내고장성(Fault tolerance)과 높은 가용성을 위해 데이터 복제 기법을 사용하며 하둡 분산 파일 시스템에서는 블락의 복제수를 기본3개로 지정한다. 그러나 이 정책은 복제수가 많아지면 많아질수록 가용성은 높아지지만 스토리지 또한 증가한다는 단점이 있다. 본 논문에선 이러한 문제점을 해결하기 위해 최소한의 블락 복제수와 복제된 블락을 효율적으로 배치하여 더 좋은 성능과 부하분산(Load Balancing)하기 위한 기법을 제안한다.

  • PDF

A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model (나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계)

  • Kim, Min-Jae;Kim, Kyung-Tae;Youn, Hee-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

A performance comparison for Apache Spark platform on environment of limited memory (제한된 메모리 환경에서의 아파치 스파크 성능 비교)

  • Song, Jun-Seok;Kim, Sang-Young;Lee, Jung-June;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.67-68
    • /
    • 2016
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

  • PDF