• 제목/요약/키워드: cluster file system

검색결과 91건 처리시간 0.026초

CERES: 백본망 로그 기반 대화형 웹 분석 시스템 (CERES: A Log-based, Interactive Web Analytics System for Backbone Networks)

  • 서일현;정연돈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.651-657
    • /
    • 2015
  • 웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.

DEVS 형식론 기반의 재겨냥성 하둡 시뮬레이션 환경 개발 (Development of Retargetable Hadoop Simulation Environment Based on DEVS Formalism)

  • 김병수;강봉구;김탁곤;송해상
    • 한국시뮬레이션학회논문지
    • /
    • 제26권4호
    • /
    • pp.51-61
    • /
    • 2017
  • 최근 빅 데이터가 증가하는 추세에 따라 이를 분석 및 처리하고 활용하는 방안에 대한 관심도 증대되고 있다. 이러한 빅 데이터를 저장, 관리하기 위한 대표적인 플랫폼으로 분산 컴퓨팅 프레임워크인 맵리듀스와 분산 파일 시스템인 HDFS로 구성된 하둡 플랫폼이 있다. 하둡은 일반적으로 수백 수천 대 이상의 클러스터로 구축되는데, 이 때 실제 클러스터 구성이나 파라미터에 따라 하둡 플랫폼이 가지는 효과도를 분석하는 것이 중요하다. 하지만 수천 대 이상의 클러스터 구축하여 이를 분석하는 것이 실질적으로 어렵기 때문에 모델링 및 시뮬레이션 기법을 통해 분석하는 것이 필요하다. 본 논문은 계층적이고 모듈러한 모델링이 가능한 DEVS 형식론을 기반으로 하둡 시뮬레이션 환경을 제안한다. 제안하는 시뮬레이션 환경은 하둡 실행 결과를 이용한 입력 모델 설계를 통해 어플리케이션의 특성을 잘 반영할 수 있으며, 파라미터/알고리즘/모델들을 다양하게 변경하여 실험할 수 있는 재겨냥성 환경을 제공한다. 또한 사용자 편의성의 극대화를 위해 사용자 인터페이스, 실시간 모델 뷰어, 입력 시나리오 편집기를 제공한다. 본 논문에서는 어플리케이션 실행 결과와의 비교를 통해 하둡 시뮬레이터를 검증하고, 다양한 파라미터에 대한 실험을 진행한다.

동시발생 행렬과 하둡 분산처리를 이용한 추천시스템에 관한 연구 (A Study On Recommend System Using Co-occurrence Matrix and Hadoop Distribution Processing)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.468-475
    • /
    • 2014
  • 추천시스템은 선호 데이터가 대형화, 컴퓨터 처리능력과 추천 알고리즘 등에 의해 실시간 추천이 어려워지고 있다. 이에 따라 추천시스템은 대형 선호데이터를 분산처리 하는 방법에 대한 연구가 활발히 진행되고 있다. 본 논문은 하둡 분산처리 플랫폼과 머하웃 기계학습 라이브러리를 이용하여, 선호데이터를 분산 처리하는 방법을 연구하였다. 추천 알고리즘은 아이템 협업필터링과 유사한 동시발생 행렬을 이용하였다. 동시발생 행렬은 하둡 클러스터의 여러 노드에서 분산처리를 할 수 있으며, 기본적으로 많은 계산량이 필요하지만, 분산처리과정에서 계산량을 줄일 수 있다. 또한, 본 논문은 동시발생 행렬처리의 분산 처리과정을 4 단계에서 3 단계로 단순화하였다. 결과로서, 맵리듀스 잡을 감소할 수 있으며, 동일한 추천 파일을 생성할 수 있었다. 또한, 하둡 의사 분산모드를 이용하여 데이터를 처리하였을 때 빠른 처리속도를 보였으며, 맵 출력 데이터가 감소되었다.

비구조화 P2P 시스템에서 이동에이전트를 이용한 Peer의 속성기반 계층적 클러스터링 (Property-based Hierarchical Clustering of Peers using Mobile Agent for Unstructured P2P Systems)

  • 마이클 안젤로 살보;마테오 로미오;이재완
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.189-198
    • /
    • 2009
  • 비구조화 P2P 시스템은 오늘날 인터넷에서 가장 널리 사용되지만, 파일의 배치는 임의로 이루어지며, Peer와 컨텐츠간에는 어떤 상관관계도 존재하지 않는다. 또한 보낸 모든 질의가 원하는 데이터를 찾았는지에 대한 보장도 없다. 본 논문에서는 비구조화된 P2P시스템에서 군집형 계층 클러스터링을 사용하여 노드들을 클러스터화함으로써 검색을 향상시키는 방법을 제시한다. 제안한 기법과 k-means를 사용한 기법간에 노드 클러스터링을 위한 지연시간을 비교하였다. 또한 제안한 알고리즘, k-means 클러스터링, 클러스터링을 사용하지 않은 방법간에 한 네트워크 토폴로지에서 데이터를 찾기 위한 지연시간에 대해 시뮬레이션을 수행하였다. 시뮬레이션 결과 제안한 기법의 지연시간이 다른 방법들보다 짧았음을 알 수 있었다.

  • PDF

An Efficient Implementation of Mobile Raspberry Pi Hadoop Clusters for Robust and Augmented Computing Performance

  • Srinivasan, Kathiravan;Chang, Chuan-Yu;Huang, Chao-Hsi;Chang, Min-Hao;Sharma, Anant;Ankur, Avinash
    • Journal of Information Processing Systems
    • /
    • 제14권4호
    • /
    • pp.989-1009
    • /
    • 2018
  • Rapid advances in science and technology with exponential development of smart mobile devices, workstations, supercomputers, smart gadgets and network servers has been witnessed over the past few years. The sudden increase in the Internet population and manifold growth in internet speeds has occasioned the generation of an enormous amount of data, now termed 'big data'. Given this scenario, storage of data on local servers or a personal computer is an issue, which can be resolved by utilizing cloud computing. At present, there are several cloud computing service providers available to resolve the big data issues. This paper establishes a framework that builds Hadoop clusters on the new single-board computer (SBC) Mobile Raspberry Pi. Moreover, these clusters offer facilities for storage as well as computing. Besides the fact that the regular data centers require large amounts of energy for operation, they also need cooling equipment and occupy prime real estate. However, this energy consumption scenario and the physical space constraints can be solved by employing a Mobile Raspberry Pi with Hadoop clusters that provides a cost-effective, low-power, high-speed solution along with micro-data center support for big data. Hadoop provides the required modules for the distributed processing of big data by deploying map-reduce programming approaches. In this work, the performance of SBC clusters and a single computer were compared. It can be observed from the experimental data that the SBC clusters exemplify superior performance to a single computer, by around 20%. Furthermore, the cluster processing speed for large volumes of data can be enhanced by escalating the number of SBC nodes. Data storage is accomplished by using a Hadoop Distributed File System (HDFS), which offers more flexibility and greater scalability than a single computer system.

음렬 탐색을 위한 주제소절 자동분류에 관한 연구 (A Study on the Musical Theme Clustering for Searching Note Sequences)

  • 심지영;김태수
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.5-30
    • /
    • 2002
  • 본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 $\ulcorner$A Dictionary of Musical Themes$\lrcorner$에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

LDBAS: Location-aware Data Block Allocation Strategy for HDFS-based Applications in the Cloud

  • Xu, Hua;Liu, Weiqing;Shu, Guansheng;Li, Jing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.204-226
    • /
    • 2018
  • Big data processing applications have been migrated into cloud gradually, due to the advantages of cloud computing. Hadoop Distributed File System (HDFS) is one of the fundamental support systems for big data processing on MapReduce-like frameworks, such as Hadoop and Spark. Since HDFS is not aware of the co-location of virtual machines in the cloud, the default scheme of block allocation in HDFS does not fit well in the cloud environments behaving in two aspects: data reliability loss and performance degradation. In this paper, we present a novel location-aware data block allocation strategy (LDBAS). LDBAS jointly optimizes data reliability and performance for upper-layer applications by allocating data blocks according to the locations and different processing capacities of virtual nodes in the cloud. We apply LDBAS to two stages of data allocation of HDFS in the cloud (the initial data allocation and data recovery), and design the corresponding algorithms. Finally, we implement LDBAS into an actual Hadoop cluster and evaluate the performance with the benchmark suite BigDataBench. The experimental results show that LDBAS can guarantee the designed data reliability while reducing the job execution time of the I/O-intensive applications in Hadoop by 8.9% on average and up to 11.2% compared with the original Hadoop in the cloud.

빅데이터 및 고성능컴퓨팅 프레임워크를 활용한 유전체 데이터 전처리 과정의 병렬화 (Parallelization of Genome Sequence Data Pre-Processing on Big Data and HPC Framework)

  • 변은규;곽재혁;문지협
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권10호
    • /
    • pp.231-238
    • /
    • 2019
  • 차세대 염기 서열 분석법이 생성한 유전체 원시 데이터를 기존의 방식대로 하나의 서버에서 분석하기 위해서는 데이터 크기에 따라 수십 시간이 필요할 수 있다. 그러나 응급 환자의 진단처럼 수 시간 내에 결과를 알아야 하는 상황이 존재하기 때문에 단일 유전체 분석의 성능을 향상시킬 필요가 있다. 본 연구에서는 빅데이터 기술의 병렬화 기법과 고속의 네트워크로 연결되고 병렬파일시스템을 공유하는 고성능컴퓨팅 클러스터를 적극적으로 활용하여 분석 시간을 크게 단축시킬 수 있는 유전체 데이터 분석의 전처리 프로세스의 병렬화 방법을 제안한다. 분석 데이터의 신뢰성을 위해 기존의 검증된 분석 도구 및 알고리즘을 새로운 환경에 맞게 병렬화 하는 전략을 선택하였다. 프로세스의 병렬화, 데이터의 분배 및 병렬 병합 기법을 개발하였고 실험을 통해 성능 향상을 확인하였다.

게임서버의 CPU 사용율 기반 효율적인 부하균등화 기술의 설계 및 구현 (Design and Implementation of Game Server using the Efficient Load Balancing Technology based on CPU Utilization)

  • 명원식;한준탁
    • 한국게임학회 논문지
    • /
    • 제4권4호
    • /
    • pp.11-18
    • /
    • 2004
  • 과거의 온라인 게임은 일대일 접속으로 두 사람만이 데이터를 주고받으며 게임 할 수 있었으나 현재의 온라인 게임은 MMORPG라고 해서 수만 명의 사람들이 동시에 접속이 가능하다. 특히 우리나라는 세계 어느 나라에서 찾아 볼 수 없는 네트워크 인프라를 확보하고 있다. 거의 모든 가정에 초고속 인터넷 통신망이 설치되어 있으며 높은 인구 밀도는 이런 인프라의 형성을 가속화하는 것을 가능하게 했다. 하지만 이러한 온라인 게임의 급격한 증가는 제한적인 인터넷의 통신용량에 대하여 트래픽의 증가로 이어지고 온라인 게임이 접속이 불안정해지거나 접속이 다운되는 상태로 이어질 가능성이 높다. 이러한 문제를 해결하기 위해 각 게임 서버를 보다 확충함으로서 해결할 수 있으나 그럴 경우 고비용을 필요로 하게 된다. 본 논문에서는 이러한 문제점을 해결하고자 현재의 온라인 게임에서 사용되고 있는 컨텐츠별로 나누어진 게임 서버들을 지 역 클러스터 링 형태로 연결하고, 부하 균등화(Load Balancer)서버로써 특정한 게임 서버의 부하를 감소시키고 게임 서버의 성능 향상과 효율적인 게임 서버 운용을 위하여 부하 균등화 기법을 제안한다. 본 논문에서는 그룹별 각각 다른 서비스를 하고 CPU 사용율의 자원정보를 이용하여 효율적으로 부하를 균등화하는 기법을 제안한다. 각각 서로 다른 게임을 서비스하는 그룹들은 컨텐츠들에 대한 수정, 삭제, 추가 등 자원 정보 변경으로 인하여 깨어질 수도 있는 자원 정보 일관성을 유지하기 위해 네트워크 파일 시스템에 연결되어 운영된다. 성능 실험을 통해 기존의 RR방식과 LC방식보다 제안한 방식이 각각 12%와 10%의 응답시간 향상을 보여주었다.기간효과를 별도로 취급하기는 쉽지 않다.이즈의 영향이 가장 클 것으로 판단된다. 항원성시험에서 casein으로 피하 감작할 경우 푸른색 반점이 나타났으나 효소처리구에서는 이러한 반점이 나타나지 않아 충분히 항원성이 저감화 되었음을 확인하였다. 행동을 평가하는데 있어 적정한 신뢰도와 타당도를 가지고 있었으며 임상 장면에서 아동의 행동 문제에 대한 평가 및 진단에 유용하게 사용될 수 있을 것으로 보인다.식적인 형태소-음소 상응 규칙 적용 능력 모두에서 장애를 보였으며, 거울상 반전 오류 등 시각적 정보 처리 기능의 장애도 나타내었다. 이들 장애는 단어/비단어 읽기 검사와 글자기호감별검사를 통해 신뢰할 수 있고 타당성 있게 구분하고 평가할 수 있었다.치료 시 고려해야 할 것이다.순차처리항목과 계산능력에서 유의하게 높았고(p<.05), KEDI-WISC를 이용한 평가에서는 ADHD- HI형은 대상수가 소수여서 비교할 수 없었으며, ADHD-C형과 ADHD-Ⅰ형 사이에 유의한 차이는 보이지 않았다. CPT, WCST, SST를 이용한 신경심리학적 실행기능의 비교에서 아형간 계량적인 차이는 있었으나 통계적으로 유의한 차이는 보이지 않았다. 결 론:결론적으로 ADHD 세 아형은 임상적으로 뚜렷한 차이를 보였지만, 실행기능상 유의한 차이를 발견할 수 없었다. 향후 보다 잘 고안 된 연구와 발달중인 아동에 적절한 신경심리 평가 도구의 개발을 통해 결과를 보완해야 할 것으로 사료된다.었으나, 주의력에서는 전두엽의 실행능력(executive function)과 관련되는 검사들에서 산소흡입이 특이한 효과를 보여준다는 것이 확인되었고, 기억능력에서는 단기기억능력 평가에서 산소흡입군이

  • PDF