Search | Korea Science

A Study on Cluster Configuration Method to Prevent Network Bottleneck in Spark Enviroment (Spark 환경에서 네트워크 병목 현상을 예방하기 위한 클러스터 구성 방법 연구)

Seok-Min Hong;Yeon-Jun You;Yong-Tae Shin
- Proceedings of the Korea Information Processing Society Conference
- /
- 2023.11a
- /
- pp.382-385
- /
- 2023
Spark는 대용량의 데이터를 처리를 위해 분산된 데이터를 네트워크로 모은 다음, 데이터를 분할하는 작업인 Shuffle을 진행한다. 이때 Spark 클러스터의 어느 한 노드의 네트워크 전송 속도가 느릴 경우 병목 현상으로 인한 전체 처리 성능이 저하된다. 이에 본 논문에서는 네트워크 병목 현상을 예방하기 위한 클러스터 구성 방법을 제안한다. 본 논문에서 제안하는 노드 선택 시스템은 iperf 도구를 이용해 노드들의 대역폭을 측정하고 이에 따라 노드 선택 알고리즘을 통해 클러스터를 구성한다. 기존 Spark 클러스터와 본 논문이 제안하는 시스템으로 구성한 클러스터를 비교했을 때, 250MB 로그 파일을 제외하고 750MB 로그 파일부터는 네트워크 전송 속도가 낮은 노드를 가지고 있는 클러스터의 성능이 병목 현상으로 인해 느려졌다. 본 논문의 제안에 따라 노드들의 네트워크 전송 속도를 고려하여 클러스터를 구성하면 네트워크 전송 속도로 발생하는 병목 현상을 예방할 수 있다.
https://doi.org/10.3745/PKIPS.y2023m11a.382 인용 PDF

병렬 정보 검색 시스템의 고장 포용성 향상 기법

강재호;안현주;정성원;류광렬;권혁철;정상화
- Proceedings of the Korea Inteligent Information System Society Conference
- /
- 2003.05a
- /
- pp.457-466
- /
- 2003
인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서 지금까지는 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 시스템에서는 전체 작업을 개별 노드 즉 PC에 가능한 균등하게 분배함으로써 성능을 극대화 하고자 하는데, 하나 또는 그 이상의 노드에 문제가 발생하는 경우 전체시스템의 성능이 매우 저하되거나 정상적인 서비스를 제공하기가 어려워진다. 이러한 상황에서 고장 포용성의 달성은 1년 365일 지속적으로 운영되어야 하는 많은 응용분야에서 반드시 해결해야 하는 문제이다. 본 논문에서는 PC 클러스터를 활용한 병렬정보검색시스템에서 고장 포용성을 극대화하기 위하여 각 노드의 색인어 역파일을 이웃 노드에 효율적으로 중복하여 저장하는 방안과 이를 활용한 효과적인 병렬정보검색 방법을 제안한다. 대규모 말뭉치를 활용한 실험결과 본 논문에서 제시하는 고장 포용성 향상을 위한 색인어 역파일 중복 저장방안이 충분한 효율성과 실용성이 있음을 확인하였다.
PDF

Two-Phase Protocol : Write Performance Enhancement Scheme of the Cooperative Cache for PVFS (두 단계 프로토콜 : PVFS를 위한 상호 협력 캐쉬에서 쓰기 성능 향상 기법)

황인철;정한조;맹승렬;조정완
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10a
- /
- pp.409-411
- /
- 2003
요즘 값싼 PC들을 빠른 네트웍으로 묶어 놓은 성능을 얻고자하는 클러스터 컴퓨팅에 대한 연구가 활발히 이루어지면서 CPU나 메모리. 네트웍보다 상대적으로 느린 디스크에서 데이터를 읽어 효율적으로 파일 서비스를 하는 분산 파일 시스템이 개발되었다. 기존 분산 파일 시스템 중 클러스터 컴퓨팅에서 많이 사용하는 Linux 운영 체제에서 병렬 I/O를 사용하여 사용자에게 빠른 파일 서비스를 제공하여 주는 PVFS가 개발되었다. 기존 PVFS에서는 캐쉬 시스템을 제공하고 있지 않기 때문에 읽기 성능을 향상시키기 위하여 PVFS를 위한 상호 협력 캐치를 설계하고 구현하였다. PVFS를 위한 상호 협력 캐쉬는 클라이언트의 파일 캐쉬를 공유하여 파일 요구를 처리하는 기법으로 읽기 성능은 크게 향상되었다. 하지만 쓰기의 경우에는 다른 클라이언트에서 가지고 있던 모든 데이터를 찾아 해제하는 부하가 있기 때문에 성능이 좋지 않다. 따라서 본 논문에서는 PVFS를 위한 상호 협력 캐쉬에서 쓰기 성능 향상 기법인 두 단계 프로토콜을 제시하고 구현한다. 그리고 두 단계 프로토콜을 기존 PVFS와 PVFS를 위한 상호 협력 캐쉬 시스템과 성능을 비교, 분석한다.
PDF

PC Cluster-based Parallel Korean Information Retrieval System (PC 클러스터 기반 병렬 한국어 정보검색 시스템)

김진혁;장한국;최참아;류광렬;정상화;권혁철
- Proceedings of the Korean Information Science Society Conference
- /
- 1999.10b
- /
- pp.160-162
- /
- 1999
대용량의 정보를 다루는 정보검색 시스템은 정보 처리 과정에서 디스크 접근 시간이 큰 오버헤드로 작용한다. 본 논문에서는 단일 기계에서 작동하는 정보검색 시스템이 가지는 이러한 문제점을 해결하기 위해 PC 클러스터 기반 정보검색 시스템을 구현하였다. 색인어 간의 동시 등장 빈도 정보를 이용한 Greedy De-clustering 알고리즘으로 클러스터에 색인어 역파일을 병렬 분산하여 저장하고, SCI 기반의 효율적인 통신 시스템을 구축하여 클러스터 노드간의 통신이 원활하게 하였다. 따라서 사용자 질의어를 처리할 때 질의어별로 가져오는 색인어 역파일의 디스크 접근 시간이 감소하는 효과를 얻을 수 있었으며, 기존의 단일 기계에서 수행되는 정보 검색 시스템보다 수행속도가 2.3배 빠른 시스템을 구현하였음을 실험을 통해 확인하였다.
PDF

An Analysis of PVFS Performance Optimization on Small Cluster System (소규모 클러스터 시스템에서의 PVFS 성능 최적화에 관한 연구)

Cho, Hyeyoung;Cha, Kwangho;Kim, Sungho
- Proceedings of the Korea Contents Association Conference
- /
- 2007.11a
- /
- pp.547-549
- /
- 2007
Recently with increasing the use of parallel computing and cluster system which was connected high speed network, the interest about distributed and parallel file system is increasing. Specially, there are many researches, which focused on optimizing the performance of distributed and parallel file system for the more efficient use of cluster system. In this paper, we analyzed the performance of PVFS(Parallel Virtual File System) in small cluster system. In addition, to improve the PVFS performance we proposed the chancing the size of flow buffer according to the network speed and we optimized the PVFS performance on small cluster system.
PDF

Analysis of Parallel and Distributed File System Workloads on Tachyon Cluster System (타키온 클러스터 시스템의 병렬 분산 파일 시스템 워크로드 분석)

Cho, Hyeyoung;Kim, Sungho;Lee, Sik
- Proceedings of the Korea Information Processing Society Conference
- /
- 2009.11a
- /
- pp.113-114
- /
- 2009
클러스터 시스템의 응용 분야가 다양화되고 복잡해짐에 따라, 대규모 클러스터 시스템을 보다 효율적으로 사용하기 위해서 실제 사용자의 이용 패턴을 예측할 수 있는 워크로드 분석의 필요성이 높아지고 있다. 이에 본 논문에서는 현재 가동중인 188개의 계산 노드, 3008개 CPU 자원을 보유한 대규모 클러스터 시스템에서 병렬 분산 파일 시스템에 대한 워크로드를 분석하였다.
https://doi.org/10.3745/PKIPS.y2009m11a.113 인용 PDF

A Distributed File System for Guaranteeing High Availability of a Clustering Web Server (웹 전용 리눅스 클러스터 서버의 고가용성을 위한 분산 파일 시스템에 대한 연구)

Park, Ji-Hyun;Ryu, Sang-Woo;Chang, Whie;Kim, Hag-Bae
- Proceedings of the KIEE Conference
- /
- 2000.07d
- /
- pp.2965-2967
- /
- 2000
다양한 인터넷 응용 프로그램들이 웹 기반으로 통합되고 여러 방면에서 business-critical한 경우가 많아짐에 따라 웹서버의 고가용성과 안정성이 갈수록 강조되고 있고. 이를 보장하기 위한 리눅스 기반의 클러스터링 환경에서는 다양한 조건하에서도 데이터의 손실 없이 파일 입출력을 효과적으로 지원할 수 있는 분산 파일 시스템이 필수적이다. 본 논문에서는 리눅스 클러스터 환경에 적합한 분산 파일 시스템의 하나로서 카네기 멜론 대학에서 제안되어 개발 중에 있는 네트워크 분산 파일 시스템인 Coda 에 대하여. 가용성 및 효율성, 확장성 등에 대한 장단점을 간단히 소개하고, Coda을 적용한 고가용성 웹 서버의 구현 결과와 향후 개선 방향에 대해서 설명하도록 하겠다.
PDF

Recovery Management of Split-Brain Group in Highly Available Cluster file System $\textrm{SANique}^{TM}$ (고가용성 클러스터 파일 시스템 $\textrm{SANique}^{TM}$의 분할그룹 탐지 및 회복 기법)

이규웅
- Journal of Korea Multimedia Society
- /
- v.7 no.4
- /
- pp.505-517
- /
- 2004
This paper overviews the design details of the cluster file system $\textrm{SANique}^{TM}$ on the SAN environment. $\textrm{SANique}^{TM}$ has the capability of transferring user data from shared SAN disk to client application without control of centralized file server. We, especially, focus on the characteristics and functions of recovery manager CRM of $\textrm{SANique}^{TM}$. The process component for failure detection and its overall procedure are described. We define the split-brain problem that cannot be easily detected in cluster file systems and also propose the recovery management method based on SAN disk in order to detect and solve the split-brain situation.
PDF

A Content-based Load Balancing Algorithm for Cluster File System (클러스터 파일 시스템의 내용 기반 부하 분산 알고리즘)

장준호;박성용
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.10a
- /
- pp.526-528
- /
- 2004
메타데이타에 대한 접근이 특정 디렉토리에 집중되며 메타데이타 연산마다 다른 계산량을 가지는 클러스터 파일 시스템의 특성상 메타데이타 서버 간 부하의 불균형과 과부하가 발생한다. 따라서 클러스터 파일 시스템의 성능을 결정짓는 중요 요소인 메타데이타 서비스의 성능을 위해서는 메타데이타 서버들의 과부하 상황에 대처할 수 있는 합리적인 부하 분산 기법이 필수적이다. 메타데이타 공간을 분할하여 담당영역만을 관리하는 비대칭 메타데이타 서버를 위해 본 눈문은 클라이언트 요청의 내용을 분석하여 담당 메타데이타 서버를 결정하고 해당 연산의 종류에 따라 단순 검색, 메타데이타 중복 저장(replication), 또는 메타데이타에 대한 로깅(logging)을 수행하는 내용 기반의 부하 분산 알고리즘을 제시하였다.
PDF

A Content-based Load Balancing Algorithm for Metadata Servers in Cluster File System (클러스터 파일 시스템의 메타데이터 서버를 위한 내용 기반 부하 분산 알고리즘)

Jang Jun-Ho;Han Sae-Young;Park Sung-Yong
- The KIPS Transactions:PartA
- /
- v.13A no.4 s.101
- /
- pp.323-334
- /
- 2006
A metadata service is one of the important factors to affect the performance of cluster file systems. We propose a content-based load balancing algorithm that dynamically distributes client requests to appropriate metadata servers based on the types of metadata operations. By replicating metadatas and logging update messages in each server, rather than moving metadatas across servers, we significantly reduced the response time and evenly distributed client's requests among metadata servers.
https://doi.org/10.3745/KIPSTA.2006.13A.4.323 인용 PDF KSCI

Search Result 136, Processing Time 0.028 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)