• Title/Summary/Keyword: MPICH

Search Result 35, Processing Time 0.026 seconds

Parallel clustering technology for real-time LWIR band image processing (실시간 LWIR 밴드 영상 처리를 위한 병렬 클러스터링 기술)

  • Cho, Yongjin;Lee, Kyou-seung;Hong, Seongha;Oh, Jong-woo;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.158-158
    • /
    • 2017
  • 비닐포장 하부에 위치한 콩의 생장 초기에 발생한 초엽을 인식하기 위한 연구를 수행중이다. 선행 연구에서 비닐포장에 접촉한 콩 초엽으로 인해 비닐포장 상부 표면의 열 반응 분포에 변화가 있음을 발견하였다. 현장에서 주행 중에 콩 초엽의 위치를 실시간으로 인식하고 연동된 선형 또는 회전형 엑츄에이터를 제어하여 정확한 위치에 천공을 수행하기 위해서는 계측 시스템과 제어 시스템간의 시간적 차이를 최소할 수 있는 실시간 신호 처리 기술이 필수적이다. 선행 연구에서 사용한 다중 IR 센서의 분해능은 $16{\times}4pixel$이며 주파수는 3 Hz로, 폭이 30cm 내외인 비닐포장 상부의 정밀 분석에 한계가 있음을 발견하였다. 이를 해결하기 위하여 분해능과 계측 주기를 개선할 수 있는 초소형 ($1cm{\times}1cm{\times}1cm$) 열화상 센서를 이용하였다. LWIR(Longwave infrared)영역에 해당하는 $8{\mu}m{\sim}14{\mu}m$의 영역에서 $0.05^{\circ}C$의 분해능을 보이는 $ Lepton^{TM}$ (500-0690-00, FLIR, Goleta, CA)모델을 사용하였다. 프레임당 $80{\times}60$ 픽셀의 정보가 2 Byte의 단위로 계측이 되며 9 Hz의 주파수로 대상면의 열 분포를 측정할 수 있다. 이론적으로 초당 정보 전송량은 86,400 Byte ($80{\times}60{\times}2{\times}9$)이며, 1 m를 진행하는 주행형 천공기에 적용할 경우 1 프레임당 10cm 정도의 면적을 측정하므로, 최대 위치 판정 분해능은 약 10 cm / 60 pixel = 0.17 cm/pixel로 상대적으로 정밀한 위치 판별이 가능하다. $80{\times}60{\times}2Byet$의 정보를 0.1초 이내에 분석해야 하는 기술적 과제를 해결하기 위하여 천공 작업기에 적합한 상용 SBC(Single board computer)의 클럭 속도(1 Ghz)로 처리 가능한 공간 분포 분석 알고리즘을 개발하였다. 전체 이미지 도메인을 한 번에 분석하는데 소요되는 시간을 최소화하기 위하여 공간정보 행렬을 균등히 배분하고 별도의 프로세서에서 Feature를 분석한 후 개별 프로세서의 결과를 경합식으로 판정하는 기술을 연구하였다. 오픈 소스인 MPICH(www.mpich.org) 라이브러리를 이용하여 개발한 신호 분석 프로그램을 클러스터링으로 연동된 개별 코어에 설치/수행 하였다. 2D 행렬인 열분포 정보를 공간적으로 균등 분배하여 개별 코어에서 행렬의 Spatial domain analysis를 수행하였다. $20{\times}20$의 클러스터링 단위를 이용할 경우 총 12개의 코어가 필요하였으며, 초당 10회의 연산이 가능함을 확인하였다. 병렬 클러스터링 기술을 이용하여 1m/s 내외의 주행 속도에 대응이 가능한 비닐포장 상부 열 분포 분석 시스템을 구현하였다.

  • PDF

A Study on Micro Clustering Technology for Breeding Pig Behavior Analysis (모돈 행동 특성 분석을 위한 마이크로 클러스터링 기술 연구)

  • Cho, Jinho;Oh, Jong-woo;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.165-165
    • /
    • 2017
  • 모돈은 사육 특성상 제한된 파일롯 공간 안에 장시간 머물기 때문에 과중한 몸무게에 의한 지제 이상, 섭식 등의 불량, 수면상태의 불량 등을 지속적으로 관찰해야 하는 대상이다. 측면에 다수의 초음파 센서를 설치하여 기립의 상태 및 운동 시 몸체 궤적의 특성을 분석하여 종합적으로 모돈의 행동 특성을 정량화 하고자 하였다. 이 과정에서 계측 신호의 값을 대수적으로 비교하는 방식에 한계가 있음을 발견하였고, 이를 해결하고자 10 Hz/Ch 내외의 시계열 상대거리 궤적 신호를 주파수 도메인으로 변경하여 분석을 수행하였다. 일정 주파수에 집중되어 있는 주파수 값의 크기 변화(파워 스펙트럼 밀도)를 기준으로 모돈의 움직임의 정상 상태 유무 판별이 가능하였다. 단, 이러한 분석은 계측 데이터를 일괄 처리 방식으로 분석하는 방법으로 도출이 되었으므로, 계측과 정량 분석을 동시에 수행하기 위한 개선이 필요하였다. 계측 시스템에서 사용한 마이크로 프로세서는 Nucleo-446(STMelectronics, CA, USA)로 180 Mhz의 클럭 속도로 작동하나, 총 100 Hz 내외의 16비트 계측 신호에 대해 추가적으로 FFT 등의 주파수 변환 신호 처리를 수행하기에는 연산 능력이 부족하였다. 한편, 주파수 분석의 주기를 1분 단위로 할 경우 처리해야할 정보의 크기는 $100{\times}60{\times}5{\times}2Byte$ 이므로 1분 내에 해당 연산을 종료할 수 있는 추가의 연산 장치가 필요하였다. 계측과 주파수 도메인 변환 연산을 동시에 수행하기 위하여 1 Ghz의 연산능력을 가진 ARM A9 계열의 초소형 멀티코어 AP인 NanoPi Neo Air(Friendlyarm, Guangzhou, China)을 선정하였다. 4개의 코어를 각각 계측, Median 필터링, Smoothing 연산, FFT 분석에 사용하여 1분 단위, 2분 단위, 5분 단위의 주파수 분석을 동시에 수행하였다. 병렬 연산 라이브러리는 오픈 소스인 MPICH(www.mpich.org)를 이용하였다. 상대적으로 여유있는 자원을 보유하고 코어를 실시간으로 결정하여 다수의 모돈 개체 동시 모니터링을 위한 네트워크 연결 역할을 동시에 수행하도록 하였다. 1주일 내외의 요인 실험 수행 결과, 약 70 Mbyte의 데이터가 축적이 되었으며, 1분 단위, 2분 단위, 5분 단위의 주파수 도메인 변환 후 결과를 동시에 취득할 수 있었다. 일부 주파수 도메인 상의 파워 밀도 값이 모돈의 행동 특성에 분석에 유효한 정보를 제공함을 발견하였다. 모돈사 내 현장 보급이 가능한 초소형 AP와 멀티 코어 기반 병렬 처리 기법을 이용한 현장 진단 시스템 개발 연구를 지속적으로 수행할 것이다.

  • PDF

A Research about Open Source Distributed Computing System for Realtime CFD Modeling (SU2 with OpenCL and MPI) (실시간 CFD 모델링을 위한 오픈소스 분산 컴퓨팅 기술 연구)

  • Lee, Jun-Yeob;Oh, Jong-woo;Lee, DongHoon
    • Proceedings of the Korean Society for Agricultural Machinery Conference
    • /
    • 2017.04a
    • /
    • pp.171-171
    • /
    • 2017
  • 전산유체역학(CFD: Computational Fluid Dynamics)를 이용한 스마트팜 환경 내부의 정밀 제어 연구가 진행 중이다. 시계열 데이터의 난해한 동적 해석을 극복하기위해, 비선형 모델링 기법의 일종인 인공신경망을 이용하는 방안을 고려하였다. 선행 연구를 통하여 환경 데이터의 비선형 모델링을 위한 Tensorflow활용 방법이 하드웨어 가속 기능을 바탕으로 월등한 성능을 보임을 확인하였다. 그럼에도 오프라인 일괄(Offline batch)처리 방식의 한계가 있는 인공신경망 모델링 기법과 현장 보급이 불가능한 고성능 하드웨어 연산 장치에 대한 대안 마련이 필요하다고 판단되었다. CFD 해석을 위한 Solver로 SU2(http://su2.stanford.edu)를 이용하였다. 운영 체제 및 컴파일러는 1) Mac OS X Sierra 10.12.2 Apple LLVM version 8.0.0 (clang-800.0.38), 2) Windows 10 x64: Intel C++ Compiler version 16.0, update 2, 3) Linux (Ubuntu 16.04 x64): g++ 5.4.0, 4) Clustered Linux (Ubuntu 16.04 x32): MPICC 3.3.a2를 선정하였다. 4번째 개발환경인 병렬 시스템의 경우 하드웨어 가속는 OpenCL(https://www.khronos.org/opencl/) 엔진을 이용하고 저전력 ARM 프로세서의 일종인 옥타코어 Samsung Exynos5422 칩을 장착한 ODROID-XU4(Hardkernel, AnYang, Korea) SBC(Single Board Computer)를 32식 병렬 구성하였다. 분산 컴퓨팅을 위한 환경은 Gbit 로컬 네트워크 기반 NFS(Network File System)과 MPICH(http://www.mpich.org/)로 구성하였다. 공간 분해능을 계측 주기보다 작게 분할할 경우 발생하는 미지의 바운더리 정보를 정의하기 위하여 3차원 Kriging Spatial Interpolation Method를 실험적으로 적용하였다. 한편 병렬 시스템 구성이 불가능한 1,2,3번 환경의 경우 내부적으로 이미 존재하는 멀티코어를 활용하고자 OpenMP(http://www.openmp.org/) 라이브러리를 활용하였다. 64비트 병렬 8코어로 동작하는 1,2,3번 운영환경의 경우 32비트 병렬 128코어로 동작하는 환경에 비하여 근소하게 2배 내외로 연산 속도가 빨랐다. 실시간 CFD 수행을 위한 분산 컴퓨팅 기술이 프로세서의 속도 및 운영체제의 정보 분배 능력에 따라 결정된다고 판단할 수 있었다. 이를 검증하기 위하여 4번 개발환경에서 운영체제를 64비트로 개선하여 5번째 환경을 구성하여 검증하였다. 상반되는 결과로 64비트 72코어로 동작하는 분산 컴퓨팅 환경에서 단일 프로세서 기반 멀티 코어(1,2,3번) 환경보다 보다 2.5배 내외 연산속도 향상이 있었다. ARM 프로세서용 64비트 운영체제의 완성도가 낮은 시점에서 추후 성공적인 실시간 CFD 모델링을 위한 지속적인 검토가 필요하다.

  • PDF

Preliminary Study on the Enhancement of Reconstruction Speed for Emission Computed Tomography Using Parallel Processing (병렬 연산을 이용한 방출 단층 영상의 재구성 속도향상 기초연구)

  • Park, Min-Jae;Lee, Jae-Sung;Kim, Soo-Mee;Kang, Ji-Yeon;Lee, Dong-Soo;Park, Kwang-Suk
    • Nuclear Medicine and Molecular Imaging
    • /
    • v.43 no.5
    • /
    • pp.443-450
    • /
    • 2009
  • Purpose: Conventional image reconstruction uses simplified physical models of projection. However, real physics, for example 3D reconstruction, takes too long time to process all the data in clinic and is unable in a common reconstruction machine because of the large memory for complex physical models. We suggest the realistic distributed memory model of fast-reconstruction using parallel processing on personal computers to enable large-scale technologies. Materials and Methods: The preliminary tests for the possibility on virtual manchines and various performance test on commercial super computer, Tachyon were performed. Expectation maximization algorithm with common 2D projection and realistic 3D line of response were tested. Since the process time was getting slower (max 6 times) after a certain iteration, optimization for compiler was performed to maximize the efficiency of parallelization. Results: Parallel processing of a program on multiple computers was available on Linux with MPICH and NFS. We verified that differences between parallel processed image and single processed image at the same iterations were under the significant digits of floating point number, about 6 bit. Double processors showed good efficiency (1.96 times) of parallel computing. Delay phenomenon was solved by vectorization method using SSE. Conclusion: Through the study, realistic parallel computing system in clinic was established to be able to reconstruct by plenty of memory using the realistic physical models which was impossible to simplify.

Implementation of Tag Identification Process Model with Scalability for RFID Protecting Privacy on the Grid Environment (그리드환경에서 RFID 프라이버시 보호를 위한 확장성있는 태그판별처리 모델 구현)

  • Shin, Myeong Sook;Lee, Joon
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.2 no.1
    • /
    • pp.81-87
    • /
    • 2009
  • Recently RFID system has been adopted in various fields rapidly. However, we ought to solve the problem of privacy invasion that can be occurred by obtaining information of RFID Tag without any permission for popularization of RFID system To solve the problems, it is Ohkubo et al.'s Hash-Chain Scheme which is the safest method. However, this method has a problem that requesting lots of computing process because of increasing numbers of Tag. Therefore, in this paper we apply the previous method into the grid environment by analyzing Hash-Chain scheme in order to reduce processing time when Tags are identified. We'll implement the process by offering Tag Identification Process Model to divide SPs evenly by node.

  • PDF

TIGRIS Grid MPI Service based on WSRF (WSRF기반의 TIGRIS 그리드 MPI 서비스)

  • Kwon, Oh-Kyoung;Park, Kyung-Lang;Kwon, Oh-Young;Hahm, Jaegyoon;Lee, Pill Woo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2007.11a
    • /
    • pp.212-216
    • /
    • 2007
  • In this paper, we describe TIGRIS Grid MPI Service, which is the WS-Resource Framework (WSRF) based services to enable an MPI job to be executed on Grid environments. It covers heterogeneous compute resources and diverse MPI libraries. The main functionalities are as follows. First, it allows an MPI user to seamlessly launch a job without knowing how to use the specific MPI library. Secondly, it executes an MPI job on the cross-site resources by supporting the Grid-enabled MPI library such as MPICH-G2. Thirdly, it enables the user to launch a job using the source code without compiling.

  • PDF

TIGRIS Grid MPI Service based on WSRF (WSRF기반의 TIGRIS 그리드 MPI 서비스)

  • Kwon, Oh-Kyoung;Hahm, Jae-Gyoon;Lee, Pill-Woo
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.1
    • /
    • pp.137-142
    • /
    • 2008
  • In this paper, we describe TIGRIS Grid MPI Service, which is 4he WS-Resource Framework (WSRF) based services to enable an MPI job to be executed on Grid environments. It covers heterogeneous compute resources and diverse MPI libraries. The main functionalities are as follows. First, it allows an MPI user to seamlessly launch a job without knowing how to use the specific MPI library. Secondly, it executes an MPI job on the cross-site resources by supporting the Grid-enabled MPI library such as MPICH-G2. Thirdly, it enables the user to launch a job using the source code without compiling. The service is implemented on top of the services of Globus Toolkit. We provide the user interface as a web portal and CLI(Command Line Interface).

A Study on the Efficient RFID Tag Identification considering Performance Information of Individual Nodes in a Grid Environment (그리드 환경에서 노드별 성능정보를 고려한 효율적인 RFID 태그 판별에 관한 연구)

  • Shin, Myeong-Sook;Lee, Joon
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.6 no.5
    • /
    • pp.797-802
    • /
    • 2011
  • RFID is recognized to technically occupy important position in ubiquitous computing environment and expected to create new markets in a variety of fields from now on. In order to generalize RFID system, it is required to solve the problem of privacy invasion and expedite lots of tags We suggest efficient RFID Tag Identification to identify tags quickly on the satisfaction with 3 security requirements of privacy protection in this paper. This methods are transferred to Grid environment through parallel analysis of Hash-Chain, and we measure performance of each nodes under the Grid environment. Then, We'll suggest SP-Division Algorithm to identify tags with each nodes and implement it in a Grid environment.

Empirical Performance Evaluation of Communication Libraries for Multi-GPU based Distributed Deep Learning in a Container Environment

  • Choi, HyeonSeong;Kim, Youngrang;Lee, Jaehwan;Kim, Yoonhee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.15 no.3
    • /
    • pp.911-931
    • /
    • 2021
  • Recently, most cloud services use Docker container environment to provide their services. However, there are no researches to evaluate the performance of communication libraries for multi-GPU based distributed deep learning in a Docker container environment. In this paper, we propose an efficient communication architecture for multi-GPU based deep learning in a Docker container environment by evaluating the performances of various communication libraries. We compare the performances of the parameter server architecture and the All-reduce architecture, which are typical distributed deep learning architectures. Further, we analyze the performances of two separate multi-GPU resource allocation policies - allocating a single GPU to each Docker container and allocating multiple GPUs to each Docker container. We also experiment with the scalability of collective communication by increasing the number of GPUs from one to four. Through experiments, we compare OpenMPI and MPICH, which are representative open source MPI libraries, and NCCL, which is NVIDIA's collective communication library for the multi-GPU setting. In the parameter server architecture, we show that using CUDA-aware OpenMPI with multi-GPU per Docker container environment reduces communication latency by up to 75%. Also, we show that using NCCL in All-reduce architecture reduces communication latency by up to 93% compared to other libraries.

Optimization of the computing environment to improve the speed of the modeling (WRF and CMAQ) calculation of the National Air Quality Forecast System (국가 대기질 예보 시스템의 모델링(기상 및 대기질) 계산속도 향상을 위한 전산환경 최적화 방안)

  • Myoung, Jisu;Kim, Taehee;Lee, Yonghee;Suh, Insuk;Jang, Limsuk
    • Journal of Environmental Science International
    • /
    • v.27 no.8
    • /
    • pp.723-735
    • /
    • 2018
  • In this study, to investigate an optimal configuration method for the modeling system, we performed an optimization experiment by controlling the types of compilers and libraries, and the number of CPU cores because it was important to provide reliable model data very quickly for the national air quality forecast. We were made up the optimization experiment of twelve according to compilers (PGI and Intel), MPIs (mvapich-2.0, mvapich-2.2, and mpich-3.2) and NetCDF (NetCDF-3.6.3 and NetCDF-4.1.3) and performed wall clock time measurement for the WRF and CMAQ models based on the built computing resources. In the result of the experiment according to the compiler and library type, the performance of the WRF (30 min 30 s) and CMAQ (47 min 22 s) was best when the combination of Intel complier, mavapich-2.0, and NetCDF-3.6.3 was applied. Additionally, in a result of optimization by the number of CPU cores, the WRF model was best performed with 140 cores (five calculation servers), and the CMAQ model with 120 cores (five calculation servers). While the WRF model demonstrated obvious differences depending on the number of CPU cores rather than the types of compilers and libraries, CMAQ model demonstrated the biggest differences on the combination of compilers and libraries.