DOI QR코드

DOI QR Code

Cloud-Based Automation System to Process Data from Astronomy Observation

대용량 천문 관측 자료처리를 위한 클라우드 기반 자동화 시스템

  • 염재근 (한국과학기술정보연구원 슈퍼컴퓨터개발센터 기술원) ;
  • 유정록 (한국과학기술정보연구원 슈퍼컴퓨터개발센터) ;
  • 임홍서 (한국천문연구원 우주위험감시센터) ;
  • 김명진 (한국천문연구원 우주위험감시센터) ;
  • 박진태 (한국천문연구원 행성과학그룹) ;
  • 이희재 (한국천문연구원 행성과학그룹) ;
  • 문홍규 (한국천문연구원 행성과학그룹) ;
  • 최영준 (한국천문연구원 행성과학그룹) ;
  • 노동구 (한국천문연구원 우주위험감시센터) ;
  • 오영석 (한국천문연구원 행성과학그룹) ;
  • 배영호 (한국천문연구원 우주위험감시센터)
  • Received : 2016.09.06
  • Accepted : 2016.10.24
  • Published : 2017.01.15

Abstract

In astronomy, the amount of data generated using wide-field optical telescope has increased exponentially. However, the fixed-size small-scale computing environment and the complexity of data analysis tools, results in difficulties to process the massive observation data collected. To resolve this problem, we propose a cloud-based automation system for the efficient processing of the enormous data gathered. The proposed system consists of a Workflow Execution Manager which manages various workflow templates and controls the execution of workflows instantiated from theses templates, and an Elastic Resource Manager that dynamically adds/deletes computing resources, according to the amount of data analysis requests. To show the effectiveness of our proposed system, we exhaustively explored a board spectrum of experiments, like elastic resources allocation, system load, etc. Finally, we describe the best practice case of DEEP-SOUTH scheduling system as an example application.

천문학 분야에서 광시야망원경을 통해 관측된 자료들의 양은 기하급수적으로 늘어나고 있다. 그러나 고정된 소규모의 컴퓨팅 환경과 자료 분석 도구들의 복잡성은 대용량 관측 자료들을 효율적으로 처리하는데 어려움을 야기한다. 본 논문에서는 이러한 문제점을 해결하기 위해, 대용량 천문 관측 자료처리를 위한 클라우드 기반의 자동화 시스템을 제안한다. 본 논문에서 제안한 시스템은 관측 자료 분석에 필요한 워크플로우 템플릿의 관리 및 실행 제어를 위한 워크플로우 실행 관리자(Workflow Execution Manager)와 관측 자료 분석 요청 량에 따라 동적으로 계산자원의 할당/반납이 가능한 탄력적 자원 관리자(Elastic Resource Manager)로 구성된다. 또한 동적 자원 할당 추이, 시스템 부하 등의 다양한 실험 및 결과 분석을 통해 제안한 시스템의 유효성을 검증하고, DEEP-SOUTH 스케쥴링 시스템에의 적용 사례를 기술한다.

Keywords

Acknowledgement

Grant : 남천 황도대 집중탐사연구

Supported by : 한국천문연구원

References

  1. C. Lee, S. Kim, and S. Cha, et al., 2014, "Observational Performance of the KMTNet," Proc. of the SPIE, 9145, 91453T.
  2. H. Moon, M. Kim, H. Yim, Y. Choi, Y. Bae, D. Roh, J. Park, B. Moon, and the DEEP-South Team, "Asteroids: New Observations, New Models," Proc. IAU Symposium, No. 318, 2015.
  3. H. Yim, M. Kim, D. Roh, J. Park, H. Moon, Y. Choi, Y. Bae, H. Lee, Y. Oh, and the DEEP-South Collaboration, DEEP-South: Preliminary Lightcurve Analysis of Potentially Hazardous Asteroids (PHAs).
  4. Parviz Deyhim, "Best Practices for Amazon EMR," Aug. 2013.
  5. D. Thain, T. Tannenbaum, and M. Livny, "Distributed Computing in Practice: The Condor Experience," Concurrency and Computation: Practice and Experience, Vol. 17, No. 2-4, pp. 323-356, Feb.-Apr. 2005. https://doi.org/10.1002/cpe.938
  6. N. Coleman, "Distributed Policy Specification and Interpretation with Classified Advertisements," Practical Aspects of Declarative Languages, Lecture Notes in Computer Science, Vol. 7149, pp. 198-211, Jan. 2012.
  7. P. Couvares, T. Kosar, A. Roy, J. Weber and K. Wenger, "Workflow in Condor," Workflows for e-Science, Editors: I.Taylor, E.Deelman, D. Gannon, M. Shields, Springer Press, January 2007. (ISBN: 1-84628-519-4)
  8. OpenStack, OpenStack open source cloud computing software, [Online]. Available: https://www.openstack. org
  9. E. Deelman, D. Gannon, and M. Shields, "Workflows and e-Science: An overview of workflow system features and capabilities," Future Generation Computer Systems, Vol. 25, Issue 5, pp. 528-540, May. 2009. https://doi.org/10.1016/j.future.2008.06.012
  10. D. Mosberger, and T.Jin, "httperf-a tool for measuring web server performance," ACM SIGMETRICS Performance Evaluation Review, Vol. 26, Issue 3, Dec. 1998.
  11. H. Yim, M. Kim, D. Roh, J. Park, H. Moon, Y. Choi, Y. Bae, H. Lee, Y. Oh, and the DEEP-South Collaboration, "DEEP-South: Automated Scheduler and Data Pipeline."
  12. Slurm, Slurm workload manager, [Online]. Available: http://slurm.schedmd.com/
  13. Apache Spark, large-scale data processing engine, [Online]. Available: http://spark.apache.org/