사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • 발행 : 2012.10.31

초록

본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

키워드

참고문헌

  1. 한선화, "Science Big Data: Grand Challenges", IT 21 Global Conference, 2012
  2. 조성우, "Big Data 시대의 기술", 중앙연구소 Intelligent Knowledge Service
  3. CERN, http://cern.org
  4. Complete Genomics, www.completegenomics.com/
  5. 이명진, "빅 데이터 환경의 고급 분석 기법과 지원 기술 동향", 연세대학교 지식정보화연구소
  6. Suresh Srinivas, "HDFS Federation", Yahoo! Inc.
  7. 이미영, 분산 스트림 컴퓨팅 기술 동향 ,ETRI
  8. Bio Science, "Data Intensive Science: A New Paradigm for Biodiversity Studies"
  9. KAIST 그리드 미들웨어 연구 센터, "시멘틱 그리드 기반 의 생물정보 지식 발굴 시스템 구축 연구
  10. "Data Cleansing", http://en.wikipedia.org/wiki/Data_cleansing
  11. Erhard Rahm, Hong Hai Do, "Data Cleaning: Problems and Current Approaches", 2000
  12. Google, "Google Refine Tutorial"
  13. R. Catell, "Scalable SQL and NoSQL Data Stores", 2011
  14. S. Gilbert, N. Lynch, "Brewer's Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services"
  15. T. V. Ganesh, "When NoSQL makes better sense than MySQL", 2011
  16. "NoSQL", http://en.wikipedia.org/wiki/NoSQL
  17. F. Chang, J. Dean, S. Ghemawat, W. C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, R. E. Gruber, "Bigtable: A Distributed Storage System for Structured Data", Google, Inc.
  18. Dhruba Borthakur, "The Hadoop Distributed File System: Architecture and Design"
  19. J. Dean, S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", OSDI, 2004
  20. W. Y. Chen, Y. Song, H. Bai, C. J. Lin, E. Y. Chang, "Parallel Spectral Clustering in Distributed Systems"
  21. "map/Reduce 개념", http://nadayyh.springnote.com/pages/6064905
  22. A. Matsunaga, M. Tsugawa, J. Fortes, "CloudBlast: Combining MapReduce and Virtualization on Distributed Resources for Bioinformatics Application"
  23. I. H. Witten, "Text Mining"
  24. "Cluster Analysis: Basic Concepts and Algorithms"
  25. J. Ekanayake, S. Pallickara, G. Fox, "MapReduce for Data Intensive Scientific Analyses"
  26. An Oracle White Paper, "Oracle: Big Data for the Enterprise"
  27. E. Pednault, Big Data Platforms, Tools, and Research at IBM
  28. IBM, Why IBM for Big Data
  29. IBM, "InfoSphere Streams", www-01.ibm.com
  30. OLAP,, http://www.terms.co.kr/OLAP.htm
  31. IBM, "IBM Netezza 1000, www-01.ibm.com"
  32. X. Fei, S. Lu, C. Lin, "A MapReduce-Enable Scientific Workflow Composition Framework
  33. J. Wang, D. Crawl, I. Altintas, "Kepler + Hadoop: A General Architecture Facilitating Data-Intensive Aplications in Scientific Workflow Systems