Processing Large Date Using File System On ETL

ETL상에서 파일 시스템을 이용한 대용량 데이터 처리 기법

  • Jung, Yun-Chun (Dept. of Software Engineering, Korea University Graduate school of Computer Information Communication)
  • 정윤철 (고려대학교 정보통신 대학원 소프트웨어 공학과)
  • Published : 2008.06.30

Abstract

관계형 DBMS의 보급이 확대되면서 대형 운영시스템 구축 시에 인덱스를 사용하는 관계형 DB의 사용이 증가하고 있다. 이에 따라 Sort의 용도가 대폭 축소되고 DB에서 직접 대형 결산작업이 주로 처리되게 되었다. 그러나 대형 결산 작업 처리시 사용되는 대용량의 데이터의 경우 ETL(Extract Transformation Loading) 작업 시에는 오히려 파일 시스템을 사용하는 경우보다 성능이 저하되는 문제가 발생하기 시작했다. 본 논문에서는 ETL 작업 시 DBMS에 존재하는 대용량 데이터 처리하는 경우에 파일 시스템 상에서 flat 파일을 이용하여 처리 속도를 향상 시키고, 이와 동시에 리소스부하 문제를 해결할 수 있는 방안을 제시했다. 보다 세부적으로 DBMS에서 사용되는 sort, Join, Merge, Summary, 각종 사용자 함수 등의 다양한 기능들을 flat 파일에 적용하는 방법을 제시하였다. 또한 실험을 통해 ETL 작업 시 제안하는 기법이 처리 속도 개선과 리소스 활용성을 향상 시킴을 증명하였다.

Keywords