초록
빅데이터 처리 플랫폼인 하둡의 등장 이후 SQL을 이용하여 하둡상에서 데이터 분석을 할 수 있는 SQL-on-Hadoop 기술이 주목받고 있다. 그 중에서도 국내 개발자가 주축이 되어 개발하고 올해 4월 아파치 최상위 프로젝트로 선정된 타조(Tajo)가 많은 주목을 받고 있다. SQL-on-Hadoop 기술의 등장으로 DW시장의 변화가 포착되고 있지만 그 성능에 관한 연구는 미미한 실정이다. 그래서 본 연구에서는 타조를 이용하여 관계형 데이터베이스와의 데이터 분석성능 비교에 관한 실험을 진행하여 SQL-on-Hadoop 기반 DW 선택에 도움이 될 연구를 수행하였다. 하둡 기반기술인 타조를 올바른 사용전략을 세워 활용한다면 관계형 데이터베이스보다 우수한 성능을 보인다는 결과를 얻었으며 오픈 소스인 타조는 많은 개발자들의 참여로 인해 점차 기술의 완성도가 높아져 DW 및 데이터 분석분야에서 중요한 축을 담당할 수 있을 것으로 예상한다.
Since Hadoop which is the Big-data processing platform was announced, SQL-on-Hadoop is the spotlight as the technique to analyze data using SQL on Hadoop. Tajo created by Korean programmers has recently been promoted to Top-Level-Project status by the Apache in April and has been paid attention all around world. Despite a sensible change caused by Hadoop's appearance in DW market, researches of those performance is insufficient. Thus, this study has been conducted to help choose a DW solution based on SQL-on-Hadoop as progressing the test on comparison analysis of RDBMS and Tajo. It has shown that Tajo based on Hadoop is more superior than RDBMS if it is used with accurate strategy. In addition, open-source project Tajo is expected not only to achieve improvements in technique due to active participation of many developers but also to be in charge of an important role of DW in the filed of data analysis.