• 제목/요약/키워드: 데이터레이크 프레임워크

검색결과 4건 처리시간 0.015초

데이터 레이크 구축을 위한 Apache NiFi기반 ETL 프로세스 (Apache NiFi-based ETL Process for Building Data Lakes)

  • 이경민;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.145-151
    • /
    • 2021
  • 최근 들어 인간의 모든 활동 영역에서 디지털 데이터가 생성되고 있고 데이터를 안전하게 저장하고 가공하여 유용한 서비스를 개발하려는 시도가 많아지고 있다. 데이터 레이크는 데이터의 출처나 데이터를 활용하는 분석 프레임워크에 독립된 데이터 저장소를 말한다. 본 논문에서는 스마트시티에서 생성되는 다양한 빅데이터를 데이터 레이크에 안전하게 저장하고 서비스에서 활용할 수 있게 ETL 하는 도구와 이를 효과적으로 사용하는데 필요한 웹기반 도구를 설계하고 구현한다. 원천 데이터를 품질검사하고 정제하여 데이터 레이크에 안전하게 저장한 다음 데이터 수명주기 정책에 따라 관리하는 일련의 과정(ETL)은 대부분 비용이 많이 드는 인프라와 개발 및 유지 관리에 상당한 노력이 필요한 기술이다. 구현기술을 통해 IT분야 전문지식이 없어도 가시적이고 효율적으로 ETL 작업 모니터링, 데이터 수명주기 관리 설정과 실행이 가능하다. 이와는 별개로 데이터 레이크에 신뢰할 수 있는 데이터를 저장하고 사용하려면 데이터 품질검사 리스트 가이드가 필요하다. 또한, 데이터 수명주기 관리 도구를 통해 데이터 마이그레이션 및 삭제 주기를 설정하고 예약하여 데이터 관리 비용을 줄일 수 있어야 한다.

Connected Data Architecture 개념의 확장을 통한 AI 서비스 초안 설계 (Draft Design of AI Services through Concept Extension of Connected Data Architecture)

  • 차병래;박선;오수열;김종원
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.30-36
    • /
    • 2018
  • DataLake 프레임워크와 같은 단일 도메인 모델은 비즈니스 시스템의 규모 확장과 대량의 다양한 데이터들이 생성되는 빅데이터 환경, 그리고 데이터를 보다 스마트하게 처리하여 효율성 및 활용도를 높일 수 있는 방법으로 주목 받고 있다. 특히, 논리적인 단일 도메인 모델은 컴퓨팅 리소스의 유한함과 공유 경제에 의한 물리적으로 분할된 멀티 사이트의 데이터 처리를 위한 네트워크, 스토리지, 그리고 컴퓨팅 자원의 효율적 운영이 매우 중요하다. 기존의 Data Lake 프레임워크의 장점들을 기반으로 다양한 영역의 멀티 사이트들을 통합 및 데이터의 라이프 사이클을 관리하기 위한 DataLake 프레임워크의 Connected Data Architecture 개념과 기능들의 확장을 통한 다양한 응용 영역에 활용 가능한 CDA 기반 AI 서비스의 초안 설계 및 시나리오를 제안하고자 한다.

Abyss Storage Cluster 기반 DataLake Framework의 Connected Data Architecture 개념 설계 및 검증 (Design and Verification of Connected Data Architecture Concept employing DataLake Framework over Abyss Storage Cluster)

  • 차병래;차윤석;박선;신병춘;김종원
    • 스마트미디어저널
    • /
    • 제7권3호
    • /
    • pp.57-63
    • /
    • 2018
  • 조직과 기업의 비즈니스 시스템의 규모가 커지면서 다양한 대량의 데이터들이 생성되는 비즈니스 환경의 변화와 데이터를 보다 스마트하게 처리하여 효율성을 높일 수 있는 방법으로 DataLake와 같이 단일 도메인 모델이 필요한 상황이다. 특히, 자원의 유한성과 공유 경제에 의한 물리적인 분할된 멀티 사이트의 데이터를 논리적인 단일 도메인 모델을 만드는 것은 컴퓨팅 자원의 효율적 운영 측면에서 매우 중요하다. 기존의 Data Lake 프레임워크의 장점을 기반으로 다양한 응용 영역의 멀티 사이트들을 통합 및 데이터 라이프 사이클을 관리하기 위한 Abyss Storage 기반 DataLake 프레임워크의 Connected Data Architecture 개념 (connected data architecture-concept)과 기능들을 정의하고, Connected Data Architecture 개념을 위한 인터페이스 설계 및 인터페이스(Interface) #2와 #3의 유효성 검증을 수행한다.

Abyss Storage Cluster 기반의 DataLake Framework의 설계 (Draft Design of DataLake Framework based on Abyss Storage Cluster)

  • 차병래;박선;신병춘;김종원
    • 스마트미디어저널
    • /
    • 제7권1호
    • /
    • pp.9-15
    • /
    • 2018
  • 기관 또는 조직은 비즈니스 시스템의 규모가 커지면서 이들과 관련된 서로 다른 시스템에서 다양한 대량의 데이터들이 생성되고 있다. 이와 같이 비즈니스 환경에서 서로 다른 시스템에서 데이터를 보다 스마트하게 처리하여 효율성을 높일 수 있는 방법이 필요하다. 이를 위한 가장 기본적인 접근 방법 중 하나는 DataLake와 같이 데이터를 정확하게 설명하고 전체 비즈니스에 대한 가장 중요한 데이터를 나타낼 수 있는 단일 도메인 모델을 만드는 것이다. DataLake의 장점을 구현하기 위해서는 다양하게 요구되어진 기능들을 어떤 구조로, 어떻게 작동 할 것인지에 대한 DataLake의 구성 요소들을 정의하는 게 중요하며, DataLake의 구성 요소들에 의해서 데이터 흐름에 따른 라이프 사이클을 갖게 된다. 또한 데이터 획득 시점에서 DataLake로 유입되는 동안 메타 데이터는 데이터 추적 가능성, 데이터 계보 및 라이프 사이클 전반의 데이터 민감도에 기반 한 보안 측면과 함께 캡처 및 관리되어야 하며, 이러한 이유로 Abyss Storage Cluster 기반의 DataLake Framework를 설계하였다.