• 제목/요약/키워드: Hadoop system

검색결과 237건 처리시간 0.026초

오프라인 마켓에 적용 가능한 빅데이터 분석 시스템 구축 방안에 관한 연구 (A Study on Possible Construction of Big Data Analysis System Applied to the Offline Market)

  • 이후영;박구락;김동현
    • 디지털융복합연구
    • /
    • 제14권9호
    • /
    • pp.317-323
    • /
    • 2016
  • 빅데이터는 현재 기업 경쟁력의 주요 자산으로 여겨지고 있고 향후에 그 영향력은 더욱 확대될 것으로 전망된다. 그 중요성을 인식한 기업들은 이미 빅데이터를 제품 개발과 마케팅에 적극적으로 활용하고 있으며 정치, 스포츠 등 사회 전반에 걸쳐 적용분야는 점점 늘어나고 있다. 그러나 시스템 구축에 따른 노하우 부족과 고비용은 빅데이터 시스템 도입에 여전히 큰 장애가 되고 있다. 본 논문에서는 중소규모 오프라인 마켓의 POS 판매 데이터를 빅데이터 시스템 중 오픈소스인 하둡(Hadoop) 및 하이브(Hive)를 기반으로 하는 빅데이터 시스템 구현을 목표로 한다. 이러한 융복합을 통해 단순히 손익분석과 재고관리 등에 집중되었던 기존 판매 시스템을 보완하여 고객의 소비패턴과 선호도 조사, 수요에 대한 사전 예측이 가능하도록 하는 경영자의 합리적인 의사결정에 기초자료로 활용할 수 있을 것으로 기대된다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

클라우드 기반 태양광 발전단지 통합 관리 시스템 (Cloud-based Intelligent Management System for Photovoltaic Power Plants)

  • 박경욱;반경진;송승헌;김응곤
    • 한국전자통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.591-596
    • /
    • 2012
  • 최근 태양광 발전단지 구축이 증가하면서 발전단지를 효율적으로 관리하는 시스템이 요구되고 있다. 본 논문에서는 다수의 태양광 발전단지들을 통합 관리하는 클라우드 기반의 지능형 관리 시스템을 제안한다. 제안된 시스템은 태양광 발전단지들의 설비 계측 데이터를 컬럼 지향 데이터베이스인 하둡 HBase를 이용하여 저장하고 관리하며 맵리듀스 모델을 통한 병렬처리를 통해 시스템의 성능, 효율, 발전량 예측을 빠르게 수행한다. 그리고 웹 기반의 데이터 시각화 모듈을 통해 관리자에게 다양한 형태의 정보를 제공한다.

클라우드 기반 센서 데이터 관리 시스템 설계 및 구현 (Design and Implementation of Cloud-based Sensor Data Management System)

  • 박경욱;김경옥;반경진;김응곤
    • 한국전자통신학회논문지
    • /
    • 제5권6호
    • /
    • pp.672-677
    • /
    • 2010
  • 최근 대규모 센서 네트워크의 구축이 증가하면서 대규모의 센서 데이터를 효율적으로 관리하는 시스템이 요구되고 있다. 본 논문에서는 저비용, 높은 확장성 그리고 고 효율성을 지닌 클라우드 기반의 센서 데이터 관리 시스템을 제안한다. 제안된 시스템에서는 센서 데이터는 클라우드 게이트웨이를 통해 클라우드로 전송되며 이때 이상상황 검출과 이벤트 처리가 수행된다. 클라우드로 전송된 센서 데이터는 분산 컬럼 지향 데이터 베이스인 하둡 HBase에 저장되며 맵리듀스 모델 기반의 질의처리 모듈을 통해 병렬 처리된다. 처리된 결과는 REST 기반의 웹서비스를 통해 제공되므로 다양한 플랫폼의 응용프로그램과 연동이 가능하다.

오픈소스 기반 해양환경 모니터링 시스템 (Marine Environment Monitoring System based Open Source)

  • 박선;차병래;김종원
    • 스마트미디어저널
    • /
    • 제6권3호
    • /
    • pp.75-82
    • /
    • 2017
  • 최근 세계적으로 바다가 자원의 보고로 주목 받으면서 해양관련 기술에 대한 연구가 활발히 진행 되고 있다. 특히 해양환경을 분석하고 이해하기 위해서는 지속적으로 해양환경 자료를 수집해야 하나 국내 해양환경 모니터링에 대한 연구는 미흡하다. 본 논문은 오픈소스 기반의 해양환경 감시 시스템을 제안한다. 제안 시스템은 하둡(Hadoop)기반의 시계열 데이터베이스를 이용하여 스케일 아웃(Scale out) 시스템으로 설계하여 수집되는 데이터가 늘어나더라도 컴퓨터 자원을 늘려서 쉽게 처리할 수 있다. 또한 수집되는 데이터를 시각화함으로써 해양 자료를 분석하는데 이용할 수 있다.

S-PARAFAC: 아파치 스파크를 이용한 분산 텐서 분해 (S-PARAFAC: Distributed Tensor Decomposition using Apache Spark)

  • 양혜경;용환승
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.280-287
    • /
    • 2018
  • 최근 추천시스템과 데이터 분석 분야에서 고차원 형태의 텐서를 이용하는 연구가 증가하고 있다. 이는 고차원의 데이터인 텐서 분석을 통해 더 많은 잠재 요소와 잠재 패턴을 추출가능하기 때문이다. 그러나 고차원 형태인 텐서는 크기가 방대하고 계산이 복잡하기 때문에 텐서 분해를 통해 분석해야한다. 기존 텐서 도구들인 rTensor, pyTensor와 MATLAB은 단일 시스템에서 작동하기 때문에 방대한 양의 데이터를 처리하기 어렵다. 하둡을 이용한 텐서 분해 도구들도 있지만 처리 시간이 오래 걸린다. 따라서 본 논문에서는 인 메모리 기반의 빅데이터 시스템인 아파치 스파크를 기반으로 하는 텐서 분해 도구인 S-PARAFAC을 제안한다. S-PARAFAC은 텐서 분해 방법 중 PARAFAC 분해에 초점을 맞춰 아파치 스파크에 적합하게 변형하여 텐서 분해를 빠르게 분산 처리가능 하도록 하였다. 본 논문에서는 하둡을 기반의 텐서 분해 도구와 S-PARAFAC의 성능을 비교하여 약 4~25배 정도의 좋은 성능을 보였다.

하둡기반 공간 빅데이터 저장 관리 시스템 구조 (An Architecture for a Spatial Big-Data Management System on Hadoop)

  • 이강우;조은선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.1-3
    • /
    • 2015
  • 본 논문에서는 하둡 환경상에서 개발 중인 공간 빅데이터 저장 관리 시스템의 구조를 설명한다. 본 시스템은 공간 센서 및 IoT의 등장으로 대용량화된 공간 데이터로 인한 기존 공간 정보 처리 시스템의 성능적 한계를 극복하기 위한 목적으로 개발 중이다. 본 시스템은 효과적인 대용량 데이터 처리를 위해 현재 활발히 연구되고 있는 빅데이터 처리 기술과 공간 정보 처리 기술을 접목하여, 대용량의 공간 정보를 수집, 저장 관리하는 기능을 제공한다. 또한 효과적인 공간 데이터의 접근을 위해 스크립트 언어 기반의 공간 정보 처리 언어를 제공하고, SQL 형식의 선언적 공간 정보 질의 처리 기능도 제공하기 위해 개발 중에 있다.

  • PDF

빅데이터 처리를 위한 맵리듀스 연구 (A study of MapReduce Algorithm for Bigdata)

  • 김만윤;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.341-342
    • /
    • 2014
  • 지난 10년간 데이터의 폭발적인 증가로 우리는 빅데이터 시대를 맞이하게 되었다. 특히, 최근 몇 년 사이 소셜 네트워크의 발전으로 인해 발생하는 데이터의 양이 증가하면서, 이를 처리하기 위한 시스템으로 하둡이 등장하였다. 이전에는 저장 및 처리할 수 없었던 대용량 데이터를 오픈소스인 하둡의 등장으로 누구나가 대용량 데이터를 처리할 수 있는 시스템을 운영할 수 있게 된 것이다. 대규모 처리 분석을 위한 소프트웨어 프레임워크인 하둡은 클라우드 컴퓨팅의 대표적인 기술로 널리 사용되고 있다. 하둡은 크게 데이터의 저장을 담당하는 HDFS(Hadoop Distribute File System)와 데이터를 처리하는 맵리듀스로 나뉜다. 본 논문에서는 기존의 MapReduce와 차세대 맵리듀스로 불리는 YARN을 비교 분석하고 맵리듀스의 용도와 효율적인 활용방안을 제시한다.

  • PDF

Web-Enabler: Transformation of Conventional HIMS Data to Semantics Structure Using Hadoop MapReduce

  • Idris, Muhammad;Lee, Sungyoung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.137-139
    • /
    • 2014
  • Objective: Data exchange, interoperability, and access as a service in healthcare information management systems (HIMS) is the basic need to provision health-services. Data existing in various HIMS not only differ in the basic underlying structure but also in data processing systems. Data interoperability can only be achieved when following a common structure or standard which is shareable such as semantics based structures. We propose web-enabler: A Hadoop MapReduce based distributed approach to transform the existing huge variety data in variety formats to a conformed and flexible ontological format that enables easy access to data, sharing, and providing various healthcare services. Results: For proof of concept, we present a case study of general patient record in conventional system to be enabled for analysis on the web by transforming to semantics based structure. Conclusion: This work achieves transformation of stale as well as future data to be web-enabled and easily available for analytics in healthcare systems.

Hadoop 클라우드 기반 관계형 데이터 웨어하우스 시스템에서 이진 검색 트리 기반 색인의 구현 (An Implementation of a BST Index on a Relational Data Warehouse System based on Hadoop Cloud)

  • 류효석;최현식;손지훈;정연돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.10-12
    • /
    • 2012
  • 클라우드를 기반으로 한 대용량 데이터의 처리 및 분석의 요구가 커지면서, 대용량 관계형 데이터에 대한 분산 처리의 수요 또한 증가하고 있다. 본 논문은 HDFS를 사용하는 관계형 저장 시스템에서 대용량 데이터를 효율적으로 처리하기 위해 개발한 BST 기반 색인에 대해 설명한다.