• 제목/요약/키워드: HADOOP

검색결과 392건 처리시간 0.022초

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

기업의 빅데이터 적용방안 연구 -A사, Y사 빅데이터 시스템 적용 사례- (Study on the Application Methods of Big Data at a Corporation -Cases of A and Y corporation Big Data System Projects-)

  • 이재성;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.103-112
    • /
    • 2014
  • 지난 수년간 스마트 폰 같은 스마트 기기의 빠른 확산과 함께 인터넷과 SNS 등 소셜 미디어가 급성장함에 따라 개인 정보와 소비패턴, 위치 정보 등이 포함된 가치 있는 데이터가 매 순간 엄청난 양으로 생성되고 있으며, M2M (Machine to Machine)과 IoT (Internet of Things) 등이 활성화되면서 IT 및 생산인프라 자체도 다량의 데이터를 직접 생성하기 시작했다. 본 연구는 기업에서 활용할 수 있는 빅데이터의 대표적 유형인 정형 및 비정형 데이터의 적용사례를 고찰함으로써 데이터 유형에 따른적용 영역별 파급효과를 알아본다. 또한 일반적으로 알려져 있는 비정형 빅데이터는 물론 정형빅데이터를 활용하여 실제로 기업에 보다 나은 가치를 창출할 수 있는 방안을 알아보는 것을 목적으로 한다. 이에 대한연구 결과로 빅데이터의 기업내 활동이 나아갈 수 있는 지향점으로써 내 외부에서 발생하는 정형데이터와 비정형 데이터를 적절히 결합함으로써 분석의 효과를 극대화 할 수 있음을 보여 주었다.

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

클라우드 서비스를 위한 고가용성 대용량 데이터 처리 아키텍쳐 (Implementation of Data processing of the High Availability for Software Architecture of the Cloud Computing)

  • 이병엽;박준호;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.32-43
    • /
    • 2013
  • 최근 많은 기관들로부터 클라우드 서비스가 향후 대세적인 IT서비스로의 확고한 기술로서 예견하고 있고, 실질적으로 IT를 리딩하는 많은 벤더 기업들을 주축으로 실질적인 클라우드 서비스를 제공 하고 있다. 따라서 클라우드 사용자는 서비스의 물리적인 위치나, 시스템 환경과 같은 부분들을 관여하지 않고, 스토리지 서비스, 데이터의 사용, 소프트웨어의 사용들을 제공하는 획기적인 서비스로 거듭나고 있다. 한편, 클라우드 컴퓨팅 기술들은 인프라스트럭처에서 요구되는 서비스의 수준, 다양한 시스템에서 요구되는 하드웨어적인 문제들을 벗어서 자유스럽게 원하는 만큼의 IT 리소스를 쉽게 사용할 수 있는 장점을 가지고 있지만, 고가용성 측면에서 반드시 기술적인 해결 방안을 모색하여야 한다. 따라서 본 논문 에서는 고가용성 측면에서의 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술, 고가용성 데이터베이스 시스템을 소개하고 현재 클라우드 컴퓨팅 시장에서 활용되고 있는 분산 파일 시스템을 통한 분산처리 기술을 참고하여 고가용성 대용량 분산 데이터 처리 아키텍처를 클라우드 서비스 측면에서 구현하였다.

클라우드 데이터 서비스를 위한 대용량 데이터 처리 분산 파일 아키텍처 설계 (Distributed File Systems Architectures of the Large Data for Cloud Data Services)

  • 이병엽;박준호;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제12권2호
    • /
    • pp.30-39
    • /
    • 2012
  • 최근 클라우드 컴퓨팅 시장에 진출했거나 진출을 선언한 글로벌 IT 기업들을 이미 보유하고 있는 하드웨어, 소프트웨어 기반 기술들을 활용하거나 상호 협력을 통해 다양한 클라우드 서비스들을 제공함으로써 불특정 다수를 대상으로 급격하게 성장하고 있는 클라우드 컴퓨팅 시장에서 자신들의 영역을 지속적으로 확장해 나가고 있다. 분산 파일 시스템은 데이터의 저장과 관리뿐만 아니라 상위 계층 서비스가 요구하는 충분한 성능과 안정성을 보장해주기 위한 클라우드 컴퓨팅의 핵심 기술 중의 하나이다. 본 논문 에서는 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈 소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술, 고가용성 데이터베이스 시스템을 소개하고 현재 클라우드 컴퓨팅 시장에서 활용되고 있는 분산 파일 시스템의 동향을 통한 다양한 분산처리 기술을 참고하여 대용량 분산 데이터 처리 아키텍처를 구현하였다.

DETECTING VARIABILITY IN ASTRONOMICAL TIME SERIES DATA: APPLICATIONS OF CLUSTERING METHODS IN CLOUD COMPUTING ENVIRONMENTS

  • 신민수;변용익;장서원;김대원;김명진;이동욱;함재균;정용환;윤준연;곽재혁;김주현
    • 천문학회보
    • /
    • 제36권2호
    • /
    • pp.131.1-131.1
    • /
    • 2011
  • We present applications of clustering methods to detect variability in massive astronomical time series data. Focusing on variability of bright stars, we use clustering methods to separate possible variable sources from other time series data, which include intrinsically non-variable sources and data with common systematic patterns. We already finished the analysis of the Northern Sky Variability Survey data, which include about 16 million light curves, and present candidate variable sources with their association to other data at different wavelengths. We also apply our clustering method to the light curves of bright objects in the SuperWASP Data Release 1. For the analysis of the SuperWASP data, we exploit a elastically configurable Cloud computing environments that the KISTI Supercomputing Center is deploying. Two quite different configurations are incorporated in our Cloud computing test bed. One system uses the Hadoop distributed processing with its distributed file system, using distributed processing with data locality condition. Another one adopts the Condor and the Lustre network file system. We present test results, considering performance of processing a large number of light curves, and finding clusters of variable and non-variable objects.

  • PDF

비밀분산기법을 이용한 분산 트랜스코딩 시스템 연구 (A Study on the Distributed Transcoding System using Secret Sharing Techniques)

  • 송유진;구석모;김의창
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.233-239
    • /
    • 2014
  • 초고해상도 콘텐츠는 파일 크기가 매우 크기 때문에 기존의 부호화 기술로는 네트워크를 통해 전송하는 것이 불가능하다. 고효율의 부호화 기법인 HEVC를 이용하면 네트워크 전송이 가능하나 압축시간이 많이 필요하기 때문에 분산 트랜스코딩 시스템이 필요하다. 분산 트랜스코딩 시스템은 데이터를 분산하여 저장한 뒤 다수의 노드를 이용하여 부호화한다. 그러나 분산 트랜스코딩 시스템은 분산된 정보가 노출되거나 내부관리자의 공격에 취약하다는 문제점이 있다. 본 논문에서는 초고해상도 콘텐츠를 트랜스코딩 할 때, 분산 트랜스코딩 시스템의 기밀성이 보장되지 않는다는 문제점을 해결하고자 한다. 우리는 SNA를 이용하여 데이터 노드에서 HEVC로 부호화된 콘텐츠 데이터를 비밀분산기법을 통해 암호화하여 저장했다. 결과적으로 안전한 분산 트랜스코딩이 가능하고, 내부관리자의 공격을 방지할 수 있다.

빅데이터 연구영역의 지식창출 구조 (Knowledge Creation Structure of Big Data Research Domain)

  • 남수현
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.129-136
    • /
    • 2015
  • 본 논문은 학제간 연구의 대표적인 사례인 빅데이터 연구가 어떤 주제로 구성되어 있는지를 상향식 접근법을 이용하여 분석한다. 분석을 위해서 연구재단에서 제공하는 학술지 인용색인시스템을 이용하였다. 영문 키워드 "big data"로 모든 등재지와 등재후보지를 대상으로 검색을 하여 이것을 원천 데이터로 하였다. 논문 저자가 직접 제공하는 키워드를 본 연구에서 사용하기 위해서 정제작업을 거친 후, 주요 키워드 분포, 참여 저널의 성격 분포, 참여저자 수의 분포, 연도별 키워드 분포 등을 이용하여 빅데이터 연구주제의 구조를 설명하였다. 식별된 주요 키워드들은 사회네트워크 분석, 하둡, 맵리듀스, 개인정보/보호, 클라우드 컴퓨팅, 시각화, 데이터마이닝 등이다. 또한 빅데이터가 지속가능하고 융복합적인 경영혁신 도구로 사용되기 위해 향후 추가적으로 보완되어야 할 연구 키워드들을 제안한다.

제조 공정 빅데이터 분석을 위한 플랫폼 연구 (A Study on the Platform for Big Data Analysis of Manufacturing Process)

  • 구진희
    • 융합정보논문지
    • /
    • 제7권5호
    • /
    • pp.177-182
    • /
    • 2017
  • IoT, 클라우드 컴퓨팅, 빅데이터와 같은 주요 ICT 기술이 제조 분야에 적용되기 시작하면서 스마트 공장 구축이 본격화 되고 있다. 스마트 공장 구현의 핵심은 공장 내외부의 데이터 확보 및 분석력에 있다. 따라서 빅데이터 분석 플랫폼에 대한 필요성이 증가하고 있다. 본 연구의 목적은 제조 공정 빅데이터 분석을 위한 플랫폼을 구성하고, 분석을 위한 통합 메소드를 제안하는데 있다. 제안하는 플랫폼은 대량의 데이터 셋을 분산 처리하기 위해 분석도구 R과 하둡을 통합한 RHadoop 기반 구조로서 자동화 시스템의 단위 공정 및 공장 내에서 수집되는 빅데이터를 하둡 HBase에 직접 저장 및 분석이 가능하다. 또한 기존 RDB 기반 분석의 한계점을 보완하였다. 이러한 플랫폼은 스마트 공장을 위한 단위 공정 적합성을 고려하여 개발되어야 하며, 제조 공정에 스마트 공장을 도입하고자 하는 중소기업에 IoT 플랫폼 구축의 가이드가 될 수 있을 것으로 전망된다.

비-전용 분산 컴퓨팅 환경에서 맵-리듀스 처리 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘 (An Efficient Data Replacement Algorithm for Performance Optimization of MapReduce in Non-dedicated Distributed Computing Environments)

  • 류은경;손인국;박준호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.20-27
    • /
    • 2013
  • 최근 소셜 미디어의 성장과 모바일 장치와 같은 디지털 기기의 활용이 증가함에 따라 데이터가 기하급수적으로 증가하였다. 이러한 대용량의 데이터를 처리하기 위한 대표적인 프레임워크로 맵-리듀스가 등장하였다. 하지만 전용 분산 컴퓨팅 환경에서 균등한 데이터 배치를 기반으로 수행되는 기존 맵-리듀스는 가용성이 다른 비-전용 분산 컴퓨팅 환경에서는 적합하지 않다. 이러한 비-전용 분산 컴퓨팅 환경을 고려한 데이터 재배치 알고리즘이 제안되었지만, 재배치에 많은 시간을 필요로 하고, 불필요한 데이터 전송에 의한 네트워크 부하가 발생한다. 본 논문에서는 비-전용 분산 컴퓨팅 환경에서 맵-리듀스의 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘을 제안한다. 제안하는 기법에서는 노드의 가용성 분석 모델을 기반으로 노드의 데이터 블록 비율을 연산하고, 기존의 데이터 배치를 고려하여 전송함으로써 네트워크 부하를 감소시킨다. 성능평가 결과, 제안하는 기법이 기존 기법에 비해 성능이 우수함을 확인하였다.