• Title/Summary/Keyword: 데이터 처리량

Search Result 2,565, Processing Time 0.036 seconds

Distributed Processing Environment for Outlier Removal to Analyze Big Data (대용량 데이터 분석을 위한 이상치 제거용 분산처리 환경)

  • Hong, Yejin;Na, Eunhee;Jung, Yonghwan;Kim, Yangwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.73-74
    • /
    • 2016
  • IoT 데이터는 비정형 데이터로 가공되고 분석하였을 때 비로소 가치를 갖기에 전 세계적으로 빅데이터 기술에 관심이 집중되고 있다. IoT 데이터 중 많은 부분을 차치하는 센서 데이터는 수집이 용이하고 활용범위가 넓기 때문에 여러 분야에서 사용되고 있다. 하지만 센서가 정상적으로 작동하지 못한 경우에는 실제와는 다른 값인 이상치를 포함하여 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위하여 수집된 원자료의 데이터를 분석하기 전에 이상치 탐지 및 제거를 하고자 한다. 또한 점점 늘어나고 있는 대용량 데이터를 신속하게 처리하기 위하여 메모리 접근방식인 스파크를 사용한 분산처리환경에서 이상치 탐지 및 제거하는 것을 제안한다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며 제안한 기법의 성능 평가를 위해 총 3가지 환경에서 비교하여 실험하였다. 실험을 통해 데이터의 용량이 커질수록 분산처리환경에서 스파크를 사용하여 처리하는 방식이 가장 빠를 것 이라는 결과를 얻었다.

  • PDF

Development of high volumes of data processing algorithm for 3D printers in Hadoop systems (Hadoop을 활용하여 3D 프린터용 대용량 데이터 처리 알고리즘 개발)

  • Nam, Kiwon;Lee, Kyuyoung;Kim, Gunyoung;Kim, Joohyun;Kim, Sungsuk;Yang, Sun Ok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.691-693
    • /
    • 2017
  • 하둡 시스템은 대용량의 데이터를 처리할 수 있는 클러스터 기반 개방형 소프트웨어 프레임워크이다. 이는 하둡 분산 파일시스템(HDFS)과 MapReduce 모델을 활용하여 데이터의 병렬 처리를 지원한다. 본 연구에서는 3D 프린터를 위한 3D 모델 데이터를 G-code로 변환하는 알고리즘을 하둡을 활용하여 구현하였다. 4대의 컴퓨터에 하둡 시스템을 설치한 후 전처리-Map-Shuffling-Reduce의 과정을 거쳐 변환작업이 효율적으로 처리하였음을 보일 수 있었다.

Design and implementation of a Large-Scale Security Log Collection System based on Hadoop Ecosystem (Hadoop Ecosystem 기반 대용량 보안로그 수집 시스템 설계 및 구축)

  • Lee, Jong-Yoon;Lee, Bong-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.461-463
    • /
    • 2014
  • 네트워크 공격이 다양해지고 빈번하게 발생함에 따라 이에 따라 해킹 공격의 유형을 파악하기 위해 다양한 보안 솔루션이 생겨났다. 그 중 하나인 통합보안관리시스템은 다양한 로그 관리와 분석을 통해 보안 정책을 세워 차후에 있을 공격에 대비할 수 있지만 기존 통합보안관리시스템은 대부분 관계형 데이터베이스의 사용으로 급격히 증가하는 데이터를 감당하지 못한다. 많은 정보를 가지는 로그데이터의 유실 방지 및 시스템 저하를 막기 위해 대용량의 로그 데이터를 처리하는 방식이 필요해짐에 따라 분산처리에 특화되어 있는 하둡 에코시스템을 이용하여 늘어나는 데이터에 따라 유연하게 대처할 수 있고 기존 NoSQL 로그 저장방식에서 나아가 로그 저장단계에서 정규화를 사용하여 처리, 저장 능력을 향상시켜 실시간 처리 및 저장, 확장성이 뛰어난 하둡 기반의 로그 수집 시스템을 제안하고자 한다.

A Survey on Massive Data Processing Model in Cloud Computing (클라우드 컴퓨팅에서의 대용량 데이터 처리 모델에 관한 조사)

  • Jin, Ah-Yeon;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.145-146
    • /
    • 2011
  • 클라우드 컴퓨팅은 세계적인 시장조사기관인 가트너사의 10대전략기술에서 2년 연속 1위를 할 정도로 많은 각광을 받고 있다. 클라우드 컴퓨팅이란 인터넷 기술을 활용하여 가상화된 컴퓨팅 자원을 서비스로 제공하는 것으로, 사용자는 IT자원을 필요한 만큼 빌려서 사용하고 사용한 만큼 비용을 지불하는 컴퓨팅을 지칭한다. 이러한 클라우드 컴퓨팅 상에서 폭발적으로 증가하고 있는 데이터를 효율적으로 병렬 처리할 수 있는 방법에 대하여 많은 연구가 활발히 이루어지고 있다. 이러한 대용량 데이터 처리를 위한 대표적인 모델에는 MapReduce와 Dryad가 있으며, 서로간에 많은 공통점이 있지만 MapReduce는 범용 프로그래밍 언어를 기반으로 쉬운 병렬 프로그래밍을 가능하게 했다는 점에서 많이 사용되고 있으며 Dryad는 재사용이 쉽고 데이터 처리 흐름을 유연하게 작성할 수 있다는 점에서 장점을 가지고 있다.

Explainable Solar Irradiation Forecasting Based on Conditional Random Forests (조건부 랜덤 포레스트 기반의 설명 가능한 일사량 예측)

  • Moon, Jihoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.323-326
    • /
    • 2020
  • 태양광 발전은 이산화탄소 배출로 인한 기후 변화에 대응하는 주요 수단으로 인식되어 수요와 필요성이 급격하게 증가하고 있다. 최적의 태양광 발전 시스템의 운영을 위해서는 정교한 전력수요 및 태양광 발전량 예측 모델이 요구되며, 온도 및 일사량은 태양광 발전량 예측 모델의 필수적인 입력 변수이다. 하지만, 한국 기상청의 동네예보는 일사량에 관한 예측값을 제공하지 않아 정교한 태양광 발전량 예측 모델을 구축하는 것은 어렵다. 이를 위해 일사량 예측 기법에 관한 많은 연구사례가 보고되고 있지만, 다수의 연구들은 충분한 데이터 셋을 이용하여 일사량 예측 모델을 개발하였다. 초기 태양광 발전 시스템 운영을 위해서는 불충분한 데이터 셋을 이용한 예측 모델 개발이 필요하나 이에 대한 사례는 불충분하다. 본 논문은 실제 태양광 발전 시스템에서 수집된 불충분한 데이터 셋을 이용한 단기 일사량 예측 기법을 제안한다. 먼저, 기상청 동네예보의 다양한 기상 요인들을 이용하여 일사량 예측 모델을 위한 입력 변수를 구성한다. 다음으로, 조건부 랜덤 포레스트를 이용하여 일사량 예측 모델을 구성하며, 설명 가능한 일사량 예측뿐만 아니라 더욱더 많은 데이터 셋을 학습하기 위해 시계열 교차검증을 수행한다. 실험 결과, 제안한 기법은 다른 예측 기법들보다 높은 예측 정확도를 보일 뿐만 아니라 설명 가능한 예측 결과를 제시할 수 있음을 보여준다.

The State of the Art in Visualizing Large Graph Data (대용량 그래프 데이터를 효율적으로 시각화하는 방법에 대한 최신 연구 조사)

  • Kwak, Useok;Na, In-Ju;Kim, Hyeonji;Lee, Kyeong-Jun;Seo, In;Han, Wook-Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.802-803
    • /
    • 2017
  • 소셜 네트워크, 웹 시멘틱, 협력 네트워크 등과 같이 다양한 응용에서 대용량 그래프 데이터를 이용한다. 최근 이러한 데이터를 분석하기 위해 대용량 그래프 데이터를 효율적으로 시각화 하는 연구가 제안되었다. 이에 본 연구에서는 대용량 그래프 데이터를 효율적으로 시각화 하는 방법에 대한 최신 연구 동향을 조사한다.

Design and Performance Analysis of an Active QoS Allocation Scheme for large File Transfer (대용량 파일 전송을 위한 능동적인 QoS 제공 방안의 설계 및 성능분석)

  • 김국한;이만희;변옥환;유인태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.283-285
    • /
    • 2003
  • 슈퍼컴퓨터 사용자들은 FTP(File Transfer Protocol)을 이용해서 대용량의 파일을 전송한다. 전송되는 데이터들은 승용차나 비행기 설계, 의약품 개발. 기상 예보 그리고 복잡한 수학적 계산 등과 같이 다양한 분야에 걸친 연구관련 데이터로서 고성능 슈퍼컴퓨터에 의한 연산 처리가 요구된다 기존의 FTP 는 네트워크 상태에 따라 전송 지연이나 데이터 손실 등의 문제로 사용자의 불편을 초래하였다. 이에 전송 성능을 효율적으로 높이고 데이터 손실을 최소화를 제공하는 연구가 필요하다. 근래의 TCP (Transmission Control Protocol) 성능 향상 연구에 관한 연구들의 관심은 크게 두 가지이다. 하나는 윈도우 사이즈 조절(auto-tuning)이고, 다른 하나는 Multi-stream 이다. 본 연구에서는 파일 전송 성능 향상을 위한 방법으로 윈도우 사이즈 조절 방법을 사용하였고, 네트워크 상태에 따라 QoS(quality of Service)를 제공한다. 이런 성능 향상 결과로 신뢰성 있는 네트워크를 제공하여 사용자들은 신속하게 데이터를 전송하며 연산처리 결과가 더욱 정확하다고 신뢰할 수 있다. 본 고에서는 대용량 파일을 전송 할 때 성능을 향상시키는 관련 연구를 알아보고 대용량 파일 전송 중 네트워크 상태에 따라 005를 능동적으로 작용하여 테스트하고 성능을 분석하였다.

  • PDF

A Method for Distributed Database Processing with Optimized Communication Cost in Dataflow model (데이터플로우 모델에서 통신비용 최적화를 이용한 분산 데이터베이스 처리 방법)

  • Jun, Byung-Uk
    • Journal of Internet Computing and Services
    • /
    • v.8 no.1
    • /
    • pp.133-142
    • /
    • 2007
  • Large database processing is one of the most important technique in the information society, Since most large database is regionally distributed, the distributed database processing has been brought into relief. Communications and data compressions are the basic technologies for large database processing. In order to maximize those technologies, the execution time for the task, the size of data, and communication time between processors should be considered. In this paper, the dataflow scheme and vertically layered allocation algorithm have been used to optimize the distributed large database processing. The basic concept of this method is rearrangement of processes considering the communication time between processors. The paper also introduces measurement model of the execution time, the size of output data, and the communication time in order to implement the proposed scheme.

  • PDF

A Study on Solutions for TCP Incast Problem (TCP Incast 문제 해결방안에 관한 연구)

  • Um, Jin-Yeong;Seok, Min-Su;Choi, Tae-Hwan;Ahn, Jong-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.64-66
    • /
    • 2016
  • 대규모 데이터 센터는 클라우드 컴퓨팅을 가능하게 하고, 빅데이터 처리를 위해 널리 쓰이는 HDFS 혹은 MapReduce, Dryad와 같은 프레임워크는 분산 처리 환경에서 운영하는 것을 기반으로 설계되어 있어 일대일이 아닌 다대일 통신이 빈번히 발생한다. TCP Incast 문제는 다대일 통신에서 발생하는 문제로 단일 상위 서버에서 다수의 하위 서버로 일을 요청할 때, 요청된 결과가 단일 상위 서버로 동시에 응답할 때 발생한다. 기존의 분산 처리 환경에서는 작은 데이터를 처리하기 때문에 단일 상위 서버에서의 데이터 처리 부담이 적었다. 하지만 빅데이터를 처리하는 분산 처리 환경에서는 블록 단위의 큰 데이터를 처리하므로 데이터 처리 시간에 민감한 메시지 데이터에서 지연이 발생할 수 있다. 본 논문에서는 급격한 처리량 붕괴를 일으킬 수 있는 TCP Incast 문제 완화 알고리즘에 대하여 기술한다.

Design of Management System for Multiresolution Image Data (다해상도용 영상 데이터 관리 시스템 설계)

  • 김성재;조승호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.49-53
    • /
    • 2002
  • 본 논문은 광학 현미경으로 관찰된 데이터들을 분산 시스템이나 병렬 시스템에 구현한 소프트웨어 시스템의 설계에 대한 것으로, 이 시스템이 처리하는 데이터들이 대용량이라는 특성과 함께 다중 해상도의 특성을 갖는다. 본 시스템은 고객/서버 모델을 기반으로 하였으며, 대용량 데이터 처리시 성능에 중요한 디스크 입출력의 대역폭을 높이기 위해 힐버트 곡선 기반의 분산 알고리즘을 적용하였다. 서버부는 조정자 노드와 서비스 노드로 구성되며, 시스템의 제 구성 요소들간에는 정해진 통신 규약에 따라 메시지를 주고 받고, 상호 독립적이다. 이 시스템은 의학 교육, 원격 병리, 가상 학술 회의 등에 응용될 때 활용 가치가 높을 것으로 기대된다.

  • PDF