• Title/Summary/Keyword: 데이터 처리량

Search Result 2,581, Processing Time 0.037 seconds

Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster (비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가)

  • Jang, Yong-Il;Lee, Chung-Ho;Lee, Jae-Dong;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF

Data Processing Method for Real-time Safety Supervision System in Railway (실시간 철도안전 관제를 위한 데이터 처리 방안 연구)

  • Shin, Kwang-Ho;Jung, Hye-Ran;Ahn, Jin
    • Journal of the Korean Society for Railway
    • /
    • v.19 no.4
    • /
    • pp.445-455
    • /
    • 2016
  • A goal of the Real-time railway safety supervision system is to improve the safety oversight efficiency and to prevent accidents by integrating existing distributed monitoring systems, train, signal, power and facilities. So, the system require better performance regarding real-time processing based on big data. The disk-based database that is used in existing railway control systems has a problem with real-time processing; memory-based databases haves a limitation in terms of big-data processing; and time series databases haves a limitation in terms of real-time processing. So, we need a new database architecture for simultaneous real-time processing based on big data. In this study, we review the existing railway monitoring systems and propose a new database architecture for a real-time railway safety supervision system.

A Design of the Small File Grouping System Based on Naive Bayesian Classifier Model (나이브 베이지안 분류기 모델 기반의 소용량 파일 그룹화 시스템 설계)

  • Kim, Min-Jae;Kim, Kyung-Tae;Youn, Hee-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.221-222
    • /
    • 2014
  • 빠른 웹의 성장으로 대용량 데이터를 효과적으로 처리할 수 있는 플랫폼 기술에 대한 관심이 높아지고 있다. 특히, HDFS는 이상적인 분산 파일 시스템으로 각광받고 있으며 대용량 파일의 처리를 목적으로 개발되었다. 하지만, 실제 파일들의 집합에서 소용량 파일이 차지하는 비중은 높은 편이다. 많은 수의 소용량 파일은 HDFS 성능 감소에 치명적인 원인이 된다. 많은 수의 소용량 파일들이 HDFS에 저장된다면 NameNode의 메모리 소비량이 증가하게 되며 많은 수의 소용량 파일은 많은 수의 DataNode와 NameNode를 요구하므로 상대적으로 처리시간이 많이 소모된다. 따라서 본 논문에서는 HDFS에서 소용량 파일의 저장과 액세스 효율성을 향상시키기 위하여 나이브 베이지안 분류기 알고리즘을 적용한 파일 그룹화 시스템을 설계하였다.

  • PDF

Call Control Protocol for Communication Processing Nodes (통신처리 노드의 호접속 제어 프로토콜)

  • 유재호;양미정
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1998.11a
    • /
    • pp.286-289
    • /
    • 1998
  • 대용량 통신처리시스템은 정보이용자들과 정보제공센타들이 접속하는 이종망들의 연동을 통해 정보 서비스를 제공하고 있다. 이때 사용자 레벨의 서비스를 지원하기 위해서는 정보이용자와 정보제공센타간에 가상 경로를 제공해야 한다. 본 논문에서는 이더넷 백본 스위칭 기반의 대용량 통신처리 시스템 (AICPS+)에서 사용자 레벨의 가상회선을 제공하기 위한 통신처리 노드의 호접속 제어 프로토콜을 설명한다. 이 프로토콜에 의해 설정되는 가상회선을 통하여 정보이용자와 정보 제공센터들간에 데이터들이 투명하게 전달된다.

  • PDF

A Study on File Search Engine Based on DBMS (DBMS을 활용한 파일 검색엔진 연구)

  • Kim, HyoungSeuk;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.548-551
    • /
    • 2016
  • 기존 그리드 기반의 전통적인 RDBMS는 비구조적 데이터에 대한 색인이 지원되지 않았다. 이러한 제약 조건들로 인해 파일 문서 및 비 구조화된 데이터의 검색 엔진으로는 부적합하였다. 최근에 다양한 검색 오픈소스(Solr, Lucene)등으로 검색 엔진이 개발되어 활용되고 있지만, 검색한 결과와 기존 데이터의 연동이 쉽지 않고 구조 변경이 어려우며, 사용자의 다양한 요구 사항 수용이 쉽지 않은 단점을 가지고 있다. 따라서 본 연구에서는 빠른 검색을 위한 색인 (index) 최적화와 대용량 데이터 처리를 위한 파티션 기반 데이터의 분할 및 정복 (divide and conquer) 처리, 이중화된 검색어 색인 기능을 구현하였다. 또한 동의어 사전을 구축하여 연관 관계 분석이 가능하도록 DB를 구축하여 검색어와 동의어의 상호 관계성을 유지하였으며 오픈 소스보다 발전한 형태의 검색 엔진을 개발하는 것을 목표로 하였다. 본 연구를 위해 약 400만건 이상의 다양한 포맷 (Ms-office, Hwp, Pdf, Text)등의 파일 문서를 샘플로 실험을 진행하였다.

A performance comparison for Apache Spark platform on environment of limited memory (제한된 메모리 환경에서의 아파치 스파크 성능 비교)

  • Song, Jun-Seok;Kim, Sang-Young;Lee, Jung-June;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.67-68
    • /
    • 2016
  • 최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 다양한 분산 시스템 플랫폼이 등장하고 있다. 그 중 아파치 스파크(Apache Spark)는 하둡 플랫폼의 속도저하 단점을 보완하기 위해 인 메모리 처리를 지원하여 대용량 데이터를 효율적으로 처리하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만, 아파치 스파크의 작업은 메모리에 의존적이므로 제한된 메모리 환경에서 전체 작업 성능은 급격히 낮아진다. 본 논문에서는 메모리 용량에 따른 아파치 스파크 성능 비교를 통해 아파치 스파크 동작을 위해 필요한 적정 메모리 용량을 확인한다.

  • PDF

Process-level integration method for performance improvement of large scaled batch data processing in EAI environment (EAI에서 대용량 배치 데이터의 통합 성능 향상을 위한 Process-level 방식)

  • Kim Yonghee;Kwon Juhum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.19-22
    • /
    • 2004
  • 분산 시스템 환경에서 여러 시스템에 정보를 전송하기 위한 방법으로 최근 EAI 의 DB Trigger 및 Redo Log 등을 이용한 실시간 데이터 통합 방식을 적용해 왔다. 그러나 기업에서 순차적인 배치 프로세스들을 통해 처리하는 대량의 데이터에 대해 기존의 EAI 의 데이터 통합 방식을 사용할 경우 모든 변경 건수에 대해 이벤트가 발생하여 Source 시스템의 부하 및 통합 성능상의 문제점이 있다. 본 논문에서는 순차적인 배치 프로세스들을 EAI 의 프로세스 레벨 통합을 적용하여 최종 변경된 데이터에 대해서만 통합하도록 하여 통합 처리 시간을 단축할 수 있는 방법을 제시하고자 한다.

  • PDF

BenchGAD: An Integrated Testing Framework for GPU Accelerated Data-intensive Systems (BenchGAD: GPU 기반 데이터 집약 시스템의 효과적인 테스팅 프레임워크)

  • Gu, Sang-Un;Choi, Byeong-wook;Suh, Young-Kyoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.317-319
    • /
    • 2018
  • 최근 발생하는 데이터는 대용량이며, 형태가 다양하고 빠르게 생성되는 특징이 있다. 이러한 데이터는 CPU, 인메모리 기반인 기존의 데이터 처리 시스템에서 처리하는데 많은 시간이 소모된다. 이 문제를 해결하기 위해 GPU 기반 데이터 집약 시스템이 출현하기 시작했다. 하지만, 이러한 시스템의 성능을 종합적으로 측정하는 테스트 결과는 시스템마다 다른 기준으로 제공하고 있다. 이에 따라, 개발자 및 사용자는 성능 병목 현상을 탐색하고 해결하는 데 큰 어려움을 겪을 수 있다. 즉, 이러한 다른 기준으로는 개발자 및 사용자가 시스템의 통합적인 성능 비교 분석을 수행하기 힘들다. 이러한 문제를 해결하기 위해서, 본 논문은 원스탑 테스팅 프레임워크인 BenchGAD 를 제안하고자한다.

Energy big data analysis and classification software based on machine learning (부하별 에너지 빅데이터 분석 소프트웨어 시스템)

  • Kang, Jeonghoon;Yoo, June-Jae;Choi, Hyoseop;Lee, Taewoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.54-55
    • /
    • 2018
  • 본 논문은 지속적으로 수집되는 전력량계 데이터를 자동으로 처리, 분석하기 위한 IoT 데이터 기반 자동분석 기법을 제시한다. 에너지 효율을 높이기 위해서는 대상 설비의 관리, 모니터링을 통해 운영을 최적화해야 한다. IoT 기술을 이용하여 에너지 설비 사용 효율을 확인하고, 관리 여부를 판단하는 진단기술을 구현하기 위해서는, IoT 전력량계를 통해 수집된 데이터를 다양한 머신러닝 알고리즘에 입력하여 관리에 필요한 결과 지표를 도출할 수 있어야 한다. 이런 기능을 제공하는 IoT 수집 시스템의 모니터링 및 자동 진단 시스템은 데이터 수집, 분석을 신속하게 수행할 수 있다. 데이터 수집과 고속, 대용량 데이터 저장에 적합한 분산 파일시스템과 고속 시계열 기능을 기반으로 의존도, 유사도 분석실행을 제공하는 고속 전처리 시스템의 특징을 제안한다.

A Study of Data Preprocessing Algorithm Using TCS/HI-PASS Data (TCS/HI-PASS 데이터를 이용한 전처리 알고리즘 구현에 관한 연구)

  • Jeong, Hyeon-Seok;Oh, Sang-Seok;Min, Sung-Gi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1005-1008
    • /
    • 2011
  • 본 논문에서는 교통 이력자료의 시공간 데이터를 활용하여 교통 분석 및 예측에 필요한 신뢰성 높은 데이터를 제공하기 위한 TCS/HI-PASS 전처리 알고리즘을 제안한다. 시공간 데이터의 전처리 알고리즘은 각종 교통정보에 이용되고 있으며, 그 중 대표적으로 활용되고 있는 것이 차량 검지기(VDS)를 통해 수집된 교통량, 속도, 점유율 정보이다. 이러한 정보에 가공처리 알고리즘을 적용하여 공간평균속도 기반의 통행시간을 산정하고 있으며, 고속도로 통행료 수납시스템(TCS)으로 부터는 출발영업소와 도착영업소의 진 출입시간을 기반으로 평균통행시간을 산정하고 있다. 본 연구에서는 차량 검지기(VDS) 데이터와 기존 TCS 데이터의 전처리 알고리즘을 분석하여 TCS와 HI-PASS 데이터 기반의 개선된 전처리 알고리즘을 설계, 구현하였다.