• Title/Summary/Keyword: 데이터 처리량

Search Result 2,565, Processing Time 0.032 seconds

Data Processing Architecture for Cloud and Big Data Services in Terms of Cost Saving (비용절감 측면에서 클라우드, 빅데이터 서비스를 위한 대용량 데이터 처리 아키텍쳐)

  • Lee, Byoung-Yup;Park, Jae-Yeol;Yoo, Jae-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.5
    • /
    • pp.570-581
    • /
    • 2015
  • In recent years, many institutions predict that cloud services and big data will be popular IT trends in the near future. A number of leading IT vendors are focusing on practical solutions and services for cloud and big data. In addition, cloud has the advantage of unrestricted in selecting resources for business model based on a variety of internet-based technologies which is the reason that provisioning and virtualization technologies for active resource expansion has been attracting attention as a leading technology above all the other technologies. Big data took data prediction model to another level by providing the base for the analysis of unstructured data that could not have been analyzed in the past. Since what cloud services and big data have in common is the services and analysis based on mass amount of data, efficient operation and designing of mass data has become a critical issue from the early stage of development. Thus, in this paper, I would like to establish data processing architecture based on technological requirements of mass data for cloud and big data services. Particularly, I would like to introduce requirements that must be met in order for distributed file system to engage in cloud computing, and efficient compression technology requirements of mass data for big data and cloud computing in terms of cost-saving, as well as technological requirements of open-source-based system such as Hadoop eco system distributed file system and memory database that are available in cloud computing.

Dataset Property - based Algebraic Operators for Data Mining Preprocessing (데이터집합 특성에 기반한 데이터 마이닝 전처리 대수 연산자)

  • Kim, Hyo-Sook;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1709-1712
    • /
    • 2002
  • 지식 탐사 연구의 핵심이 되어온 데이터 마이닝은 축적 데이터로부터 쉽게 추출되지 않는 데이터 상호관계나 일정 패턴과 같은 유용한 내재 정보 추출을 주된 목적으로 수행된다. 그러나, 데이터 마이닝은 대용량의 데이터 처리로 인해 빈번한 메모리 공간 제약과 처리 속도 저하 등의 한계성을 드러낸다. 이를 극복하기 위해 많은 마이닝 알고리즘 개발과 기존 알고리즘 개선 방법이 제시되어 왔으나 여전히 궁극적인 해결방안은 대두되지 않고 있다. 따라서, 만약 데이터 전처리 과정을 통해 마이닝 목적에 적합한 부분 데이터집합 추출 및 가공이 선행된다면 보다 효율적인 데이터 마이닝 작업을 유도할 수 있을 것이다. 본 논문은 효과적 데이터 전처리를 위한 필수 기본 연산 기능들을 주어진 데이터집합의 트랜잭션 및 데이터 특성에 기초하여 관계형 대수 형태로 의미를 정립하고, 적용 사례에 의한 상세 설명 및 실제 구현된 온라인 데이터 전처리 시스템을 제안한다.

  • PDF

A New Method for Processing Queries in Data Warehouse Environment (데이터 웨어하우징 환경에서 질의 처리를 위한 새로운 기법)

  • 김윤호;김진호;감상욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.121-123
    • /
    • 2001
  • 대용량의 데이터가 저장되는 데이터 웨어하우징 환경에서는 조인이나 집계 함수와 같은 고비용의 연산의 효율적인 처리는 매우 중요하다. 본 논문에서는 집계 함수(aggregate function)와 조인이 모두 포함된 질의를 처리하는 새로운 기법을 제안한다. 제안하는 기법은 먼저 차원 테이블(dimension table)을 미리 그룹핑한 후, 비트맵 조인 인덱스(bitmap join index)를 이용하여 조인을 처리하는 방식을 사용한다. 이 결과, 사실 테이블만을 접근하여 집계 함수를 처리함으로써 기존 기법이 가지는 성능 저하의 문제점을 해결할 수 있다. 기존 기법과 제안하는 기법에 대한 비용 모델(cost model)을 정립하고, 이를 기반으로 시뮬레이션을 수행함으로써 제안된 기법의 우수성을 규명한다.

  • PDF

Distributed In-Memory based Large Scale RDFS Reasoning and Query Processing Engine for the Population of Temporal/Spatial Information of Media Ontology (미디어 온톨로지의 시공간 정보 확장을 위한 분산 인메모리 기반의 대용량 RDFS 추론 및 질의 처리 엔진)

  • Lee, Wan-Gon;Lee, Nam-Gee;Jeon, MyungJoong;Park, Young-Tack
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.963-973
    • /
    • 2016
  • Providing a semantic knowledge system using media ontologies requires not only conventional axiom reasoning but also knowledge extension based on various types of reasoning. In particular, spatio-temporal information can be used in a variety of artificial intelligence applications and the importance of spatio-temporal reasoning and expression is continuously increasing. In this paper, we append the LOD data related to the public address system to large-scale media ontologies in order to utilize spatial inference in reasoning. We propose an RDFS/Spatial inference system by utilizing distributed memory-based framework for reasoning about large-scale ontologies annotated with spatial information. In addition, we describe a distributed spatio-temporal SPARQL parallel query processing method designed for large scale ontology data annotated with spatio-temporal information. In order to evaluate the performance of our system, we conducted experiments using LUBM and BSBM data sets for ontology reasoning and query processing benchmark.

A Study on AXIS Tool for Radar signal Processing (AXIS Tool을 활용한 신호처리개발에 관한 연구)

  • Kim, Do-Hoon;Chung, Kihyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1415-1417
    • /
    • 2012
  • 레이더 시스템에서 신호처리에 대한 연산 량 및 데이터의 전송 용량은 시스템 개발 시, 성능과 구성을 결정하는 주요 요소다. 이런 요소에 대한 정확한 사전 예측은 시스템 전체 성능 및 개발 기간과 연구비용에 영향 끼친다. 레이더 신호처리에 대한 정확한 연산 량 및 데이터 전송 량의 예측은 개발 전문가의 경험과 COTS 보드의 성능으로 결정된다. 이런 예측을 보다 정확하게, 보편적으로 하기 위해서 시뮬레이션을 이용하는데, 그 중 하나인 AXIS Development Tool은 개발자에게 편리성과 효율성을 제공한다. 이 시뮬레이션 기능은 개발 보드와의 동일 환경을 제공함으로 개발의 시간을 단축시키고, 사용자의 편리한 GUI 환경을 제공함으로 개발의 유연성을 제공해 개발 성능에 대한 예측이 정확하여 안정적 개발을 보장한다.

Dynamic image transmission mode change mechanism according to the data usage in social networking services (소셜 네트워킹 서비스에서 데이터 사용량에 따른 동적 이미지 전송 모드 변경 메카니즘)

  • Hwang, Gilsoo;Lim, Mingyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.352-355
    • /
    • 2016
  • 스마트폰의 대중화, 카메라 기술력의 향상 등으로 인해 소셜 네트워킹 서비스 내에서는 고화질 이미지 콘텐츠에 대한 수요가 증가하고 있다. 하지만 모바일 기반의 서비스에서는 데이터 소비라는 이슈와 직면하게 되고, 이에 본 연구는 통신 프레임워크를 통해 세 가지 이미지 전송모드를 제공함으로써 데이터 사용량에 따른 동적 이미지 전송모드 변경 방법을 고안하게 되었다. 정해준 기준 값과 데이터 잔여량을 비교함으로써, 원본이미지, 썸네일 이미지, 파일링크의 세 가지 전송모드 중 적절한 모드를 선택하도록 하였다. 이에 사용자는 충분한 데이터를 가지고 있을 시 고화질의 이미지 콘텐츠를 제공 받을 수 있으며, 데이터 잔여량이 얼마 남지 않았을 때는 데이터 소비를 최소화함으로써 데이터 고갈을 예방할 수 있게 된다.

Data mapping management model between RDBMS and NoSQL for data management (데이터 관리를 위한 RDBMS와 NoSQL간의 데이터 매핑 관리 모델)

  • Jeong, Ha-Na;Kim, Jae-Woong;Park, Koo-Rack;Lee, Yun-Yeol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.89-90
    • /
    • 2021
  • 최근 증가하고 있는 대용량, 비정형 데이터의 처리를 위해 NoSQL의 사용이 증가하고 있다. 하지만 기존의 소프트웨어들은 대부분 RDBMS로 구성되어있고, 저용량 데이터의 경우 RDBMS를 사용하여 관리하는 경우가 많다. 때문에 기존 RDBMS를 사용한 소프트웨어를 대용량 처리에 유리하도록 NoSQL 기반으로 마이그레이션하여 새로운 버전을 개발하고, 각각의 이점을 효율적으로 사용하기 위해 RDBMS와 NoSQL의 혼용하는 사례가 증가하고있다. 본 논문에서는 RDBMS와 NoSQL간의 데이터 매핑 관리 모델을 제안하여 소프트웨어 개발자 또는 데이터 관리자의 효율적 데이터 관리에 도움을 준다.

  • PDF

A Method Processing Missing Values for Data Mining based on Artificial Neural Network (데이터 마이닝을 위한 신경망 이용 결측 값 처리 방법)

  • 성지애;류정우;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.446-448
    • /
    • 2003
  • 실세계의 많은 데이터는 결측 값들을 포항하고 있기 때문에 데이터 마이닝 시스템에 완벽한 데이터를 제공하기는 불가능하다. 또한 결측 값이 존재하는 대용량의 데이터를 추천시스템에 적용하여 분석하고자 할 경우, 정확성이 떨어지는 결과를 초래할 수 있다. 따라서 데이터에 결측 값이 존재할 경우 입력 데이터를 사전에 보간하는 전처리 방법이 필요하다. 이러한 기존의 보간 전처리 방법에는 결측 값 속성을 삭제하거나 대치하는 방범이 대표적이나. 삭제 방법은 결측 값이 존재하는 데이터를 제거하는 방법으로 중요속성 삭제 및 데이터 손실을 유발하는 단점이 있어 일반적으로 결측 값을 다른 값으로 처리하는 대치 방범이 널리 사용된다. 본 논문에서는 전처리 방법 중 결측 값을 처리하는 가장 일반적인 대치 방법과 신경망을 이용한 평가 예측 처리 방법을 소개한다. 또한 신경망을 이용 결측 값을 대치하는 새로운 모델을 제안하고, 각각의 결측 값 처리방법을 비교 분석한다.

  • PDF

Improving Performance based on Processing Analysis of Big data log file (벅데이터 로그파일 처리 분석을 통한 성능 개선 방안)

  • Lee, Jaehan;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.539-541
    • /
    • 2016
  • 최근 빅데이터 분석을 위해 아파치 하둡(Apache Hadoop) 기반 에코시스템(Ecosystern)이 다양하게 활용되고 있다. 본 논문에서는 수집된 로그 데이터를 가공하여 데이터베이스에 로드하는 과정을 효율적으로 처리하기 위한 성능 평가를 수행한다. 이를 기반으로 텍스트 파일의 로그 데이터를 자바 코드로 개발된 프로그램에서 JDBC를 이용하여 오라클(Oracle) 데이터베이스에 삽입(Insert)하는 과정의 성능을 개선하기 위한 방안을 제안한다. 대용량 로그 파일의 효율적인 처리를 위해 하둡 에코시스템을 이용하여 처리 속도를 개선하고, 최근 인메모리(In-Mernory) 처리 방식으로 빠른 처리 속도로 인해 각광받고 있는 아파치 스파크(Apache Spark)를 이용한 처리와의 성능 평가를 수행한다. 이 연구를 통해 최적의 로그데이터 처리 시스템의 구축 방안을 제안한다.

Partial Range Scan For Increased Relational Database System Performance (부분 범위 처리를 통한 관계형 데이터베이스 시스템 성능 향상)

  • Park, Kyung-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.22-25
    • /
    • 2010
  • 관계형 데이터베이스의 데이터와 처리요청이 증가할수록 해당 데이터의 처리속도는 떨어지게 마련이다. 처리해야할 범위가 넓어도 빠른 속도로 결과를 처리할 수 있다면 데이터베이스 시스템의 효용성의 크게 증대될 것이다. 만약 조건에 맞는 데이터가 100만 건이 나왔다고 한다면 굳이 모든 것을 액세스를 한 다음에 그 결과를 출력할 필요는 없기 때문이다. 그러므로 사람의 눈으로 확인할 일부분만 결과를 먼저 제공하고 나머지는 다음 데이터를 원할 때 처리해서 제공하는 방식은 실제로 처리할 데이터는 아주 소량이 되므로 조건 범위와 무관하게 처리량을 크게 줄일 수 있는 장점이 있다. 본 논문에서는, 관계형 데이터베이스 환경에서 부분 범위처리를 통한 성능향상의 개념과 그 분석을 통한 관계형 데이터베이스 성능 향상 모델을 제시한다. 이는 설계에서부터 애플리케이션 개발에 이르기까지 많은 부분에 성능향상을 미치게 될 것으로 보인다.

  • PDF