• 제목/요약/키워드: Large data

검색결과 14,025건 처리시간 0.039초

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법 (A Hybrid Clustering Technique for Processing Large Data)

  • 김만선;이상용
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.33-40
    • /
    • 2003
  • 데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다.

해시 트리 기반의 대규모 데이터 서명 시스템 구현 (Implementation of the Large-scale Data Signature System Using Hash Tree Replication Approach)

  • 박승규
    • 융합보안논문지
    • /
    • 제18권1호
    • /
    • pp.19-31
    • /
    • 2018
  • ICT기술이 발전함에 따라 산업 전분야에 걸쳐 이전보다 훨씬 많은 디지털 데이터들이 생성, 이동, 보관, 활용되고 있다. 산출되는 데이터의 규모가 커지고 이를 활용하는 기술들이 발전함에 따라 대규모 데이터 기반의 신 서비스들이 등장하여 우리의 생활을 편리하게 하고 있으나 반대로 이들 데이터를 위변조 하거나 생성 시간을 변경하는 사이버 범죄 또한 증가하고 있다. 이에 대한 보안을 위해서는 데이터에 대한 무결성 및 시간 검증 기술이 필요한데 대표적인 것이 공개키 기반의 서명 기술이다. 그러나 공개키 기반의 서명 기술의 사용은 인증서와 키 관리 등에 필요한 부가적인 시스템 자원과 인프라 소요가 많아 대규모 데이터 환경에서는 적합하지 않다. 본 연구에서는 해시 함수와 머클 트리를 기반으로 시스템 자원의 소모가 적고, 동시에 대규모 데이터에 대해 서명을 할 수 있는 데이터 서명 기법을 소개하고, 서버 고장 등 장애 상황에서도 보다 안정적인 서비스가 가능하도록 개선한 해시 트리 분산 처리 방법을 제안하였다. 또한, 이 기술을 구현한 시스템을 개발하고 성능분석을 실시하였다. 본 기술은 클라우드, 빅데이터, IoT, 핀테크 등 대량의 데이터가 산출되는 분야에서 데이터 보안을 담보하는 효과적인 기술로써 크게 활용될 수 있다.

  • PDF

Development of the design methodology for large-scale database based on MongoDB

  • Lee, Jun-Ho;Joo, Kyung-Soo
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권11호
    • /
    • pp.57-63
    • /
    • 2017
  • The recent sudden increase of big data has characteristics such as continuous generation of data, large amount, and unstructured format. The existing relational database technologies are inadequate to handle such big data due to the limited processing speed and the significant storage expansion cost. Thus, big data processing technologies, which are normally based on distributed file systems, distributed database management, and parallel processing technologies, have arisen as a core technology to implement big data repositories. In this paper, we propose a design methodology for large-scale database based on MongoDB by extending the information engineering methodology based on E-R data model.

Design of Distributed Cloud System for Managing large-scale Genomic Data

  • Seine Jang;Seok-Jae Moon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권2호
    • /
    • pp.119-126
    • /
    • 2024
  • The volume of genomic data is constantly increasing in various modern industries and research fields. This growth presents new challenges and opportunities in terms of the quantity and diversity of genetic data. In this paper, we propose a distributed cloud system for integrating and managing large-scale gene databases. By introducing a distributed data storage and processing system based on the Hadoop Distributed File System (HDFS), various formats and sizes of genomic data can be efficiently integrated. Furthermore, by leveraging Spark on YARN, efficient management of distributed cloud computing tasks and optimal resource allocation are achieved. This establishes a foundation for the rapid processing and analysis of large-scale genomic data. Additionally, by utilizing BigQuery ML, machine learning models are developed to support genetic search and prediction, enabling researchers to more effectively utilize data. It is expected that this will contribute to driving innovative advancements in genetic research and applications.

대용량 자료 실시간 시각화를 위한 레벨 수준 표현 인터페이스 설계 (Level Scale Interface Design for Real-Time Visualizing Large-Scale Data)

  • 이도훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.105-111
    • /
    • 2008
  • 자료를 시각적으로 표현하는 방법은 입력자료나 출력자료의 형태에 따라 많은 방법들이 제시되었다. 복잡하거나 방대한 자료 또는 정보를 시각적으로 표현하기 위해서 LOD와 같은 방법을 사용하고 특정부분을 지정하여 확대하는 방법을 주로 사용하고 있다. 본 논문에서는 생물정보와 같은 대용량 자료의 동적이고 실시간으로 배율을 표현할 수 있는 레벨수준 표현을 위한 인터페이스 설계 방법을 제안한다. 이는 기존의 LOD나 특정지역의 단순한 확대만을 위한 것이 아니라 동적으로 특정 영역을 축소 또는 확대해야 할 경우 실시간으로 표현할 수 있는 방법이다. 축소 또는 확대영역의 폭을 크게 했다가 어느 시점에서 매우 정교하게 조절할 수 있다. 제안된 방법으로 방대한 유전체 자료를 표현하는데 접목하여 구현하였고 매우 편리함을 보여주었다.

  • PDF

병렬처리를 이용한 효율적인 수량 연관규칙 (Efficient Quantitative Association Rules with Parallel Processing)

  • 이혜정;홍민;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.945-957
    • /
    • 2007
  • 수량 연관규칙은 대량의 데이터베이스에 존재하는 데이터 중 수량적 속성이 강한 데이터를 항목으로 만들어 이진 연관규칙에 적용한다. 만약 중요한 의미를 내포하는 수량 데이터의 정의역 범위가 넓을 경우 정의역을 최소지지도에 만족하는 적정 구간으로 분할하여 빈발구간 항목을 생성하는 작업이 필요하다. 이러한 빈발구간 항목은 어떻게 생성되었느냐에 따라 생성된 규칙의 신뢰도에 큰 영향을 미치게 된다. 따라서 본 논문에서는 빈발구간 항목을 효율적으로 생성하는 방법을 제시한다. 본 논문에서 제안하는 방법은 기존 방법들에 비해 의미가 있는 구간을 분실하지 않고 최소지지도에 근접하는 세밀한 빈발구간을 생성하기 때문에 데이터가 가진 특성의 손실을 최소화할 수 있는 효율적인 방법이다. 또한 병합이 불필요한 곳에서는 병합을 시도하지 않고 빈도가 높은 구간만을 취해 병합하므로 수량의 정의역이 넓을 경우 기존 방법에 비해 실행속도가 월등히 빠른 효율적인 방법이다. 그리고 인구센서스와 같은 실제로 사용되는 데이터를 이용하여 클루닉스 HPC 시스템에서 병렬처리 수행을 통하여 제안 방법이 우수함을 보였다.

  • PDF

Implementation of Hardware RAID and LVM-based Large Volume Storage on Global Data Center System of International GNSS Service

  • Lee, Dae-Kyu;Cho, Sung-Ki;Park, Jong-Uk;Park, Pil-Ho
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.1553-1557
    • /
    • 2005
  • High performance and reliability of the storage system to handle a very large amount of data has been become very important. Many techniques have been applied on the various application systems to establish very large capacity storage that satisfy the requirement of high I/O speed and physical or logical failure protection. We applied RAID and LVM to construct a storage system for the global data center which needs a very reliable large capacity storage system. The storage system is successfully established and equipped on the latest Linux application server.

  • PDF

대규모 센서 네트워크에서 센서 데이터 수집을 위한 효율적인 통신 시스템 설계 및 구현 (Design and Implementation of an Efficient Communication System for Collecting Sensor Data in Large Scale Sensors Networks)

  • 장시웅;김지성
    • 한국정보통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.113-119
    • /
    • 2020
  • 대규모 센서 네트워크에서는 많은 수의 센서로부터 데이터를 수집하고 분석해야 한다. 마이크로 컨트롤러 마다 제어할 수 있는 센서의 수가 제한되어 있는데, 본 논문에서는 많은 수의 센서들을 다수의 마이크로 컨트롤러와 다수의 브릿지 노드를 두어 통신하는 방법을 제시하고, 센서 데이터 수집을 위한 효율적인 통신 시스템을 설계하고 구현하였다. 브릿지 노드는 SPI 통신을 이용하여 여러 마이크로 컨트롤러의 데이터를 종합하고, 종합한 데이터는 무선 TCP/IP 통신을 이용하여 PC서버로 전달하여 센서 데이터를 종합한다. 본 논문에서는 Open H/W인 아두이노 Mini와 ESP8266을 사용하여 통신 시스템을 구성하고 성능을 분석하였다. 성능분석 결과, 700개 이상의 센서로부터 초당 30회 이상의 센싱 데이터를 수집할 수 있다는 결과를 얻었다.

Dog-Species Classification through CycleGAN and Standard Data Augmentation

  • Chan, Park;Nammee, Moon
    • Journal of Information Processing Systems
    • /
    • 제19권1호
    • /
    • pp.67-79
    • /
    • 2023
  • In the image field, data augmentation refers to increasing the amount of data through an editing method such as rotating or cropping a photo. In this study, a generative adversarial network (GAN) image was created using CycleGAN, and various colors of dogs were reflected through data augmentation. In particular, dog data from the Stanford Dogs Dataset and Oxford-IIIT Pet Dataset were used, and 10 breeds of dog, corresponding to 300 images each, were selected. Subsequently, a GAN image was generated using CycleGAN, and four learning groups were established: 2,000 original photos (group I); 2,000 original photos + 1,000 GAN images (group II); 3,000 original photos (group III); and 3,000 original photos + 1,000 GAN images (group IV). The amount of data in each learning group was augmented using existing data augmentation methods such as rotating, cropping, erasing, and distorting. The augmented photo data were used to train the MobileNet_v3_Large, ResNet-152, InceptionResNet_v2, and NASNet_Large frameworks to evaluate the classification accuracy and loss. The top-3 accuracy for each deep neural network model was as follows: MobileNet_v3_Large of 86.4% (group I), 85.4% (group II), 90.4% (group III), and 89.2% (group IV); ResNet-152 of 82.4% (group I), 83.7% (group II), 84.7% (group III), and 84.9% (group IV); InceptionResNet_v2 of 90.7% (group I), 88.4% (group II), 93.3% (group III), and 93.1% (group IV); and NASNet_Large of 85% (group I), 88.1% (group II), 91.8% (group III), and 92% (group IV). The InceptionResNet_v2 model exhibited the highest image classification accuracy, and the NASNet_Large model exhibited the highest increase in the accuracy owing to data augmentation.

데이터의 지역성을 이용한 빈발구간 항목집합 생성방법 (A Method for Generating Large-Interval Itemset using Locality of Data)

  • 박원환;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제4권5호
    • /
    • pp.465-475
    • /
    • 2001
  • 최근에 대용량의 데이터베이스로부터 연관규칙을 발견하고자 하는 연구가 활발하며, 수량항목에도 적용할 수 있도록 이들 방법을 확장하는 연구도 소개되고 있다. 본 논문에서는 수량항목을 이진 항목으로 변환하기 위하여 빈발구간 항목집합을 생성할 때, 수량 항목의 정의 영역 내에서 특정 영역에 집중하여 발생하는 특성인 지역성을 이용하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 세밀도를 판단하여 활용할 수 있는 생성순서 정보도 포함하고 있어, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다. 인구센서스 등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF