• Title/Summary/Keyword: 대용량 비정형 데이터

Search Result 56, Processing Time 0.027 seconds

Design and Implementation of Input and Output System for Unstructured Big Data (비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현)

  • Kim, Chang-Su;Shim, Kyu-Chul;Kang, Byoung-Jun;Kim, Kyung-Hwan;Jung, Hoe-Kyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.18 no.2
    • /
    • pp.387-393
    • /
    • 2014
  • In recent years, the spread of computers is increasing, and efficient processing effort for unstructured Big Data is required. In this paper, we are proposed a system to extract the data typed in a word processor quickly by user creating and XML mapping file after converting XML data that has been entered in the office file(HWP, MS-office). In addition, we proposed a system is able to lookup the necessary data from a database by entered form in advance and convert word processor document to office files by the application program. The unstructured big data will be available to be used.

A Design on Informal Big Data Topic Extraction System Based on Spark Framework (Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계)

  • Park, Kiejin
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.521-526
    • /
    • 2016
  • As on-line informal text data have massive in its volume and have unstructured characteristics in nature, there are limitations in applying traditional relational data model technologies for data storage and data analysis jobs. Moreover, using dynamically generating massive social data, social user's real-time reaction analysis tasks is hard to accomplish. In the paper, to capture easily the semantics of massive and informal on-line documents with unsupervised learning mechanism, we design and implement automatic topic extraction systems according to the mass of the words that consists a document. The input data set to the proposed system are generated first, using N-gram algorithm to build multiple words to capture the meaning of the sentences precisely, and Hadoop and Spark (In-memory distributed computing framework) are adopted to run topic model. In the experiment phases, TB level input data are processed for data preprocessing and proposed topic extraction steps are applied. We conclude that the proposed system shows good performance in extracting meaningful topics in time as the intermediate results come from main memories directly instead of an HDD reading.

A Design on a Streaming Big Data Processing System (스트리밍 빅데이터 처리 시스템 설계)

  • Kim, Sungsook;Kim, GyungTae;Park, Kiejin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

Data Input and Output of Unstructured Data of Large Capacity (대용량 비정형 데이터 자료 입력 및 출력)

  • Sim, Kyu-Cheol;Kang, Byung-Jun;Kim, Kyung-Hwan;Jung, Hoe-Kyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.05a
    • /
    • pp.613-615
    • /
    • 2013
  • Request to provide a service to XML word file recently has been increasing. In this paper, it is converted to an XML file data input (HWP, MS-Office) a Word file, stored in a database by extracting data directly input to the word processor user creates an XML mapping file I to provide a system that. This can be retrieved from the database the required data to previously created forms word processor, to generate a Word file from the application program a word processing document.

  • PDF

Analysis of Scalable Triple Repository Architecture for Big Data (대용량 데이터 기반 트리플 저장소 아키텍처 분석)

  • Kim, Tae-Hong;Um, Jung-Ho;Cho, Min-Hee;Choi, Sung-Pil;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.423-425
    • /
    • 2012
  • 비정형데이터의 분석을 위한 다양한 연구가 진행되면서 폭발적인 트리플 데이터 증가가 이루어졌다. 이는 결국 서비스 인프라의 병목현상을 초래하고 있으며, 그 해결책으로서 분산 병렬 아키텍처가 주목받고 있다. 본 논문은 대용량 시맨틱웹 자원을 저장, 적재, 질의 및 추론할 수 있는 트리플 저장소 특성에 가장 적합한 시스템 구조를 선정하기 위해 대용량 처리 능력, 데이터 처리 속도 및 안정성의 측면에서 연합 DBMS와 맵리듀스를 분석하는데 초점을 맞추고 있다. 분석 결과는 대용량 데이터 기반 트리플 저장소의 특성과 아키텍처의 유연성 및 향후 성능 개선 가능성을 판단하는 요소로 활용하여 맵리듀스 방식을 대용량 트리플 저장소에 적합한 방식으로 선정하였다. 본 연구는 대용량 데이터 기반 트리플 저장소 개발의 방향 수립을 위한 기반 연구로서 중요한 가치를 가진다.

Information Retrieval System for Very Large Multimedia Docuement (대용량 멀티미디어 문서를 위한 정보검색 시스템)

  • 진두석;최윤수;안성수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.190-193
    • /
    • 2002
  • 인터넷의 급속한 보급과 함께 멀티미디어 문서의 사용에 대한 사용자의 요구가 증가하고 이에 따라 멀티미디어 문서 정보 검색에 관련된 연구들이 국내외적으로 활발하게 진행되고 있다. 멀티미디어 문서는, 데이터의 양이 방대할 뿐 아니라 데이터가 비정형화되어 있기 때문에 분석이 복잡하며 또한 효율적으로 저장, 검색하기가 매우 어렵다. 그러므로 이를 위해서는 적절한 멀티미디어 자료 저장 구조를 지닌 정보 검색 시스템이 절실히 요구된다. 따라서 본 논문에서는 대용량 멀티미디어 문서에 적합한 저장 구조를 가진 정보검색 시스템을 제안한다.

  • PDF

Data mapping management model between RDBMS and NoSQL for data management (데이터 관리를 위한 RDBMS와 NoSQL간의 데이터 매핑 관리 모델)

  • Jeong, Ha-Na;Kim, Jae-Woong;Park, Koo-Rack;Lee, Yun-Yeol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.89-90
    • /
    • 2021
  • 최근 증가하고 있는 대용량, 비정형 데이터의 처리를 위해 NoSQL의 사용이 증가하고 있다. 하지만 기존의 소프트웨어들은 대부분 RDBMS로 구성되어있고, 저용량 데이터의 경우 RDBMS를 사용하여 관리하는 경우가 많다. 때문에 기존 RDBMS를 사용한 소프트웨어를 대용량 처리에 유리하도록 NoSQL 기반으로 마이그레이션하여 새로운 버전을 개발하고, 각각의 이점을 효율적으로 사용하기 위해 RDBMS와 NoSQL의 혼용하는 사례가 증가하고있다. 본 논문에서는 RDBMS와 NoSQL간의 데이터 매핑 관리 모델을 제안하여 소프트웨어 개발자 또는 데이터 관리자의 효율적 데이터 관리에 도움을 준다.

  • PDF

Design and Implementation of the CIR-Tree Manager on MiDAS-III for Supporting Efficient Content-Based Image Retrieval (MiDAS-III에서 내용기반 이미지 검색을 위한 CIR-트리 관리기의 설계 및 구현)

  • 이희종;송석일;이석희;유재수;조기형;이훈순;이장선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.302-304
    • /
    • 1999
  • 최근 이미지 데이터에 대한 요구가 폭발적으로 증가됨에 따라 대용량 이미지 데이터에 대한 저장과 검색에 관한 연구가 활발히 진행되고 있다. 그러나 이미지 데이터는 기존의 텍스트 데이터에 비해 대용량이라는 특성과 비정형적인 특성을 가지고 있어 신속하고 효율적인 검색에 많은 어려움이 있다. 본 논문에서는 기존에 이미지 검색을 위해 제안된 인덱스 구조중 고차원 특성을 효율적으로 수용하고 저장공간의 이용률과 검색성능이 뛰어난 CIR-트리를 국내에서 개발된 상용 데이터베이스 시스템인 바다의 하부 저장구조인 MiDAS 기반에서 구현한다. CIR-트리 관리기를 갖는 MiDAS-III에서 K-NN 질의 및 범위 질의가 처리될 때 순차검색에 비해 약 60~99%정도의 검색성능이 향상되었다.

  • PDF

A Study on Distributed Processing of Big Data and User Authentication for Human-friendly Robot Service on Smartphone (인간 친화적 로봇 서비스를 위한 대용량 분산 처리 기술 및 사용자 인증에 관한 연구)

  • Choi, Okkyung;Jung, Wooyeol;Lee, Bong Gyou;Moon, Seungbin
    • Journal of Internet Computing and Services
    • /
    • v.15 no.1
    • /
    • pp.55-61
    • /
    • 2014
  • Various human-friendly robot services have been developed and mobile cloud computing is a real time computing service that allows users to rent IT resources what they want over the internet and has become the new-generation computing paradigm of information society. The enterprises and nations are actively underway of the business process using mobile cloud computing and they are aware of need for implementing mobile cloud computing to their business practice, but it has some week points such as authentication services and distributed processing technologies of big data. Sometimes it is difficult to clarify the objective of cloud computing service. In this study, the vulnerability of authentication services on mobile cloud computing is analyzed and mobile cloud computing model is constructed for efficient and safe business process. We will also be able to study how to process and analyze unstructured data in parallel to this model, so that in the future, providing customized information for individuals may be possible using unstructured data.

A Study on Word Cloud Techniques for Analysis of Unstructured Text Data (비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구)

  • Lee, Won-Jo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.6 no.4
    • /
    • pp.715-720
    • /
    • 2020
  • In Big data analysis, text data is mostly unstructured and large-capacity, so analysis was difficult because analysis techniques were not established. Therefore, this study was conducted for the possibility of commercialization through verification of usefulness and problems when applying the big data word cloud technique, one of the text data analysis techniques. In this paper, the limitations and problems of this technique are derived through visualization analysis of the "President UN Speech" using the R program word cloud technique. In addition, by proposing an improved model to solve this problem, an efficient method for practical application of the word cloud technique is proposed.