• 제목/요약/키워드: Distributed Data Analysis

검색결과 2,340건 처리시간 0.032초

Big Data Platform Based on Hadoop and Application to Weight Estimation of FPSO Topside

  • Kim, Seong-Hoon;Roh, Myung-Il;Kim, Ki-Su;Oh, Min-Jae
    • Journal of Advanced Research in Ocean Engineering
    • /
    • 제3권1호
    • /
    • pp.32-40
    • /
    • 2017
  • Recently, the amount of data to be processed and the complexity thereof have been increasing due to the development of information and communication technology, and industry's interest in such big data is increasing day by day. In the shipbuilding and offshore industry also, there is growing interest in the effective utilization of data, since various and vast amounts of data are being generated in the process of design, production, and operation. In order to effectively utilize big data in the shipbuilding and offshore industry, it is necessary to store and process large amounts of data. In this study, it was considered efficient to apply Hadoop and R, which are mostly used in big data related research. Hadoop is a framework for storing and processing big data. It provides the Hadoop Distributed File System (HDFS) for storing big data, and the MapReduce function for processing. Meanwhile, R provides various data analysis techniques through the language and environment for statistical calculation and graphics. While Hadoop makes it is easy to handle big data, it is difficult to finely process data; and although R has advanced analysis capability, it is difficult to use to process large data. This study proposes a big data platform based on Hadoop for applications in the shipbuilding and offshore industry. The proposed platform includes the existing data of the shipyard, and makes it possible to manage and process the data. To check the applicability of the platform, it is applied to estimate the weights of offshore structure topsides. In this study, we store data of existing FPSOs in Hadoop-based Hortonworks Data Platform (HDP), and perform regression analysis using RHadoop. We evaluate the effectiveness of large data processing by RHadoop by comparing the results of regression analysis and the processing time, with the results of using the conventional weight estimation program.

Web-Enabler: Transformation of Conventional HIMS Data to Semantics Structure Using Hadoop MapReduce

  • Idris, Muhammad;Lee, Sungyoung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.137-139
    • /
    • 2014
  • Objective: Data exchange, interoperability, and access as a service in healthcare information management systems (HIMS) is the basic need to provision health-services. Data existing in various HIMS not only differ in the basic underlying structure but also in data processing systems. Data interoperability can only be achieved when following a common structure or standard which is shareable such as semantics based structures. We propose web-enabler: A Hadoop MapReduce based distributed approach to transform the existing huge variety data in variety formats to a conformed and flexible ontological format that enables easy access to data, sharing, and providing various healthcare services. Results: For proof of concept, we present a case study of general patient record in conventional system to be enabled for analysis on the web by transforming to semantics based structure. Conclusion: This work achieves transformation of stale as well as future data to be web-enabled and easily available for analytics in healthcare systems.

Organizing Lidar Data Based on Octree Structure

  • Wang, Miao;Tseng, Yi-Hsing
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.150-152
    • /
    • 2003
  • Laser scanned lidar data record 3D surface information in detail. Exploring valuable spatial information from lidar data is a prerequisite task for its applications, such as DEM generation and 3D building model reconstruction. However, the inherent spatial information is implicit in the abundant, densely and randomly distributed point cloud. This paper proposes a novel method to organize point cloud data, so that further analysis or feature extraction can proceed based on a well organized data model. The principle of the proposed algorithm is to segment point cloud into 3D planes. A split and merge segmentation based on the octree structure is developed for the implementation. Some practical airborne and ground lidar data are tested for demonstration and discussion. We expect this data organization could provide a stepping stone for extracting spatial information from lidar data.

  • PDF

남한지역 PM10 관측자료의 공간 보간법에 대한 비교 분석 (Comparative analysis of spatial interpolation methods of PM10 observation data in South Korea)

  • 강정혁;이서연;이승재;이재한
    • 한국농림기상학회지
    • /
    • 제24권2호
    • /
    • pp.124-132
    • /
    • 2022
  • 불균일한 미세먼지 관측값으로부터 남한 전체에 대한 공간적 분포를 추정하기 위해서는 적절한 보간 처리가 필수이다. 본 연구에서는 2019년도에 미세먼지 농도가 높았던 1월달과 농도가 낮았던 7월달의 전국의 기상청 및 AirKorea 측정소 자료를 이용하여 IDW, OK, SI, RBF 총 4가지 보간법을 테스트하였다. 각 보간 방법별 세부 인자를 고려한 총 6가지 경우에 대해 보간 처리 및 교차 검증을 진행하였다. 자료 처리속도는 SI, RBF, IDW, OK 순으로 빠르게 나타났다. 교차 검증의 결과, IDW가 상대적으로 제일 낮은 NRMSE 결과를 보였고 OK방법이 가장 큰 NRMSE를 보였다. 이러한 연구의 결과는 사용자가 남한 지역에서 불균일한 미세먼지 관측 자료를 사용하여 전체 수평 공간을 보간할 때 적합한 방법을 단기간에 선택하고 신뢰성과 효과성 있는 분석을 실시하는데 도움이 될 것으로 기대된다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

구간데이터분석을 위한 형식개념분석기반의 분류 (A FCA-based Classification Approach for Analysis of Interval Data)

  • 황석형;김응희
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.19-30
    • /
    • 2012
  • 다양한 정보기기와 소셜네트워크시스템, 그리고, 클라우드컴퓨팅환경 등과 같은 인터넷기반의 인프라를 토대로 분산화되고 공유가능한 데이터가 폭발적으로 증가하고 있다. 최근에는 데이터에 내재되어 있는 유용한 정보와 지식을 추출하고 분석 및 분류하기 위한 데이터분석 및 마이닝기법으로서, 이진데이터 또는 다치데이터에 관한 형식개념분석기법에 관한 연구가 활발하게 진행되어 다양한 분야에서 성공적으로 활용되고 있다. 그러나, 각 속성들이 구간값을 갖는 형태로 이루어진 구간데이터의 분석에 대한 형식개념분석에 관한 연구는 많이 수행되지 못하였다. 본 논문에서는, 구간데이터를 분석하기 위하여 형식개념분석기법을 기반으로 하는 새로운 분류기법을 제안한다. 또한, 구간데이터의 이진화, 개념추출 및 개념계층구조 구축 등, 본 논문에서 제안한 새로운 분류기법을 지원하기 위한 도구(iFCA)의 구축에 관하여 소개하고, 마지막으로, 몇가지 실세계의 데이터를 대상으로 한 실험결과를 토대로, 본 논문에서 제안하는 분류기법의 유용성에 대해서 설명한다.

빅데이터 분석도구 R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수;김동현
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-171
    • /
    • 2020
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 성경 중에서 신약성경의 4복음서의 데이터를 분석한다. 먼저 성경데이터를 수집하고 분석을 위한 필터링을 수행한다. 이후 R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 정확한 데이터의 분석을 위해 한 문장에서 나오는 단어들을 쌍으로 표현하고 단어 간의 관계성을 분석하는 소셜 네트워크 분석을 통해 성경을 분석한다.

FDDI와 프레임 릴레이를 이용한 고속 데이터 통신망 설계 및 구축 (Design and Construction of High Speed Data Communication Network Using FDDI and Frame Realy)

  • 김도현
    • 한국국방경영분석학회지
    • /
    • 제23권2호
    • /
    • pp.171-191
    • /
    • 1997
  • In this paper, we design and construct a high speed LAN(Local Area Network) using FDDI(Fiber Distributed Data Interface) and Frame Relay in order to support our multimedia communication services. A program of this communication network is divided into requirement analysis, design, establishment and test. First, we propose an optimal communication method that compares various network techniques in the requirement analysis phase. Second, we design the physical network configuration, secure method, and address in the LAN and WAN. Finally, we establish and test the communication devices and lines. Ultimately, we minimized mistakes and satisfied user requirements using this program. We constructed efficiently a high speed data communication network using FDDI and Frame Relay.

  • PDF

Climatic Water Balance Analysis using NOAA/AVHRR Satellite Images

  • KWON Hyung J.;KIM Seong J.;SHIN Sha C.
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.7-9
    • /
    • 2004
  • The purpose of this study was to analyze the climatic water balance of the Korean peninsula using meteorological data and the evapotranspiration (ET) derived from NOAA/AVHRR. Quantifying water balance components is important to understand the basic hydrology. In this study, a simple method to estimate the ET was proposed based on a regression approach between NDVI and Morton's actual ET using NOAA/AVHRR data. The Morton's actual ET for land surface conditions was evaluated using a daily meteorological data from 77 weather stations, and the monthly averaged Morton's ETs for each land cover was compared with the monthly NDVIs during the year 2001. According to the climatic water balance analysis, water deficit and surplus distributed maps were created from spatial rainfall, soil moisture, and actual and potential ETs map. The results clearly showed that the temporal and spatial characteristics of dryness and wetness may be detected and mapped based on the wetness index.

  • PDF

원자력 발전소 제어 계통을 위한 통신망의 해석과 사례 연구 (Analysis of a Communication Network for Control Systems in Nuclear Power Plants and a Case Study)

  • 이서우;윤명현;문홍주;신창훈;이병윤
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 하계학술대회 논문집 B
    • /
    • pp.1013-1016
    • /
    • 1999
  • In this paper, a real-time communication method using a PICNET-NP(Plant Instrumentation and Control Network for Nuclear Power plant) is proposed with an analysis of the control network requirements of DCS (Distributed Control System) in nuclear power plants. The method satisfies deadline in case of worst data traffics by considering aperiodic and periodic real-time data and others. In addition, the method was used to analyze the data characteristics of the DCS in existing nuclear power plant. The result shows that use of this method meets the response time requirement(100ms)

  • PDF