• 제목/요약/키워드: analysis data

검색결과 85,540건 처리시간 0.078초

도로 침수영역의 탐색을 위한 빅데이터 분석 시스템 연구 (A Study on the Big Data Analysis System for Searching of the Flooded Road Areas)

  • 송영미;김창수
    • 한국멀티미디어학회논문지
    • /
    • 제18권8호
    • /
    • pp.925-934
    • /
    • 2015
  • The frequency of natural disasters because of global warming is gradually increasing, risks of flooding due to typhoon and torrential rain have also increased. Among these causes, the roads are flooded by suddenly torrential rain, and then vehicle and personal injury are happening. In this respect, because of the possibility that immersion of a road may occur in a second, it is necessary to study the rapid data collection and quick response system. Our research proposes a big data analysis system based on the collected information and a variety of system information collection methods for searching flooded road areas by torrential rains. The data related flooded roads are utilized the SNS data, meteorological data and the road link data, etc. And the big data analysis system is implemented the distributed processing system based on the Hadoop platform.

Exploratory Methods for Joint Distribution Valued Data and Their Application

  • Igarashi, Kazuto;Minami, Hiroyuki;Mizuta, Masahiro
    • Communications for Statistical Applications and Methods
    • /
    • 제22권3호
    • /
    • pp.265-276
    • /
    • 2015
  • In this paper, we propose hierarchical cluster analysis and multidimensional scaling for joint distribution valued data. Information technology is increasing the necessity of statistical methods for large and complex data. Symbolic Data Analysis (SDA) is an attractive framework for the data. In SDA, target objects are typically represented by aggregated data. Most methods on SDA deal with objects represented as intervals and histograms. However, those methods cannot consider information among variables including correlation. In addition, objects represented as a joint distribution can contain information among variables. Therefore, we focus on methods for joint distribution valued data. We expanded the two well-known exploratory methods using the dissimilarities adopted Hall Type relative projection index among joint distribution valued data. We show a simulation study and an actual example of proposed methods.

Comparison of Sentiment Analysis from Large Twitter Datasets by Naïve Bayes and Natural Language Processing Methods

  • Back, Bong-Hyun;Ha, Il-Kyu
    • Journal of information and communication convergence engineering
    • /
    • 제17권4호
    • /
    • pp.239-245
    • /
    • 2019
  • Recently, effort to obtain various information from the vast amount of social network services (SNS) big data generated in daily life has expanded. SNS big data comprise sentences classified as unstructured data, which complicates data processing. As the amount of processing increases, a rapid processing technique is required to extract valuable information from SNS big data. We herein propose a system that can extract human sentiment information from vast amounts of SNS unstructured big data using the naïve Bayes algorithm and natural language processing (NLP). Furthermore, we analyze the effectiveness of the proposed method through various experiments. Based on sentiment accuracy analysis, experimental results showed that the machine learning method using the naïve Bayes algorithm afforded a 63.5% accuracy, which was lower than that yielded by the NLP method. However, based on data processing speed analysis, the machine learning method by the naïve Bayes algorithm demonstrated a processing performance that was approximately 5.4 times higher than that by the NLP method.

공학교육인증 프로그램의 효과적인 운영 데이터 관리 방법 (Effective Data Management Method for Operational Data on Accredited Engineering Programs)

  • 한경수
    • 공학교육연구
    • /
    • 제17권5호
    • /
    • pp.51-58
    • /
    • 2014
  • This study proposes an effective data management method for easing the burden on self-study report by analyzing operational data on accredited engineering programs. Four analysis criteria are developed: variability, difficulty level of collecting, urgency of analysis, timeliness. After the operational data are analyzed in terms of the analysis criteria, the data which should be managed in time are extracted according to the analysis results. This study proposes a data management method in which tasks of managing the timely-managed data are performed based on the regular academic schedule, so that the result of this study may be used as a working-level reference material.

Big data-based piping material analysis framework in offshore structure for contract design

  • Oh, Min-Jae;Roh, Myung-Il;Park, Sung-Woo;Chun, Do-Hyun;Myung, Sehyun
    • Ocean Systems Engineering
    • /
    • 제9권1호
    • /
    • pp.79-95
    • /
    • 2019
  • The material analysis of an offshore structure is generally conducted in the contract design phase for the price quotation of a new offshore project. This analysis is conducted manually by an engineer, which is time-consuming and can lead to inaccurate results, because the data size from previous projects is too large, and there are so many materials to consider. In this study, the piping materials in an offshore structure are analyzed for contract design using a big data framework. The big data technologies used include HDFS (Hadoop Distributed File System) for data saving, Hive and HBase for the database to handle the saved data, Spark and Kylin for data processing, and Zeppelin for user interface and visualization. The analyzed results show that the proposed big data framework can reduce the efforts put toward contract design in the estimation of the piping material cost.

효율적 구조 학습 알고리즘과 데이타 차원축소를 통한 베이지안망 기반의 마이크로어레이 데이타 분석법 (A Method for Microarray Data Analysis based on Bayesian Networks using an Efficient Structural learning Algorithm and Data Dimensionality Reduction)

  • 황규백;장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.775-784
    • /
    • 2002
  • DNA chip 기술에 의해 얻어지는 마이크로어레이(microarray) 데이타는 세포나 조직 내의 수천 개 유전자의 발현도(expression level)를 한번에 측정한 것으로, 유전자 발현 양상에 기반한 암의 진단, 유전자의 기능 예측 등에 이용되고 있다. 다양한 데이타 분석 기법들 중 베이지안망(Bayesian network)은 데이타의 각 속성들간의 관계를 그래프 형태로 표현할 수 있는 특징을 가지고 있다. 이는 마이크로어레이 데이타의 분석을 통해 여러 유전자와 조직의 특성(암의 종류 등) 사이의 관계를 밝히는데 유용하다 하지만 대부분의 마이크로어레이 데이타는 sparse data로 베이지안망을 비롯한 각종 분석 기법의 적용을 어렵게 하고 있다. 본 논문에서는 베이지안망에 기반한 마이크로어레이 데이타 분석을 위해 효율적 구조 학습 알고리즘과 데이타 차원 축소를 이용한다. 제시되는 분석법은 실제 마이크로어레이 데이타인 NC160 data set에 적용되었으며, 그 유용성은 데이타로부터 학습된 베이지안망이 실제 생물학적으로 알려진 사실들을 어느 정도 정확하게 표현하는지에 의해 평가되었다.

기온과 강수량의 수치모델 격자자료를 이용한 기상관측지점의 월별 군집화 (Cluster analysis by month for meteorological stations using a gridded data of numerical model with temperatures and precipitation)

  • 김희경;김광섭;이재원;이영섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1133-1144
    • /
    • 2017
  • 기상자료를 이용한 군집분석은 기상 특성에 근거한 기상 지역의 세분화를 가능하게 하고 군집을 이루는 지형별 기상 특성의 파악을 용이하게 한다. 이때 기상관측자료를 이용한 군집분석은 관측지점의 밀도가 다르기 때문에 우리나라의 기상특성이 고르게 반영되지 못할 수 있다. 반면 수치모델 격자자료는 $5km{\times}5km$ 간격으로 조밀하고 고른 자료의 생산이 가능하므로 우리나라의 기상 특성을 고르게 반영할 수 있다. 본 연구에서는 기온과 강수량의 수치모델 격자자료를 이용하여 군집분석을 수행하고, 그 결과를 바탕으로 기상관측지점에 대한 군집을 결정하였다. 기상 특성이 월별로 상이할 수 있기 때문에 군집분석은 월별로 수행하였으며, K-Means 군집분석 방법의 단점을 보완하고자 계층적 군집분석 방법인 Ward 방법과 결합하여 적용하였다. 그 결과 우리나라 기상관측지점들에 대해 시 공간적으로 세분화된 군집화가 이루어졌다.

중소중견 제조기업을 위한 공정 및 품질데이터 통합형 분석 플랫폼 (Process and Quality Data Integrated Analysis Platform for Manufacturing SMEs)

  • 최혜민;안세환;이동형;조용주
    • 산업경영시스템학회지
    • /
    • 제41권3호
    • /
    • pp.176-185
    • /
    • 2018
  • With the recent development of manufacturing technology and the diversification of consumer needs, not only the process and quality control of production have become more complicated but also the kinds of information that manufacturing facilities provide the user about process have been diversified. Therefore the importance of big data analysis also has been raised. However, most small and medium enterprises (SMEs) lack the systematic infrastructure of big data management and analysis. In particular, due to the nature of domestic manufacturing companies that rely on foreign manufacturers for most of their manufacturing facilities, the need for their own data analysis and manufacturing support applications is increasing and research has been conducted in Korea. This study proposes integrated analysis platform for process and quality analysis, considering manufacturing big data database (DB) and data characteristics. The platform is implemented in two versions, Web and C/S, to enhance accessibility which perform template based quality analysis and real-time monitoring. The user can upload data from their local PC or DB and run analysis by combining single analysis module in template in a way they want since the platform is not optimized for a particular manufacturing process. Also Java and R are used as the development language for ease of system supplementation. It is expected that the platform will be available at a low price and evolve the ability of quality analysis in SMEs.

시계열 네트워크분석을 통한 데이터품질 연구경향 및 산업연관 분석 (Trend of Research and Industry-Related Analysis in Data Quality Using Time Series Network Analysis)

  • 장경애;이광석;김우제
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.295-306
    • /
    • 2016
  • 본 연구는 데이터품질과 관련된 선행연구의 메타정보를 활용하여 연구경향을 분석하고 이를 통해서 산업계의 흐름을 예측하기 위한 목적의 연구이다. 다양한 분야에서 연구경향을 분석하려는 시도는 이어져 왔으나, 데이터품질 영역은 그 범위가 방대하여 선행 연구자료에 대한 분석을 수행하기 어려웠다. 본 연구는 Web of Science 색인DB에 수록된 최근 10년간의 연구 메타데이터를 수집하여 텍스트 마이닝, 사회연결망 분석기법을 활용한 시계열 네트워크 분석을 수행하였다. 연구주제 분석 결과, 수학 및 전산 생물학, 화학, 건강관리 과학 및 서비스, 생화학 및 분자 생물학, 운영 연구 및 경영 과학, 의료정보학은 연구비율이 감소하고 있었고, 환경, 수자원, 지질학, 계측기 및 계측의 연구비율은 증가하고 있었다. 또한 사회연결망 분석 결과 데이터품질 연구에서는 분석, 알고리즘, 네트워크의 주제가 중앙성이 높은 중요한 주제로 나타났으며, 이미지와 모델, 센서, 최적화가 데이터품질에서 중요한 주제로 등장하는 추세를 보였다. 데이터품질의 산업과 연관관계 분석 결과는 기술, 산업, 건강, 유틸리티, 고객서비스가 연관성이 높은 산업으로 나타났다. 본 연구의 결과는 데이터품질 연구의 패턴을 분석하고 산업과 연관관계를 찾는 데이터품질 관련 연구자 뿐아니라 산업계에도 유용한 자료로 활용되리라 판단된다.

Program Development of Genetic Analysis for Diallel Cross Experiment

  • Kim, Seo Young;Bae, Jong Sung
    • Communications for Statistical Applications and Methods
    • /
    • 제9권3호
    • /
    • pp.675-682
    • /
    • 2002
  • In this study, we develop the statistical analysis program for genetic analysis of diallel crosses data by SAS/MACRO, SAS/IML. Genetic analysis is to estimate of genetics parameters and heredity with reciprocal cross and without reciprocal cross. Statistical analysis program solve the problem of the difficulties on the data analysis in field denetics and breeding Therefore the user whoever want to analysis of data on genetics and breeding easily conduct the work saving time and suffering.