• Title/Summary/Keyword: 과학적 데이터 분석 방법론

Search Result 134, Processing Time 0.031 seconds

A Review of the Methodology for Sophisticated Data Classification (정교한 데이터 분류를 위한 방법론의 고찰)

  • Kim, Seung Jae;Kim, Sung Hwan
    • Journal of Integrative Natural Science
    • /
    • v.14 no.1
    • /
    • pp.27-34
    • /
    • 2021
  • 전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

Design Thinking Methodology for Social Innovation using Big Data and Qualitative Research (사회혁신분야에서 근거이론 기반 질적연구와 빅데이터 분석을 활용한 디자인 씽킹 방법론)

  • Park, Sang Hyeok;Oh, Seung Hee;Park, Soon Hwa
    • Asia-Pacific Journal of Business Venturing and Entrepreneurship
    • /
    • v.13 no.4
    • /
    • pp.169-181
    • /
    • 2018
  • Under the constantly intensifying global competition environment, many companies are exploring new business opportunities in the field of social innovation using creating shared value. In seeking social innovation, it is a key starting point of social innovation to clarify the problem to be solved and to grasp the cause of the problem. Among the many problem solving methodologies, design thinking is getting the most attention recently in various fields. Design Thinking is a creative problem solving method which is used as a business innovation tool to empathize with human needs and find out the potential desires that the public does not know, and is actively used as a tool for social innovation to solve social problems. However, one of the difficulties experienced by many of the design thinking project participants is that it is difficult to analyze the observed data efficiently. When analyzing data only offline, it takes a long time to analyze a large amount of data, and it has a limit in processing unstructured data. This makes it difficult to find fundamental problems from the data collected through observation while performing design thinking. The purpose of this study is to integrate qualitative data analysis and quantitative data analysis methods in order to make the data analysis collected at the observation stage of the design thinking project for social innovation more scientific to complement the limit of the design thinking process. The integrated methodology presented in this study is expected to contribute to innovation performance through design thinking by providing practical guidelines and implications for design thinking implementers as a valuable tool for social innovation.

Epistemological Implications of Scientific Reasoning Designed by Preservice Elementary Teachers during Their Simulation Teaching: Evidence-Explanation Continuum Perspective (초등 예비교사가 모의수업 시연에서 구성한 과학적 추론의 인식론적 의미 - 증거-설명 연속선의 관점 -)

  • Maeng, Seungho
    • Journal of Korean Elementary Science Education
    • /
    • v.42 no.1
    • /
    • pp.109-126
    • /
    • 2023
  • In this study, I took the evidence-explanation (E-E) continuum perspective to examine the epistemological implications of scientific reasoning cases designed by preservice elementary teachers during their simulation teaching. The participants were four preservice teachers who conducted simulation instruction on the seasons and high/low air pressure and wind. The selected discourse episodes, which included cases of inductive, deductive, or abductive reasoning, were analyzed for their epistemological implications-specifically, the role played by the reasoning cases in the E-E continuum. The two preservice teachers conducting seasons classes used hypothetical-deductive reasoning when they identified evidence by comparing student-group data and tested a hypothesis by comparing the evidence with the hypothetical statement. However, they did not adopt explicit reasoning for creating the hypothesis or constructing a model from the evidence. The two preservice teachers conducting air pressure and wind classes applied inductive reasoning to find evidence by summarizing the student-group data and adopted linear logic-structured deductive reasoning to construct the final explanation. In teaching similar topics, the preservice teachers showed similar epistemic processes in their scientific reasoning cases. However, the epistemological implications of the instruction were not similar in terms of the E-E continuum. In addition, except in one case, the teachers were neither good at abductive reasoning for creating a hypothesis or an explanatory model, nor good at using reasoning to construct a model from the evidence. The E-E continuum helps in examining the epistemological implications of scientific reasoning and can be an alternative way of transmitting scientific reasoning.

A Study on a Methodology for Developing GIS-based Fisheries Resources Information Systems (GIS 기반 수산자원정보시스템의 개발 방법론에 관한 연구)

  • Park, Hee-Seo;Kim, Hee-Chern
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1155-1158
    • /
    • 2012
  • 환경친화적 수산자원을 조성하고, 어족 자원 생산성을 극대화하기 위해 관련업계에서는 GIS 기반의 수산자원정보시스템을 구축하고 있다. 본 연구에서는 기존의 GIS 기반 정보시스템 개발방법론을 분석하고 수산자원정보시스템의 특성을 고려하여 기존 방법론에서 개선해야 할 사항들을 파악하였다. 연구의 결과로 GIS 데이터의 마이그레이션 작업을 위한 방법을 제시하였으며 실제 프로젝트에 적용하여 그 유용성을 확인하였다.

The impact of the change in the splitting method of decision trees on the prediction power (의사결정나무의 분기법 변화가 예측력에 미치는 영향)

  • Chang, Youngjae
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.4
    • /
    • pp.517-525
    • /
    • 2022
  • In the era of big data, various data mining techniques have been proposed as major analysis methodologies. As complex and diverse data is mass-produced, data mining techniques have attracted attention as a method that forms the foundation of data science. In this paper, we focused on the decision tree, which is frequently used in practice and easy to understand as one of representative data mining methods. Specifically, we analyzed the effect of the splitting method of decision trees on the model performance. We compared the prediction power and structures of decision tree models with different split methods based on various simulated data. The results show that the linear combination split method can improve the prediction accuracy of decision trees in the case of data simulated from nonlinear models with complex structure.

A Study on The Problem in Policy of Korean Resident Registration Number: On Basis of Freedom of Data Provision (현행 주민번호제도의 문제점에 관한 연구: 정보 제공 자유도를 기반으로)

  • Rhee, Hae-kyung
    • Journal of Digital Convergence
    • /
    • v.14 no.11
    • /
    • pp.45-51
    • /
    • 2016
  • Although the problem of personal data leakage is reported to be serious, there has been no research that tries to excavate out that real cause of the leakage in scientific prospective. Although this topic is considered to be crucial, there have been no literatures relevant to the topic, and the reason for this limitation is that scientific approach to this problem was not feasible. In this respect, in this paper a model for such scientific analysis and a methodology of analysis have been devised. Results show that the degree of rigidity turns out be the determinant that vindicates the degree of leakage. The notion of data rigidity is revealed to be very strongly correlated to the number of hacking incidents in each country. The notion of resident data freedom was then deployed in this paper to determine the world-wide ranking for a slew of different countries. The United Kingdom and the Republic of Korea turned out to be the two extreme countries that lie in the spectrum of the scale, with UK the most flexible and ROK one of the most rigid.

A Study on Visualizing Method and Expression for Big Data (빅데이터를 위한 데이터 시각화 방법과 표현 연구 (광주 대중버스노선 이용 실태를 적용한 태블루를 활용한 시각화 표현))

  • Moon, Hee Jeoung
    • Smart Media Journal
    • /
    • v.8 no.1
    • /
    • pp.59-66
    • /
    • 2019
  • The importance of data is increasing at a high rate as data is massively generated and taken into account in various policy supports and contents. However, because of their speed of growth, it is difficult to find the data that is needed. Both the methodological elements that summarize the data and the technical elements of the visualization that help to see at a glance are important. This paper summarizes data visualization methods to improve the currently used design - oriented infographics and propose data - centric infographics. In addition, we will present examples of data analysis and infographics production using Tableau Public. The Gwangju metropolitan city bus user data was used for infographics production, and the results show that the total number of passengers using the stopping point is similar to that of the general passengers, while it is different from the numbers of transit passengers and teen riding-and-transit passengers. Data-centric infographics visualization, unlike existing infographics that is pronounced only as a visual role, is expected to be used as a tool for scientific research as well as efficiently delivering data.

A study on applicability of the digit frequency analysis to Hydrological Data (수문학적 데이터의 자릿수 빈도 분석 적용가능성 연구)

  • Jung Eun Park;Seung Jin Maeng;Kwang Suop Lim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.102-102
    • /
    • 2023
  • 벤포드 법칙(Benford's Law)은 실생활에서 관찰되는 수치 데이터를 첫 자리 숫자에 따라 분류할 때 첫 자리의 숫자가 커질수록 그 분포가 점차 감소되는 현상을 말한다. 이러한 벤포드 법칙은 일반식으로 도출하여 다양한 자릿수로 확장하여 적용할 수 있는 연구결과가 제시되었으며, 회계학, 사회과학, 물리학, 컴퓨터과학, 생물학 등 다방면의 수치 자료에서 그 유효성이 확인되고 있다. 자릿수의 관찰빈도를 분석하는 것만으로 많은 양의 실생활 데이터에서 빠르고 쉽게 데이터 조작여부를 탐지하거나 1차적인 데이터 품질검사에 효과적으로 활용되고 있다. 본 연구에서는 다학제적 연구의 측면에서 수학·물리적 법칙인 벤포드 법칙을 일유량 등 다양한 수문학 측정자료에 적용하여 그 적용가능성을 확인하고 자료의 불균질성과 신뢰성을 빠르게 탐지할 수 있는 방법론을 제시하고자 한다. 수문자료는 공인심의를 통해 자료의 신뢰도를 확보하고 있으나 확정·배포까지 약 2년이 소요되어 활용기간 단축에 대한 사용자 요구가 지속되고 있는 실정이다. 따라서 본 연구에서는 분석대상 데이터의 자릿수 관찰빈도가 벤포드 법칙에 의한 예상자릿수 빈도를 따르는지 여부에 대한 가설을 설정하고 카이제곱 검정 또는 Kolmogorov-Smirnov(K-S) 검정 등을 통해 적합도에 대한 통계적 유의미함을 분석함으로써 대략적으로나마 빠르고 쉽게 측정자료의 신뢰성을 판단할 수 있다. 본 연구는 다양한 학문과의 결합을 통한 새로운 접근을 시도함으로써 빅데이터 시대에 효과적으로 수자원의 개발, 관리 및 운영의 의사결정을 하는데 도움이 될 수 있을 것으로 판단된다.

  • PDF

Data analysis by Integrating statistics and visualization: Visual verification for the prediction model (통계와 시각화를 결합한 데이터 분석: 예측모형 대한 시각화 검증)

  • Mun, Seong Min;Lee, Kyung Won
    • Design Convergence Study
    • /
    • v.15 no.6
    • /
    • pp.195-214
    • /
    • 2016
  • Predictive analysis is based on a probabilistic learning algorithm called pattern recognition or machine learning. Therefore, if users want to extract more information from the data, they are required high statistical knowledge. In addition, it is difficult to find out data pattern and characteristics of the data. This study conducted statistical data analyses and visual data analyses to supplement prediction analysis's weakness. Through this study, we could find some implications that haven't been found in the previous studies. First, we could find data pattern when adjust data selection according as splitting criteria for the decision tree method. Second, we could find what type of data included in the final prediction model. We found some implications that haven't been found in the previous studies from the results of statistical and visual analyses. In statistical analysis we found relation among the multivariable and deducted prediction model to predict high box office performance. In visualization analysis we proposed visual analysis method with various interactive functions. Finally through this study we verified final prediction model and suggested analysis method extract variety of information from the data.

Korean language model construction and comparative analysis with Cross-lingual Post-Training (XPT) (Cross-lingual Post-Training (XPT)을 통한 한국어 언어모델 구축 및 비교 실험)

  • Suhyune Son;Chanjun Park ;Jungseob Lee;Midan Shim;Sunghyun Lee;JinWoo Lee ;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.295-299
    • /
    • 2022
  • 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 존재한다. 본 논문은 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 적용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. 적은 양의 한국어 코퍼스인 400K와 4M만을 사용하여 다양한 한국어 사전학습 모델 (KLUE-BERT, KLUE-RoBERTa, Albert-kor)과 mBERT와 전반적인 성능 비교 및 분석 연구를 진행한다. 한국어의 대표적인 벤치마크 데이터셋인 KLUE 벤치마크를 사용하여 한국어 하위태스크에 대한 성능평가를 진행하며, 총 7가지의 태스크 중에서 5가지의 태스크에서 XPT-4M 모델이 기존 한국어 언어모델과의 비교에서 가장 우수한 혹은 두번째로 우수한 성능을 보인다. 이를 통해 XPT가 훨씬 더 많은 데이터로 훈련된 한국어 언어모델과 유사한 성능을 보일 뿐 아니라 학습과정이 매우 효율적임을 보인다.

  • PDF