• Title/Summary/Keyword: 데이터 기준

Search Result 4,286, Processing Time 0.031 seconds

Development of fecal coliform prediction model using random forest method (랜덤포레스트기법을 이용한 분변성대장균 예측모델 개발)

  • Seo, Il Won;Choi, Soo Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.124-124
    • /
    • 2016
  • 하천에서의 분변성대장균은 분변성 오염 정도를 나타내는 지표로서, 이 농도가 높을수록 오염된 하천수와의 접촉을 통한 호흡기, 소화기 및 피부 관련 질병의 발발 확률이 높다고 알려져 있다. 따라서 하천에서의 수영, 수상스키 등과 같은 입수형 친수활동을 할 때, 분변성대장균 농도가 농도 기준 이하인지를 확인하고 이러한 정보를 친수활동에 이용할 필요가 있다. 그러나 분변성대장균의 경우, 현재 자동수질측정망에서 측정되고 있는 다른 수질인자들과는 달리 실시간 측정이 불가능하다고 알려져 있다. 분변성대장균을 측정하는데 있어 최소 18시간 이상이 필요하며, 이러한 분변성대장균 측정 방식은 하천 이용자들이 안전한 친수활동을 영위하는데 있어 적절한 수질 정보를 제공하지 못한다. 그러므로 분변성대장균을 예측하는 모델을 개발하고, 이를 이용하여 실시간 분변성대장균 정보를 생성하여 하천 이용자들에게 제공할 필요가 있다. 본 연구에서는 친수활동이 활발하게 이루어지는 곳 중 하나인 북한강의 대성리 지점에 대해 데이터 기반 모델을 이용하여 분변성대장균을 예측하였다. 데이터 기반 모델은 물리 기반 모델에서 필요한 지형데이터나 비점오염원 등의 초기 오염물의 양에 대한 데이터를 필요로 하지 않고, 대신 독립변수로 사용되는 기상 및 수질데이터를 필요로 한다. 이러한 기상 및 수질데이터는 기존 기상관측소, 수질관측소에서 매일 자동으로 측정되기 때문에 데이터 기반 모델은 물리 기반 모델에 비해 입력데이터를 구성하기가 쉽다는 장점을 지닌다. 이러한 데이터 기반 모델 중 분류 모델은 회귀 모델과 달리 분변성대장균 농도가 일정 수질기준 이상을 넘는지를 바로 예측할 수 있다. 본 연구에서는 분류 모델 중 높은 예측력을 가진다고 알려진 랜덤포레스트(random forest) 기법을 이용하여 분변성대장균 예측 모델을 개발하였다. 분변성대장균 예측 모델은 주어진 기상 및 수질 조건에 대해 분변성대장균이 200 CFU/100ml가 넘는지를 예측하였다. 예측된 분변성대장균이 기준을 넘는 경우를 2등급, 넘지 않는 경우를 1등급으로 명명하였다. 모델을 개발하기 위하여 북한강 대성리 인근 측정소에서 2010년부터 2015년까지 측정된 기상 및 수질데이터를 수집하였다. 수집한 데이터를 훈련 및 검증데이터로 샘플링하였으며, 이 때 샘플링한 데이터가 기존 데이터가 가지고 있던 등급별 비율을 유지하기 위하여 층화샘플링을 하였다. 본 연구에서는 샘플링에 의한 불확실성을 줄이기 위하여 랜덤하게 50번 샘플링된 각각의 훈련데이터에 대해 모델을 개발하였다. 50개의 모델의 검증 결과를 종합한 결과, 전체 예측률은 0.139로 나타났다.

  • PDF

Exploration of relationship between confirmation measures and association thresholds (기준 확인 측도와 연관성 평가기준과의 관계 탐색)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.24 no.4
    • /
    • pp.835-845
    • /
    • 2013
  • Association rule of data mining techniques is the method to quantify the relevance between a set of items in a big database, andhas been applied in various fields like manufacturing industry, shopping mall, healthcare, insurance, and education. Philosophers of science have proposed interestingness measures for various kinds of patterns, analyzed their theoretical properties, evaluated them empirically, and suggested strategies to select appropriate measures for particular domains and requirements. Such interestingness measures are divided into objective, subjective, and semantic measures. Objective measures are based on data used in the discovery process and are typically motivated by statistical considerations. Subjective measures take into account not only the data but also the knowledge and interests of users who examine the pattern, while semantic measures additionally take into account utility and actionability. In a very different context, researchers have devoted a lot of attention to measures of confirmation or evidential support. The focus in this paper was on asymmetric confirmation measures, and we compared confirmation measures with basic association thresholds using some simulation data. As the result, we could distinguish the direction of association rule by confirmation measures, and interpret degree of association operationally by them. Futhermore, the result showed that the measure by Rips and that by Kemeny and Oppenheim were better than other confirmation measures.

Method for Selecting a Big Data Package (빅데이터 패키지 선정 방법)

  • Byun, Dae-Ho
    • Journal of Digital Convergence
    • /
    • v.11 no.10
    • /
    • pp.47-57
    • /
    • 2013
  • Big data analysis needs a new tool for decision making in view of data volume, speed, and variety. Many global IT enterprises are announcing a variety of Big data products with easy to use, best functionality, and modeling capability. Big data packages are defined as a solution represented by analytic tools, infrastructures, platforms including hardware and software. They can acquire, store, analyze, and visualize Big data. There are many types of products with various and complex functionalities. Because of inherent characteristics of Big data, selecting a best Big data package requires expertise and an appropriate decision making method, comparing the selection problem of other software packages. The objective of this paper is to suggest a decision making method for selecting a Big data package. We compare their characteristics and functionalities through literature reviews and suggest selection criteria. In order to evaluate the feasibility of adopting packages, we develop two Analytic Hierarchy Process(AHP) models where the goal node of a model consists of costs and benefits and the other consists of selection criteria. We show a numerical example how the best package is evaluated by combining the two models.

Association rule thresholds considering the number of possible rules of interest items (관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.4
    • /
    • pp.717-725
    • /
    • 2012
  • Data mining is a method to find useful information for large amounts of data in database. One of the well-studied problems in data mining is exploration for association rules. Association rule mining searches for interesting relationships among items in a given database by support, confidence, and lift. If we use the existing association rules, we can commit some errors by information loss not to consider the size of occurrence frequency. In this paper, we proposed a new association rule thresholds considering the number of possible rules of interest items and compare with existing association rule thresholds by example and real data. As the results, the new association rule thresholds were more useful than existing thresholds.

A Robust Method of Capturing Ghost Canceling Reference (강인한 고스트제거기준신호 포획방법)

  • 권성재;정창진
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2002.06a
    • /
    • pp.76-79
    • /
    • 2002
  • Ghost cancelers need to accurately estimate the distortions suffered by transmitted signals on their way to receivers by capturing ghost canceling reference signals in the vertical blanking interval. As ghosts become much severer, sync separation tends to malfunction, making it impossible to acquire measurement data for channel estimation. This paper presents a robust method of acquiring ghost data using their correlation properties, and evaluates its performance through computer simulation. The reference signals are inserted in such a manner that the polarity alternates from one frame to another to remove color bursts and sync signals, and to increase the signal-to-noise ratio as well. As a result, however, they are prone to timing jitters. So a simple yet effective method is proposed that can correct for even fractional time delays. The timing errors are found to be less than about 4% of the sample spacing.

  • PDF

Development And Applying Detailed Competencies For Elementary School Students' Data Collection, Analysis, and Representation (초등학생의 데이터 수집, 분석, 표현 수업을 위한 세부역량 개발 및 적용)

  • Suh, Woong;Ahn, Seongjin
    • Journal of The Korean Association of Information Education
    • /
    • v.23 no.2
    • /
    • pp.131-139
    • /
    • 2019
  • From 2019, software education has become a required subject for all elementary school students. However, many teachers are still unfamiliar with how the classes should be instructed. So this paper presented the meaning, detailed competencies and achievement standard in order to help in the collection, analysis and representation of data among the computational thinking that are key to software education. And it also suggested the applicability of the classes. The full course of the paper is summarized as follows. First, existing studies have summarized the meaning, detail and achievement standard of data related competencies. Based on this, a preliminary investigation was instructed. Pilot study carried out both FGI and closed questions at the same time. This was done in response to the survey's questionnaire reflecting the opinions of experts. Second, the results of the questionnaire generated as a result of the above were verified for validity, stability, and reliability among the PhD, PhD courses, software education teachers, and software education workers. Third, I developed and applied the five lessons as a class objective as 'Choosing collection method-Select the collection method according to the problem situation.', 'Searching for meaning of data-Understand what the analyzed data mean..', 'Using various expression methods-Use a variety of expression tools.' using the backward design model to integrate education, class, and assessment. As a result, the detailed competencies of data collection, analysis, and representation and achievement standard were presented. This may help in setting specific and specific criteria for what direction classes are recommended when planning data-related classes in elementary schools.

Efficient Transformer Dissolved Gas Analysis and Classification Method (효율적인 변압기 유중가스 분석 및 분류 방법)

  • Cho, Yoon-Jeong;Kim, Jae-Young;Kim, Jong-Myon
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.8 no.3
    • /
    • pp.563-570
    • /
    • 2018
  • This paper proposes an efficient dissolved gas analysis(DGA) and classification method of an oil-filled transformer using machine learning algorithms to solve problems inherent in IEC 60599. In IEC 60599, a certain diagnosis criteria do not exist, and duplication area is existed. Thus, it is difficult to make a decision without any experts since the IEC 60599 standard can not support analysis and classification of gas date of a power transformer in that criteria. To address these issue. we propose a dissolved gas analysis(DGA) and classification method using a machine learning algorithm. We evaluate the performance of the proposed method using support vector machines with dissolved gas dataset extracted from a power transformer in the real industry. To validate the performance of the proposed method, we compares the proposed method with the IEC 60599 standard. Experimental results show that the proposed method outperforms the IEC 60599 in the classification accuracy.

미쓰비시의 MCCS측정기, 품질표준화를 위한 과정

  • Korean Printers Association
    • 프린팅코리아
    • /
    • v.7 no.9
    • /
    • pp.113-113
    • /
    • 2008
  • PPC 서버는 CIP3/4에 따른 프리프레스장비에 의해 생성된 미리보기 이미지를 통하여 회선율을 산출 및 인쇄조건 데이터를 변환하여 IPC로 전송하고 전송된 데이터는 IPC를 통해 인쇄기에 잉크키 등을 미리설정(프리셋)한다. 인쇄되는 인쇄물의 잉크 키 데이터와 화선율의 데이터를 MCCS(색조관리장치)로 보내고 MCCS에서는 인쇄된 칼라 패치를 분광계로 계측하고, 그 결과를 화면에 표시한다. MCCS는 목표치에 대하여 계측치의 차이를 기준으로 목표치에 가깝게 되도록 잉크키 개도를 조절해 피드백하며, IPC EXPERT 기능용 계측 데이터를 IPC로 보낸다. 따라서, 사람의 눈으로 관리하는 컬러매니지먼트(CMS가 아닌 CIP3/4 데이터의 화선율과 인쇄조건을 PPC서버가 변환하여 IPC에 전송하는 것이다. 인쇄한 인쇄결과물을 MCCS로 계측하여 항상 기준목표 농도치에 맞게 기계에 피드백하고 잉크키 개도를 조절, 색조관리를 함으로써 일정한 품질유지 및 농도관리를 가능(손지절감 및 색조관리의 일관성)하게 하는 시스템이다.

  • PDF

Analysis on Technical Standard for High speed Power Line Communications (국내 고속전력선통신도입을 위한 기술기준분석)

  • Jang Dong-Won;Cho Pyung-Dong
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2004.08a
    • /
    • pp.358-361
    • /
    • 2004
  • 본 논문은 국내에 고속 전력선 통신을 도입하기 위한 국내외 관련 기술기준을 분석하였다. 전력선 통신은 상용 전력을 공급하는 전력선을 이용하여 데이터 통신을 수행한다. 고속 데이터 전송을 실현하기 위해서는 현행 제도에서 전력선 통신으로 사용되고 있는 주파수 대역보다도 높은 주파수대역이 필요하다. 수10Mbps정도의 전송속도를 실현하기 위해 필요한 사용주파수 대역은 구체적으로 2MHz에서 30MHz 대역을 추가하는 것이 반드시 필요하다. 본 고에서는 제외국의 기술기준을 분석하고 국내에 도입되기 위해서 요구되는 기술기준을 실측하고 분석해서 기술기준을 작성하고 제안하였다.

  • PDF

A Study on the Index Selection Criteria of MMDB (MMDB의 인덱스 선택 기준에 관한 연구)

  • Liu, Jingshan;Liu, Chen;Yeo, Jeongmo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.664-667
    • /
    • 2015
  • 데이터 처리 성능에서 메인 메모리 데이터베이스(MMDB)가 디스크 기반 데이터베이스(DRDB)보다 월등하여 국내외의 데이터베이스 영역에서 이슈가 되고 있다. MMDB 성능에 영향을 미치는 요소에는 CPU의 성능과 메모리의 크기 및 인덱스의 선택 등이 있다. 이 중에서 MMDB 성능에 비교적 큰 영향을 미치는 요소는 인덱스의 선택 문제이다. 옵티마이저의 실행계획을 수립할 때, 인덱스는 최적의 경로를 찾도록 하는 전략적인 요소로서 그 구성에 문제가 있으면 최적화된 실행계획을 얻을 수 없다. 하지만 이러한 인덱스 선택 기준에 관련한 연구는 미미한 실정이다. 따라서 우리는 MMDB에서의 인덱스 선택 기준에 대하여 실험하고 연구하였다. 실험에 사용된 MMDB는 인기 있는 TimesTen MMDB이다. 실험 대상 테이블에 대하여 인덱스가 없는 경우, T-Tree 인덱스를 생성한 경우, Bitmap 인덱스를 생성한 경우 등에서 데이터 량과 분포도를 각각 변화시켜, 어떤 분포도에서 어떤 인덱스가 유리한지 실험하고 인덱스의 선택 기준 결과를 얻었다. 본 연구의 결과는 실무에서 MMDB의 인덱스를 선택하는 기준으로 사용될 수 있을 것으로 기대한다.