• Title/Summary/Keyword: 선택적샘플링

Search Result 109, Processing Time 0.033 seconds

Environmental variable selection and synthetic sampling methods for improving the accuracy of algal alert level prediction model (변수 선택 및 샘플링 기법을 적용한 조류 경보 단계 예측 모델의 정확도 개선)

  • Jin Hwi Kim;Hankyu Lee;Seohyun Byeon;Jae-Ki Shin;Yongeun Park
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.517-517
    • /
    • 2023
  • 현재 우리나라에서는 4대강 및 주요 호소 29지점을 대상으로 조류경보제가 시행되고 있으며 조류 경보 단계는 실시간 모니터링지점에서 측정되는 유해 조류의 셀농도를 기반으로 발령 단계가 결정된다. 상수원 구간은 관심, 경계, 조류 대발생, 해제 또는 미발생 총 4구간으로 구성되며, 친수 활동 구간의 경우 조류 대발생을 제외한 3구간으로 구성된다. 현재 시행되는 조류 경보제의 목적은 유해 조류 발생 시 사후 대응 방안 마련에 보다 초점이 맞춰져 있으며 특히, 모니터링 주기 확대 여부, 오염원 관리 방안 마련, 조류 제거 여부 등의 의사 결정 수단으로 사용되고 있다. 하지만 조류 경보 단계에 대한 사전 예측이 가능한 경우 유해 조류의 성장을 억제할 수 있으며 이를 통해 안전하고 깨끗한 수자원을 확보할 수 있다. 본 연구에서는 조류 경보 단계의 사전적 예측을 위해 국가 실시간 측정망에서 제공하는 전국 보 모니터링 종합 정보 자료, 기상측정망 자료, 실시간 보 현황 자료를 활용하여 예측 모델을 구축하였다. 또한, 단계 예측의 정확도를 개선하기 위해 변수 선택 기법을 활용하여 조류 경보 단계에 영향을 미치는 환경변수를 선정하였으며 자료의 불균형으로 인해 모델 학습 과정에서 발생하는 예측 오류를 최소화하기 위해 다양한 샘플링 기법을 적용하여 모델의 성능을 평가하였다. 변수 선택 및 샘플링 기법을 고려하지 않은 원자료를 사용하여 예측 모델을 구축한 결과 관심 단계(Level-1) 및 경보 단계(Level-2)에 대해 각각 50%, 62.5%의 예측 정확도를 보인 반면 비선형 변수 선택 기법 및 Synthetic Minority Over-sampling Technique-Edited Nearrest Neighbor(SMOTE-ENN) 샘플링 기법을 적용하여 구축한 모델에서는 Level-1은 85.7%, Level-2는 75.0%의 예측 정확도를 보였다.

  • PDF

$L_2$-Norm Based Optimal Nonuniform Resampling (유클리드norm에 기반한 최적 비정규 리사이징 알고리즘)

  • 엄지윤;이학무;강문기
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2002.11a
    • /
    • pp.71-76
    • /
    • 2002
  • 보간법은 기본적으로 원래의 영상을 연속적인 함수 모형으로 나타내고 이 함수로부터 다시 샘플링을 하여 원하는 영상을 얻는 방식으로 접근한다. 본 논문에서는 다른 연속 함수모델보다 진동이 적고 필터 계수가 적은 B-spline 함수를 사용한다. 된 논문의 최적 보간 방법은 원래의 신호와 얻고자 하는 신호를 각각 spline함수로 나타내고, 이 둘의 차이가 가장 작은 것을 선택하는 것이다. 그러기 위해서는 여러 개의 spline계수 중에서 원래 신호와의 L$_2$-norm이 가장 작은 것을 선택해야 한다 이러한 최적 보간법을 일반화하기 위해서 spline 함수로 표현된 신호를 다시 샘플링 하여 신호를 얻고, 그 신호를 공간에 따라 변화하는 spline함수의 합으로 나타낸다. 그리고 이렇게 나타낸 함수들 중에서 원래의 함수와 가장 가까운 것을 선택하도록 함으로써 일반화될 수 있다. 이러한 최적화 된 비정규점 리사이징 알고리즘은 다른 알고리즘에 비해서 더 적은 오차를 나타냄을 확인할 수 있다.

  • PDF

Study on the Effect of Training Data Sampling Strategy on the Accuracy of the Landslide Susceptibility Analysis Using Random Forest Method (Random Forest 기법을 이용한 산사태 취약성 평가 시 훈련 데이터 선택이 결과 정확도에 미치는 영향)

  • Kang, Kyoung-Hee;Park, Hyuck-Jin
    • Economic and Environmental Geology
    • /
    • v.52 no.2
    • /
    • pp.199-212
    • /
    • 2019
  • In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting the training data because the number of non-landslide points is much bigger than the number of landslide points. However, the previous researches did not consider the various sampling methods for the training data. That is, the previous studies selected the training data randomly. Therefore, in this study the authors proposed several different sampling methods and assessed the effect of the sampling strategies of the training data in landslide susceptibility analysis. For that, total six different scenarios were set up based on the sampling strategies of landslide points and non-landslide points. Then Random Forest technique was trained on the basis of six different scenarios and the attribute importance for each input variable was evaluated. Subsequently, the landslide susceptibility maps were produced using the input variables and their attribute importances. In the analysis results, the AUC values of the landslide susceptibility maps, obtained from six different sampling strategies, showed high prediction rates, ranges from 70 % to 80 %. It means that the Random Forest technique shows appropriate predictive performance and the attribute importance for the input variables obtained from Random Forest can be used as the weight of landslide conditioning factors in the susceptibility analysis. In addition, the analysis results obtained using specific sampling strategies for training data show higher prediction accuracy than the analysis results using the previous random sampling method.

Comparison of Representative Point Sampling Methods in Surface Based Image Registration (표면정보 기반 영상정합에서의 대표점 추출기법 비교 연구)

  • Park, Ji-Young;Choi, Yoo-Joo;Kim, Myoung-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.347-350
    • /
    • 2003
  • 표면정보 기반 영상정합기법은 대상기관에서 추출된 표면정보를 기반으로 변환을 추정하여 서로 다른 영상의 전체적 형태의 유사성 정도를 최대화함으로써 정합을 수행하는 방법이다. 정합 수행에 있어 전체 객체를 가장 잘 대표하는 특정 개수의 표면점을 추출하고, 이 대표점으로부터 변환 값을 계산하는 것이 영상정합의 합리적인 최적화 단계를 위해 필수적이다. 대표점 추출결과에 따라 전체 정합의 결과가 달라지게 되므로 정합의 변환요소 값을 정확하게 구해낼 수 있는 대표점을 추출하기 위해 적절한 샘플링 기법의 선택이 요구된다. 본 연구에서는 효율적인 표면정보 기반 다중 모달리티 영상정합을 위해 계통추출법 기반 샘플링 기법과 특징점 탐지 기법 기반 샘플링 기법의 성능을 비교 분석하였다.

  • PDF

Low-complexity Sampling Set Selection for Bandlimited Graph Signals (대역폭 제한 그래프신호를 위한 저 복잡도 샘플링 집합 선택 알고리즘)

  • Kim, Yoon Hak
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.12
    • /
    • pp.1682-1687
    • /
    • 2020
  • We study the problem of sampling a subset of nodes of graphs for bandlimited graph signals such that the signal values on the sampled nodes provide the most information in order to reconstruct the original graph signal. Instead of directly minimizing the reconstruction error, we focus on minimizing the upper bound of the reconstruction error to reduce the complexity of the selection process. We further simplify the upper bound by applying useful approximations to propose a low-weight greedy selection process that is iteratively conducted to find a suboptimal sampling set. Through the extensive experiments for various graphs, we inspect the performance of the proposed algorithm by comparing with different sampling set selection methods and show that the proposed technique runs fast while preserving a competitive reconstruction performance, yielding a practical solution to real-time applications.

Resampling Feedback Documents Using Overlapping Clusters (중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법)

  • Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.16B no.3
    • /
    • pp.247-256
    • /
    • 2009
  • Typical pseudo-relevance feedback methods assume the top-retrieved documents are relevant and use these pseudo-relevant documents to expand terms. The initial retrieval set can, however, contain a great deal of noise. In this paper, we present a cluster-based resampling method to select better pseudo-relevant documents based on the relevance model. The main idea is to use document clusters to find dominant documents for the initial retrieval set, and to repeatedly feed the documents to emphasize the core topics of a query. Experimental results on large-scale web TREC collections show significant improvements over the relevance model. For justification of the resampling approach, we examine relevance density of feedback documents. The resampling approach shows higher relevance density than the baseline relevance model on all collections, resulting in better retrieval accuracy in pseudo-relevance feedback. This result indicates that the proposed method is effective for pseudo-relevance feedback.

Classification Prediction Error Estimation System of Microarray for a Comparison of Resampling Methods Based on Multi-Layer Perceptron (다층퍼셉트론 기반 리 샘플링 방법 비교를 위한 마이크로어레이 분류 예측 에러 추정 시스템)

  • Park, Su-Young;Jeong, Chai-Yeoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.2
    • /
    • pp.534-539
    • /
    • 2010
  • In genomic studies, thousands of features are collected on relatively few samples. One of the goals of these studies is to build classifiers to predict the outcome of future observations. There are three inherent steps to build classifiers: a significant gene selection, model selection and prediction assessment. In the paper, with a focus on prediction assessment, we normalize microarray data with quantile-normalization methods that adjust quartile of all slide equally and then design a system comparing several methods to estimate 'true' prediction error of a prediction model in the presence of feature selection and compare and analyze a prediction error of them. LOOCV generally performs very well with small MSE and bias, the split sample method and 2-fold CV perform with small sample size very pooly. For computationally burdensome analyses, 10-fold CV may be preferable to LOOCV.

An Algorithm of Minimum Bandpass Sampling Selection with Guard-band Between Down-converted Adjacent IF signals (하향변환된 인접 IF신호간의 보호대역을 고려한 최소 대역통과 샘플링 주파수 선택 알고리즘)

  • Bae, Jung-Hwa;Cho, Jae-Wan;Ko, Yong-Chae;Cac, Tran Nguyen;Park, Jin-Woo
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.32 no.12A
    • /
    • pp.1286-1295
    • /
    • 2007
  • This paper proposes, based on a bandpass sampling theory, a novel method to find valid sampling frequency range and minimum sampling rate with low computational complexity for downconversion of N bandpass radio frequency(RF) signals, under application of all possible signal placements(full permutations) in a IF stage. Additionally, we have developed a complexity-reducing method to obtaine the opttimal and minimal sampling rate for supporting the user-wanted guard-band or spacing between adjacent downconverted signal spectrums. Moreover, we have verified through comparisons with other methods that the proposed methods have more advantageous properties.

MCMC를 이용한 비동질적 포아송과정에서 일반화 순서통계량 모형의 연구

  • 최기헌;김희철
    • Communications for Statistical Applications and Methods
    • /
    • v.4 no.3
    • /
    • pp.753-763
    • /
    • 1997
  • 컴퓨터의 발전에 따른 MCMC를 비동질적 포아송 과정에 이용하였다. 베이지안 추론에서 조건부 분포를 가지고 사후분포를 결정하는데 있어서의 계산 문제를 고려하였다. 특히 분포가 이중지수, 곰페르츠, 랄리, 감마, 그리고 검벨인 일반 순서통계량 모형에 대하여 깁스 샘플링과 메트로폴리스 알고리즘을 활용한 베이지안 계산과 모형선택을 제시하였다.

  • PDF

An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning (데이터 샘플링 기반 프루닝 기법을 도입한 효율적인 각도 기반 공간 분할 병렬 스카이라인 질의 처리 기법)

  • Choi, Woosung;Kim, Minseok;Diana, Gromyko;Chung, Jaehwa;Jung, Soonyong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.1
    • /
    • pp.1-8
    • /
    • 2017
  • Given a multi-dimensional dataset of tuples, a skyline query returns a subset of tuples which are not 'dominated' by any other tuples. Skyline query is very useful in Big data analysis since it filters out uninteresting items. Much interest was devoted to the MapReduce-based parallel processing of skyline queries in large-scale distributed environment. There are three requirements to improve parallelism in MapReduced-based algorithms: (1) workload should be well balanced (2) avoid redundant computations (3) Optimize network communication cost. In this paper, we introduce MR-SEAP (MapReduce sample Skyline object Equality Angular Partitioning), an efficient angular space partitioning based skyline query processing using sampling-based pruning, which satisfies requirements above. We conduct an extensive experiment to evaluate MR-SEAP.