• Title/Summary/Keyword: 샘플 선택

Search Result 352, Processing Time 0.027 seconds

Study on the Effect of Training Data Sampling Strategy on the Accuracy of the Landslide Susceptibility Analysis Using Random Forest Method (Random Forest 기법을 이용한 산사태 취약성 평가 시 훈련 데이터 선택이 결과 정확도에 미치는 영향)

  • Kang, Kyoung-Hee;Park, Hyuck-Jin
    • Economic and Environmental Geology
    • /
    • v.52 no.2
    • /
    • pp.199-212
    • /
    • 2019
  • In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting the training data because the number of non-landslide points is much bigger than the number of landslide points. However, the previous researches did not consider the various sampling methods for the training data. That is, the previous studies selected the training data randomly. Therefore, in this study the authors proposed several different sampling methods and assessed the effect of the sampling strategies of the training data in landslide susceptibility analysis. For that, total six different scenarios were set up based on the sampling strategies of landslide points and non-landslide points. Then Random Forest technique was trained on the basis of six different scenarios and the attribute importance for each input variable was evaluated. Subsequently, the landslide susceptibility maps were produced using the input variables and their attribute importances. In the analysis results, the AUC values of the landslide susceptibility maps, obtained from six different sampling strategies, showed high prediction rates, ranges from 70 % to 80 %. It means that the Random Forest technique shows appropriate predictive performance and the attribute importance for the input variables obtained from Random Forest can be used as the weight of landslide conditioning factors in the susceptibility analysis. In addition, the analysis results obtained using specific sampling strategies for training data show higher prediction accuracy than the analysis results using the previous random sampling method.

Biomarker Detection on Aptamer-based Biochip Data by Potential SVM (Potential SVM을 이용한 압타머칩에서의 바이오마커 탐색)

  • Kim, Byoung-Hee;Kim, Sung-Chun;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.22-27
    • /
    • 2006
  • 압타머칩은 혈청(serum) 내의 지정된 단백질의 상대적 양을 직접 측정할 수 있는 바이오칩으로서, 의학적 질병 진단에 유용하게 사용할 수 있는 툴이다. 압타머칩 데이터 분석에는 기존의 마이크로어레이 분석기법을 그대로 적용할 수 있다. 본 논문에서는 Potential SVM(PSVM)을 이용하여, 심혈관질환 샘플 기반의 압타머칩 데이터에서 바이오마커 후보 단백질을 선정한 결과를 정리한다. PSVM은 분류 알고리즘으로서 뿐만 아니라 자질 선택(feature selection)에서도 우수한 성능을 보이는 알고리즘으로 알려져 있다. 심혈관 질환의 단계에 따라 구분한 4개 클래스, 135개 샘플로 구성된 3K 압타머칩 데이터에 대해 PSVM을 적용하여 자질을 선택하고 분류성능을 측정한 결과, 마이크로어레이에서의 자질 선택에 많이 사용되는 Gain Ratio 기법과 비교하여 보다 적은 수의 단백질 정보로 보다 나은 분류 성능을 보임을 확인하였다. 더불어, PSVM을 이용해 선택한 단백질군을 심혈관 질환 진단을 위한 바이오마커 후보로 제시한다.

  • PDF

Environmental variable selection and synthetic sampling methods for improving the accuracy of algal alert level prediction model (변수 선택 및 샘플링 기법을 적용한 조류 경보 단계 예측 모델의 정확도 개선)

  • Jin Hwi Kim;Hankyu Lee;Seohyun Byeon;Jae-Ki Shin;Yongeun Park
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.517-517
    • /
    • 2023
  • 현재 우리나라에서는 4대강 및 주요 호소 29지점을 대상으로 조류경보제가 시행되고 있으며 조류 경보 단계는 실시간 모니터링지점에서 측정되는 유해 조류의 셀농도를 기반으로 발령 단계가 결정된다. 상수원 구간은 관심, 경계, 조류 대발생, 해제 또는 미발생 총 4구간으로 구성되며, 친수 활동 구간의 경우 조류 대발생을 제외한 3구간으로 구성된다. 현재 시행되는 조류 경보제의 목적은 유해 조류 발생 시 사후 대응 방안 마련에 보다 초점이 맞춰져 있으며 특히, 모니터링 주기 확대 여부, 오염원 관리 방안 마련, 조류 제거 여부 등의 의사 결정 수단으로 사용되고 있다. 하지만 조류 경보 단계에 대한 사전 예측이 가능한 경우 유해 조류의 성장을 억제할 수 있으며 이를 통해 안전하고 깨끗한 수자원을 확보할 수 있다. 본 연구에서는 조류 경보 단계의 사전적 예측을 위해 국가 실시간 측정망에서 제공하는 전국 보 모니터링 종합 정보 자료, 기상측정망 자료, 실시간 보 현황 자료를 활용하여 예측 모델을 구축하였다. 또한, 단계 예측의 정확도를 개선하기 위해 변수 선택 기법을 활용하여 조류 경보 단계에 영향을 미치는 환경변수를 선정하였으며 자료의 불균형으로 인해 모델 학습 과정에서 발생하는 예측 오류를 최소화하기 위해 다양한 샘플링 기법을 적용하여 모델의 성능을 평가하였다. 변수 선택 및 샘플링 기법을 고려하지 않은 원자료를 사용하여 예측 모델을 구축한 결과 관심 단계(Level-1) 및 경보 단계(Level-2)에 대해 각각 50%, 62.5%의 예측 정확도를 보인 반면 비선형 변수 선택 기법 및 Synthetic Minority Over-sampling Technique-Edited Nearrest Neighbor(SMOTE-ENN) 샘플링 기법을 적용하여 구축한 모델에서는 Level-1은 85.7%, Level-2는 75.0%의 예측 정확도를 보였다.

  • PDF

Low-Complexity Graph Sampling Algorithm Based on Thresholding (임계값 적용에 기반한 저 복잡도 그래프 신호 샘플링 알고리즘)

  • Yoon-Hak Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.5
    • /
    • pp.895-900
    • /
    • 2023
  • We study low-complexity graph sampling which selects a subset of nodes from graph nodes so as to reconstruct the original signal from the sampled one. To achieve complexity reduction, we propose a graph sampling algorithm with thresholding which selects a node with a cost lower than a given threshold at each step without fully searching all of the remaining nodes to find one with the minimum cost. Since it is important to find the threshold as close to a minimum cost as possible to avoid degradation of the reconstruction performance, we present a mathematical expression to compute the threshold at each step. We investigate the performance of the different sampling methods for various graphs, showing that the proposed algorithm runs 1.3 times faster than the previous method while maintaining the reconstruction performance.

Intra Prediction Mode Dependent Reference Sample Selection Method for Cross- Component Linear Model (CCLM 에서 화면 내 예측 모드에 따른 참조 샘플 선택 방법)

  • Lee, Jongseok;Park, Seanae;Choi, Hansol;Sim, Donggyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.188-189
    • /
    • 2018
  • 본 논문에서는 색차 성분의 화면내 예측 모드인 CCLM( Cross Component Linear Model) 의 계산 복잡도 감소를 위하여 휘도 성분의 화면내 예측 모드에 따라 주변 참조 샘플 쌍을 선택적으로 사용하는 방법을 제안한다. 제안하는 방법은 총 67 가지 화면내 예측 모드를 3 개의 구간으로 나누고 각 구간별로 사용하는 참조 샘플 쌍의 위치를 정하여 사용하였다. 제안하는 방법의 성능 평가를 위하여 AI( All Intra) 환경에서 JEM7.0 대비 부호화 성능을 측정하였다. 실험결과로서 제안하는 방법이 JEM7.0 대비 Y, U, V 각각 평균 0.04%, 0.61%, 0.62% 의 BD-rate 손실 및 평균 2%, 최대 8% 부호화 시간 감소를 보인다.

  • PDF

GA based Adaptive Sampling for Image-based Walkthrough (영상기반 항해를 위한 유전 알고리즘 기반 적응적 샘플링)

  • Lee, Dong-Hoon;Kim, Jong-Ryul;Jung, Soon-Ki
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.721-723
    • /
    • 2005
  • 본 논문에서는 영상 기반 항해를 위하여 최적의 영상 샘플링을 획득하기 위한 영상 샘플링 알고리즘을 제안한다. 이를 위해 초기 과다 샘플링 된 영상열의 입력으로부터 장면 전역에 걸쳐 적절한 렌더링 품질을 보장하는 최소의 샘플링을 선택하는 감소 샘플링(decremental sampling)의 접근 방법을 기반으로 본 문제를 Set Covering 문제로 공식화한다. 각 시점으로부터 최상의 영상 품질을 보장하는 영역을 3D 와핑 알고리즘을 사용하여 포함 영역으로 표현하여, 이렇게 표현된 Set Covering 문제는 유전 알고리즘을 사용하여 최적화 문제로 설계한다. 실험 결과 본 논문에서 제안한 방법을 통해 최적 해를 구함으로서 만족할 만한 영상 기반 항해의 결과를 얻을 수 있었다.

  • PDF

A Simple GMSK Modulator Using the Combined Gaussian Lowpass Filter and Integrator (가우시안 저역 통과 필터와 적분기를 결합시킨 간단한 GMSK 변조기)

  • 오성근;황병대
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.12B
    • /
    • pp.2039-2045
    • /
    • 2000
  • 본 논문에서는 계산이 간단한 두 가지의 GMSK (Gaussian minimum shift-keying) 변조기들을 제안한다. 제안된 방법들에서는 필터링과 적분과정의 순차적인 처리 대신에, 필터링되는 데이터 계열들에 따른 적분기 출력에서의 위상 성분들을 미리 구하고, ROM (read only memory)에 저장함으로써 계산량을 크게 줄일 수 있다. 첫 번째 방법에서는 필터링되는 심벌들에 따른 각 샘플시점에서의 위상 변화량들이 미리 계산되며, 위상 샘플 값은 필터에 입력되는 데이터 계열에 의한 샘플시점에서의 총 위상 변화량을 구하여 누적함으로써 얻어진다. 두 번째 방법에서는 입력되는 모든 가능한 데이터 계열들에 따른 모든 샘플시점에서의 총 위상 변화량들을 미리 구하여 ROM에 저장하며, 위상 샘플 값은 입력되는 데이터 계열에 따라 샘플시점에 해당하는 총 위상 변화량을 선택하여 누적함으로써 얻어진다. 또한, 두 번째 방법에서는 데이터 계열의 패턴에 따른 총 위상 변화량들의 대칭적인 성질을 이용함으로써 필요한 메모리량을 줄일 수 있다.

  • PDF

A Study on Occurred Errors when Down Sampling of Frequency (주파수의 다운 샘플링시 발생 에러에 대한 연구)

  • Park, Jin-seo;Lee, Seungyon-seny
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.29-30
    • /
    • 2015
  • 본 논문에서는 음악 시디에 사용되는 44.1khz의 포맷으로 녹음된 주파수와, 고품질 녹음시 선택하는 포맷인 96khz로 녹음한 주파수를 다시 44.1khz로 다운 샘플링한 주파수를 비교 분석한다. 다양한 주파수를 다운 샘플링 한 후 변화된 주파수의 평균을 분석하여 이의 특성을 제시한다.

  • PDF

Sparse Index Tracking Using Monte-Carlo Genetic Algorithm (몬테카를로 유전 알고리즘을 활용한 부분복제 지수 추종)

  • Yoon, Dong-Jin;Lee, Ju-Hong;Song, Jae-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.751-754
    • /
    • 2020
  • 본 논문은 지수를 추종하기 위해 유전 알고리즘에 몬테카를로 샘플링을 추가한 방법을 제안한다. 몬테카를로 샘플링을 통해 효율적으로 축소된 탐색공간을 탐험하는 유전 알고리즘은 최적의 종목들을 선택한다. 제안된 방법을 KOSPI200 지수 추종에 대하여 실험하였다. 제안된 방법이 몬테카를로 샘플링을 사용하지 않는 유전 알고리즘에 비해 지수 추종 오차가 더 낮고 더 빠르게 수렴하는 것을 보여주었다.

Accelerating the EM Algorithm through Selective Sampling for Naive Bayes Text Classifier (나이브베이즈 문서분류시스템을 위한 선택적샘플링 기반 EM 가속 알고리즘)

  • Chang Jae-Young;Kim Han-Joon
    • The KIPS Transactions:PartD
    • /
    • v.13D no.3 s.106
    • /
    • pp.369-376
    • /
    • 2006
  • This paper presents a new method of significantly improving conventional Bayesian statistical text classifier by incorporating accelerated EM(Expectation Maximization) algorithm. EM algorithm experiences a slow convergence and performance degrade in its iterative process, especially when real online-textual documents do not follow EM's assumptions. In this study, we propose a new accelerated EM algorithm with uncertainty-based selective sampling, which is simple yet has a fast convergence speed and allow to estimate a more accurate classification model on Naive Bayesian text classifier. Experiments using the popular Reuters-21578 document collection showed that the proposed algorithm effectively improves classification accuracy.