• Title/Summary/Keyword: 최근접이웃예측기법

Search Result 27, Processing Time 0.031 seconds

사례기반추론 모델의 최근접 이웃 설정을 위한 Similarity Threshold의 사용

  • Lee, Jae-Sik;Lee, Jin-Cheon
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2005.11a
    • /
    • pp.588-594
    • /
    • 2005
  • 사례기반추론(Case-Based Reasoning)은 다양한 예측 문제에 있어서 성공적으로 활용되고 있는 데이터마이닝 기법 중 하나이다. 사례기반추론 시스템의 예측 성능은 예측에 사용되는 최근접이웃(Nearest Neighbor)을 어떻게 설정하느냐에 따라 영향을 받게 된다. 따라서 최근접 이웃을 결정짓는 k 값의 설정은 성공적인 사례기반추론 시스템을 구축하기 위한 중요 요인 중 하나가 된다. 최근접 이웃의 설정에 있어서 대부분의 선행 연구들은 고정된 k 값을 사용하는 사례기반추론 시스템은 k 값을 크게 설정할 경우 최근접 이웃 안에 주어진 오류를 일으킬 수 있으며, k 값이 작게 설정된 경우에는 유사 사례 중 일부만을 예측에 사용하기 때문에 예측 결과의 왜곡을 초래할 수 있다. 본 이웃을 결정함에 있어서 Similarity Threshold를 이용하는 s-NN 방법을 제안하였다. 본 연구의 실험을 위해 UCI(University of california, Irvine) Machine Learning Repository에서 제공하는 두 개의 신용 데이터 셋을 사용하였으며, 실험 결과 s-NN 적용한 CBR 모델이 고정된 k 값을 적용한 전통적인 CBR 모델보다 더 우수한 성능을 보여주었다.

  • PDF

신재생 에너지 생산량 예측 알고리즘

  • Kim, Ji-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.389-392
    • /
    • 2012
  • 에너지관리 지원 서비스는 공장 내에서 일어나는 전력발전 및 전력할당을 데어터 분석 기법 등을 이용하여 효과적으로 관리하는 것을 목적으로 한다. 특히 그 중에서도 태양광, 풍력 등 친환경 에너지를 이용한 에너지관리 시스템은 비용절감 뿐만 아니라 환경보호 측면에서도 중요한 문제라 할 수 있다. 이들 친환경 에너지를 제대로 이용하기 위해서는 그들의 발전량을 정확히 예측할 필요가 있지만 현재의 시스템에는 가장 기본적인 예측법인 최근접 이웃법을 사용하고 있다. 최근접 이웃법의 경우 노이즈와 아웃라이어에 민감하다는 단점이 있기 때문에 이들 상황에 대처할 수 있는 보다 정교한 예측법이 필요하다.

Classification of Heart Disease Using K-Nearest Neighbor Imputation (K-최근접 이웃 알고리즘을 활용한 심장병 진단 및 예측)

  • Park, Pyoung-Woo;Lee, Seok-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.742-745
    • /
    • 2017
  • 본 논문은 심장질환 도메인에 데이터 마이닝 기법을 적용한 연구로, 기존 환자의 정보에 대하여 K-최근접 이웃 알고리즘을 통해 결측 값을 대체하고, 대표적인 예측 분류기인 나이브 베이지안, 소포트 벡터 머신, 그리고 다층 퍼셉트론을 적용하여 각각 결과를 비교 및 분석한다. 본 연구의 실험은 K 최적화 과정을 포함하고 10-겹 교차 검증 방식으로 수행되었으며, 비교 및 분석은 정확도와 카파 통계치를 통해 판별한다.

Depth Map Completion using Nearest Neighbor Kernel (최근접 이웃 커널을 이용한 깊이 영상 완성 기술)

  • Taehyun, Jeong;Kutub, Uddin;Byung Tae, Oh
    • Journal of Broadcast Engineering
    • /
    • v.27 no.6
    • /
    • pp.906-913
    • /
    • 2022
  • In this paper, we propose a new deep network architecture using nearest neighbor kernel for the estimation of dense depth map from its sparse map and corresponding color information. First, we propose to decompose the depth map signal into the structure and details for easier prediction. We then propose two separate subnetworks for prediction of both structure and details using classification and regression approaches, respectively. Moreover, the nearest neighboring kernel method has been newly proposed for accurate prediction of structure signal. As a result, the proposed method showed better results than other methods quantitatively and qualitatively.

Formation of Nearest Neighbors Set Based on Similarity Threshold (유사도 임계치에 근거한 최근접 이웃 집합의 구성)

  • Lee, Jae-Sik;Lee, Jin-Chun
    • Journal of Intelligence and Information Systems
    • /
    • v.13 no.2
    • /
    • pp.1-14
    • /
    • 2007
  • Case-based reasoning (CBR) is one of the most widely applied data mining techniques and has proven its effectiveness in various domains. Since CBR is basically based on k-Nearest Neighbors (NN) method, the value of k affects the performance of CBR model directly. Once the value of k is set, it is fixed for the lifetime of the CBR model. However, if the value is set greater or smaller than the optimal value, the performance of CBR model will be deteriorated. In this research, we propose a new method of composing the NN set using similarity scores as themselves, which we shall call s-NN method, rather than using the fixed value of k. In the s-NN method, the different number of nearest neighbors can be selected for each new case. Performance evaluation using the data from UCI Machine Learning Repository shows that the CBR model adopting the s-NN method outperforms the CBR model adopting the traditional k-NN method.

  • PDF

Linear interpolation and Machine Learning Methods for Gas Leakage Prediction Base on Multi-source Data Integration (다중소스 데이터 융합 기반의 가스 누출 예측을 위한 선형 보간 및 머신러닝 기법)

  • Dashdondov, Khongorzul;Jo, Kyuri;Kim, Mi-Hye
    • Journal of the Korea Convergence Society
    • /
    • v.13 no.3
    • /
    • pp.33-41
    • /
    • 2022
  • In this article, we proposed to predict natural gas (NG) leakage levels through feature selection based on a factor analysis (FA) of the integrating the Korean Meteorological Agency data and natural gas leakage data for considering complex factors. The paper has been divided into three modules. First, we filled missing data based on the linear interpolation method on the integrated data set, and selected essential features using FA with OrdinalEncoder (OE)-based normalization. The dataset is labeled by K-means clustering. The final module uses four algorithms, K-nearest neighbors (KNN), decision tree (DT), random forest (RF), Naive Bayes (NB), to predict gas leakage levels. The proposed method is evaluated by the accuracy, area under the ROC curve (AUC), and mean standard error (MSE). The test results indicate that the OrdinalEncoder-Factor analysis (OE-F)-based classification method has improved successfully. Moreover, OE-F-based KNN (OE-F-KNN) showed the best performance by giving 95.20% accuracy, an AUC of 96.13%, and an MSE of 0.031.

Machine Learning Methods to Predict Vehicle Fuel Consumption

  • Ko, Kwangho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.9
    • /
    • pp.13-20
    • /
    • 2022
  • It's proposed and analyzed ML(Machine Learning) models to predict vehicle FC(Fuel Consumption) in real-time. The test driving was done for a car to measure vehicle speed, acceleration, road gradient and FC for training dataset. The various ML models were trained with feature data of speed, acceleration and road-gradient for target FC. There are two kind of ML models and one is regression type of linear regression and k-nearest neighbors regression and the other is classification type of k-nearest neighbors classifier, logistic regression, decision tree, random forest and gradient boosting in the study. The prediction accuracy is low in range of 0.5 ~ 0.6 for real-time FC and the classification type is more accurate than the regression ones. The prediction error for total FC has very low value of about 0.2 ~ 2.0% and regression models are more accurate than classification ones. It's for the coefficient of determination (R2) of accuracy score distributing predicted values along mean of targets as the coefficient decreases. Therefore regression models are good for total FC and classification ones are proper for real-time FC prediction.

Development of an Evaluation Index for Identifying Freeway Traffic Safety Based on Integrating RWIS and VDS Data (기상 및 교통 자료를 이용한 교통류 안전성 판단 지표 개발)

  • Park, Hyunjin;Joo, Shinhye;Oh, Cheol
    • Journal of Korean Society of Transportation
    • /
    • v.32 no.5
    • /
    • pp.441-451
    • /
    • 2014
  • This study proposes a novel performance measure, which is referred to as Hazardous Spacing Index (HSI), to be used for evaluating safety of traffic stream on freeways. The basic principle of the proposed methodology is to investigate whether drivers would have sufficient stopping sight distance (SSD) under limited visibility conditions to eliminate rear-end crash potentials at every time step. Both Road Weather Information Systems (RWIS) and Vehicle Detection Systems (VDS) data were used to derive visibility distance (VD) and SSD, respectively. Moreover, the K-Nearest Neighbors (KNN) method was adopted to predict both VD and SSD in estimating predictive HSIs, which would be used to trigger advanced warning information to encourage safer driving. The outcome of this study is also expected to be used for monitoring freeway traffic stream in terms of safety.

Interference Elimination Method of Ultrasonic Sensors Using K-Nearest Neighbor Algorithm (KNN 알고리즘을 활용한 초음파 센서 간 간섭 제거 기법)

  • Im, Hyungchul;Lee, Seongsoo
    • Journal of IKEEE
    • /
    • v.26 no.2
    • /
    • pp.169-175
    • /
    • 2022
  • This paper introduces an interference elimination method using k-nearest neighbor (KNN) algorithm for precise distance estimation by reducing interference between ultrasonic sensors. Conventional methods compare current distance measurement result with previous distance measurement results. If the difference exceeds some thresholds, conventional methods recognize them as interference and exclude them, but they often suffer from imprecise distance prediction. KNN algorithm classifies input values measured by multiple ultrasonic sensors and predicts high accuracy outputs. Experiments of distance measurements are conducted where interference frequently occurs by multiple ultrasound sensors of same type, and the results show that KNN algorithm significantly reduce distance prediction errors. Also the results show that the prediction performance of KNN algorithm is superior to conventional voting methods.

Study on Soil Moisture Predictability using Machine Learning Technique (머신러닝 기법을 활용한 토양수분 예측 가능성 연구)

  • Jo, Bongjun;Choi, Wanmin;Kim, Youngdae;kim, Kisung;Kim, Jonggun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF