• 제목/요약/키워드: k nearest neighbors(KNN)

검색결과 48건 처리시간 0.03초

가중 적응 최근접 이웃을 이용한 결측치 대치 (On the use of weighted adaptive nearest neighbors for missing value imputation)

  • 염윤진;김동재
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.507-516
    • /
    • 2018
  • 결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.

Adaptive Nearest Neighbors를 활용한 결측치 대치

  • 전명식;정형철
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2004년도 학술발표논문집
    • /
    • pp.185-190
    • /
    • 2004
  • 비모수적 결측치 대치 방법으로 널리 사용되는 k-nearest neighbors(KNN) 방법은 자료의 국소적(local) 특징을 고려하지 않고 전체 자료에 대해 균일한 이웃의 개수 k를 사용하는 단점이 있다. 본 연구에서는 KNN의 대안으로 자료의 국소적 특징을 고려하는 adaptive nearest neighbors(ANN) 방법을 제안하였다. 나아가 microarray 자료의 경우에 대하여 결측치 대치를 통해 KNN과 ANN의 성능을 비교하였다.

  • PDF

Weighted k-Nearest Neighbors를 이용한 결측치 대치 (On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation)

  • 임찬희;김동재
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.23-31
    • /
    • 2015
  • 통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

도심지역 LTE 측위를 위한 Fingerprinting 기법의 W-KNN Correlation 기술에 따른 성능 분석 (Performance Analysis of Fingerprinting Method for LTE Positioning according to W-KNN Correlation Techniques in Urban Area)

  • 권재욱;조성윤
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1059-1068
    • /
    • 2021
  • 도심지역에서 GPS(Global Positioning System)/GNSS(Global Navigation Satellite System) 신호는 건물과 같은 구조물에 의해 차단되거나 왜곡되어 위치추정에 한계가 존재한다. 이 문제를 보완하기 위해 본 논문에서는 LTE 신호의 RSRP(Reference Signal Received Power) 정보를 사용한 Fingerprinting 기법으로 측위를 수행하고자 한다. Fingerprinting의 측위 단계에서 많이 사용되는 W-KNN(Weighted - K Nearest Neighbors) 기법은 Correlation 시 사용되는 유사도 거리 계산 방법과 가중치 적용 방법 등에 따라 다른 측위 성능의 결과를 생성한다. 본 논문에서는 Correlation 시 사용되는 기법들에 따른 Fingerprinting 측위 성능을 실 데이터 기반으로 비교 분석하고자 한다.

순차 적응 최근접 이웃을 활용한 결측값 대치법 (On the Use of Sequential Adaptive Nearest Neighbors for Missing Value Imputation)

  • 박소현;방성완;전명식
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1249-1257
    • /
    • 2011
  • 비모수적 결측치 대치법인 k-최근접 이웃(k-Nearest Neighbors; KNN) 대치법을 개선한 적응 최근접 이웃(Adaptive Nearest Neighbor; ANN) 대치법과 순차 k-최근접 이웃(Sequential k-Nearest Neighbor; SKNN) 대치법의 장점들을 결합한 순차 적응 최근접 이웃(Sequential Adaptive Nearest Neighbor; SANN) 대치법을 제안하고자 한다. 이 방법은 ANN 대치법의 장점인 자료의 국소적 특징을 반영할 뿐 아니라, SKNN 대치법과 같이 결측값 대치가 이루어진 개체를 다음 결측값을 대치할 때 사용함으로써 효율성에 개선이 있을 것으로 기대한다.

Dynamic threshold location algorithm based on fingerprinting method

  • Ding, Xuxing;Wang, Bingbing;Wang, Zaijian
    • ETRI Journal
    • /
    • 제40권4호
    • /
    • pp.531-536
    • /
    • 2018
  • The weighted K-nearest neighbor (WKNN) algorithm is used to reduce positioning accuracy, as it uses a fixed number of neighbors to estimate the position. In this paper, we propose a dynamic threshold location algorithm (DH-KNN) to improve positioning accuracy. The proposed algorithm is designed based on a dynamic threshold to determine the number of neighbors and filter out singular reference points (RPs). We compare its performance with the WKNN and Enhanced K-Nearest Neighbor (EKNN) algorithms in test spaces of networks with dimensions of $20m{\times}20m$, $30m{\times}30m$, $40m{\times}40m$ and $50m{\times}50m$. Simulation results show that the maximum position accuracy of DH-KNN improves by 31.1%, and its maximum position error decreases by 23.5%. The results demonstrate that our proposed method achieves better performance than other well-known algorithms.

기상 및 교통 자료를 이용한 교통류 안전성 판단 지표 개발 (Development of an Evaluation Index for Identifying Freeway Traffic Safety Based on Integrating RWIS and VDS Data)

  • 박현진;주신혜;오철
    • 대한교통학회지
    • /
    • 제32권5호
    • /
    • pp.441-451
    • /
    • 2014
  • 본 연구는 도로 기상정보 시스템(RWIS : Road Weather Information System)에서 수집되는 시정거리와 차량검지기(VDS : Vehicle Detection System)에서 수집되는 속도 자료를 이용하여 교통류 안전성을 판단하였다. 교통류의 안전성 측면에서 시정거리(VD : Visibility Distance)가 정지시거(SSD : Stopping Sight Distance)보다 길어야 이벤트 발생 시 안전하게 정지하거나 위험한 상황을 회피할 수 있다. 운전자에게 사고예방을 위한 능동적 대응이 가능하도록 하는 가치있는 정보를 제공하기 위해 최근접이웃 예측기법(KNN : K-Nearest Neighbors Method)을 활용하였다. 또한, 교통류 안전성에 대한 운전자의 이해도 증진 및 객관성을 위하여 안전성 지표(LOHSI : Level of Hazardous Spacing Index)를 제시하였다. 본 연구결과는 교통류의 안전성 향상을 위한 효율적인 교통운영을 지원 할 수 있을 것이다.

효율적인 실내 측위를 위한 최적화된 KNN/IFCM 알고리즘 (Optimized KNN/IFCM Algorithm for Efficient Indoor Location)

  • 이장재;송익호;김종화;이성로
    • 대한전자공학회논문지SP
    • /
    • 제48권2호
    • /
    • pp.125-133
    • /
    • 2011
  • WLAN 환경하에서 알고리즘 기반의 패턴 매칭을 위해 training 단계에서는 여러 개의 AP에서 신호 잡음비의 특성값을 데이터베이스에 만들어 활용하고 estimation 단계에서는 단말기(MU)의 2차원 좌표값을 단말기로부터 새롭게 얻은 SNR과 데이터베이스에 저장된 fingerprint을 비교함으로써 추정한다. Fingerprinting 방식에서 KNN은 WLAN 기반 실내 측위에 가장 많이 적용되고 있지만 KNN의 성능은 k 개의 이웃 수와 RP의 수에 따라 민감하다. 논문에서는 KNN 성능을 향상시키기 위해 PFCM 군집화를 적용한 KNN과 PFCM을 혼합한 알고리즘을 제안하였다. 제안한 알고리즘은 신호잡음비 데이터를 KNN 방법에 적용하여 k개의 RP을 선택한 후 선택된 RP의 신호잡음비를 PFCM에 적용하여 k개의 RP를 군집하여 분류한다. 실험 결과에서는 위치 오차가 2m 이내에서 KNN/IFCM 알고리즘이 KNN, KNN/FCM, KNN/PFCM 알고리즘보다 성능이 우수하다.

Classification of nuclear activity types for neighboring countries of South Korea using machine learning techniques with xenon isotopic activity ratios

  • Sang-Kyung Lee;Ser Gi Hong
    • Nuclear Engineering and Technology
    • /
    • 제56권4호
    • /
    • pp.1372-1384
    • /
    • 2024
  • The discrimination of the source for xenon gases' release can provide an important clue for detecting the nuclear activities in the neighboring countries. In this paper, three machine learning techniques, which are logistic regression, support vector machine (SVM), and k-nearest neighbors (KNN), were applied to develop the predictive models for discriminating the source for xenon gases' release based on the xenon isotopic activity ratio data which were generated using the depletion codes, i.e., ORIGEN in SCALE 6.2 and Serpent, for the probable sources. The considered sources for the neighboring countries of South Korea include PWRs, CANDUs, IRT-2000, Yongbyun 5 MWe reactor, and nuclear tests with plutonium and uranium. The results of the analysis showed that the overall prediction accuracies of models with SVM and KNN using six inputs, all exceeded 90%. Particularly, the models based on SVM and KNN that used six or three xenon isotope activity ratios with three classification categories, namely reactor, plutonium bomb, and uranium bomb, had accuracy levels greater than 88%. The prediction performances demonstrate the applicability of machine learning algorithms to predict nuclear threat using ratios of xenon isotopic activity.

A Classification Algorithm Based on Data Clustering and Data Reduction for Intrusion Detection System over Big Data

  • Wang, Qiuhua;Ouyang, Xiaoqin;Zhan, Jiacheng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권7호
    • /
    • pp.3714-3732
    • /
    • 2019
  • With the rapid development of network, Intrusion Detection System(IDS) plays a more and more important role in network applications. Many data mining algorithms are used to build IDS. However, due to the advent of big data era, massive data are generated. When dealing with large-scale data sets, most data mining algorithms suffer from a high computational burden which makes IDS much less efficient. To build an efficient IDS over big data, we propose a classification algorithm based on data clustering and data reduction. In the training stage, the training data are divided into clusters with similar size by Mini Batch K-Means algorithm, meanwhile, the center of each cluster is used as its index. Then, we select representative instances for each cluster to perform the task of data reduction and use the clusters that consist of representative instances to build a K-Nearest Neighbor(KNN) detection model. In the detection stage, we sort clusters according to the distances between the test sample and cluster indexes, and obtain k nearest clusters where we find k nearest neighbors. Experimental results show that searching neighbors by cluster indexes reduces the computational complexity significantly, and classification with reduced data of representative instances not only improves the efficiency, but also maintains high accuracy.