• 제목/요약/키워드: k-NN Search

검색결과 43건 처리시간 0.032초

GAVaPS를 이용한 다수 K-Nearest Neighbor classifier들의 Feature 선택 (Feature Selection for Multiple K-Nearest Neighbor classifiers using GAVaPS)

  • 이희성;이제헌;김은태
    • 한국지능시스템학회논문지
    • /
    • 제18권6호
    • /
    • pp.871-875
    • /
    • 2008
  • 본 논문은 개체 변환 유전자 알고리즘을 (GAVaPS) 이용하여 k-nearest neighbor (k-NN) 분류기에서 사용되는 특징들을 선정하는 방법을 제시한다. 우리는 다수의 k-NN 분류기들을 사용하기 때문에 사용되는 특징들을 선정하는 문제는 매우 탐색 영역이 크고 해결하기 어려운 문제이다. 따라서 우리는 효과적인 특징득의 선정을 위해 일반적인 유전자 알고리즘 (GA) 보다 효율적이라고 알려진 개체군 변환 유전자 알고리즘을 사용한다. 또한 다수 k-NN 분류기를 개체군 변환 유전자 알고리즘으로 효과적으로 결합하는 방법을 제시한다. 제안하는 알고리즘의 우수성을 여러 실험을 통해 보여준다.

보로노이 다이어그램의 경계지점 최소거리 행렬 기반 k-최근접점 탐색 알고리즘 (k-NN Query Processing Algorithm based on the Matrix of Shortest Distances between Border-point of Voronoi Diagram)

  • 엄정호;장재우
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권1호
    • /
    • pp.105-114
    • /
    • 2009
  • 최근 사용자에게 자신과 가장 가까운 k 개의 주유소, 레스토랑, 은행 등의 POI(Point Of Interest) 정보를 추천해주는 위치 기반 서비스가 텔레매틱스, ITS(Intelligent Transport Systems), 키오스크(kiosk)등의 어플리케이션에서 필요로 하고 있다. 이를 위해, 보로노이 다이어그램 k-최근접점 탐색 알고리즘이 제안되었다. 이는 보로노이 다이어그램에서 각 POI의 네트워크의 거리를 미리 계산한 파일을 이용하여 k-최근접점 탐색을 수행한다. 그러나 이 알고리즘은 보로노이 다이어그램 확장에 따른 비용 문제를 야기한다. 따라서 본 논문에서는 보로노이 다이어그램의 경계지점마다 각각에 대하여 최소거리 행렬을 생성하는 알고리즘을 제안한다. 또한 k 개의 POI를 탐색하기 위해, 최소거리 행렬을 이용한 k-최근접점 탐색 알고리즘을 제안한다. 제안하는 알고리즘은 미리 계산된 경계 지점 간 최소거리 행렬을 통해 탐색하므로, k-최근 접점 탐색 시 보로노이 다이어그램의 확장비용을 최소화한다. 아울러 기존 연구와의 성능비교를 통해 제안하는 알고리즘이 기존 알고리즘에 비해 검색시간 측면에서 성능이 우수함을 보인다.

  • PDF

평면 색인 구조에서 효율적인 k-근접 이웃 찾기 (Efficient k-nn search on directory-based index structure)

  • 김태완;강혜영;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.779-781
    • /
    • 2003
  • 최근에 제안된 VA-File[6]은 k-NN 질의 처리에서 아주 효율적이라고 알려져 있다. 제시된 방법은 분할된 데이터의 저장 효율성을 보장하지 못하기 때문에 각 차원에 할당된 비트의 수가 증가하면(비트수=3~5) 할수륵 거의 모든 데이터에 대하여 MBH를 생성하는 단점이 있다. k-NN 질의는 거의 모든 데이터를 순차 검색을 통한 일차적 가지제거작업을 한 후. 질의를 수행하기 위한 디스크 접근을 한다. 따라서, 질의를 수행하기 위한 디스크 접근 횟수는 다른 방법들에 비하여 거의 최적에 가까운 접근 횟수를 가지나 주 기억 장치에서 최소-힘을 이용하여 수행하는 일차적 가지 제거 작업의 오버 로더는 간과되었다. 우리는 기존에 알려진 재귀적으로 공간을 두개의 부 공간으로 분할하는 방법을 사용하여 VA-File 과 같은 디렉토리 자료구조를 구축하여 k-NN 실험을 하였다. 이러한 분할된 MBH의 정방형성을 선호하는 방법은 저장 효율성을 보장한다. 실제 데이터에 대한 실험에서 우리가 실험한 간단한 방법은 디스크 접근 시간 및 CPU 시간을 합한 전체 수행시간에서 VA-File에 비하여 최대 93% 정도의 성능 향상이 있다.

  • PDF

자기 조직화 맵 기반 유사화상 검색의 고속화 수법 (A Method of Highspeed Similarity Retrieval based on Self-Organizing Maps)

  • 오군석;양성기;배상현;김판구
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.515-522
    • /
    • 2001
  • 특징정보를 기반으로 한 유사화상 검색은 화상 데이터베이스에 있어서 중요한 과제의 하나이다. 화상 데이터의 특징정보를 각 화상을 식별하는데 유용한 정보이다. 본 논문에서는 자기조직화 맵기반의 고속 k-NN 탐색 알고리즘을 제안한다. 자기조직화 맵은 학습을 통하여 고차원 특징벡터를 2차원 공간에 맵핑함으로서 위상 특징맵을 생성한다. 위상 특징맵은 입력 데이터의 특징공간의 상호간의 유사성을 가지고 있으며, 각 노드는 노드벡터와 각 노드벡터에 가장 가까운 유사화상이 분류된다. 이러한 자기조직화 맴에 의한 유사화상 분류결과에 대한 k-NN 탐색을 구현하기 위한여, (1) 위상특징 맵에 대한 접근방법, (2) 고속탐색을 위한 pruning strategy의 적용을 실현하였다. 본 연구에서는 실험을 통하여 실제화상으로부터 추출한 색상 특징을 사용하여 제안한 알고리즘의 성능을 평가함으로써 유사화상 검색에 유효한 결과를 얻을 수 있었다.

  • PDF

k-NN based Pattern Selection for Support Vector Classifiers

  • Shin Hyunjung;Cho Sungzoon
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2002년도 춘계공동학술대회
    • /
    • pp.645-651
    • /
    • 2002
  • we propose a k-nearest neighbors(k-NN) based pattern selection method. The method tries to select the patterns that are near the decision boundary and that are correctly labeled. The simulations over synthetic data sets showed promising results: (1) By converting a non-separable problem to a separable one, the search for an optimal error tolerance parameter became unnecessary. (2) SVM training time decreased by two orders of magnitude without any loss of accuracy. (3) The redundant SVM were substantially reduced.

  • PDF

HD-Tree: 고성능 Lock-Free NNS KD-Tree (HD-Tree: High performance Lock-Free Nearest Neighbor Search KD-Tree)

  • 이상기;정내훈
    • 한국게임학회 논문지
    • /
    • 제20권5호
    • /
    • pp.53-64
    • /
    • 2020
  • KD-Tree에서 NNS의 구현은 다차원 데이터를 다루는 응용 프로그램에서 필수적이다. 본 논문에서는 자료구조의 동시 수정, 검색이 일어나는 멀티스레드 상황에서 NNS를 지원하는 고성능 Lock-Free KD-Tree인 HD-Tree를 제안한다. HD-Tree는 동기화에 사용되는 노드 수를 최소화하고, 사용하는 원자 연산자의 수를 감소시켜 성능을 개선하였다. 실험 결과 HD-Tree는 8코어 16스레드의 멀티코어 시스템에서 기존의 NNS보다 성능이 최대 95% 향상되었고, 삽입/삭제연산은 코어보다 스레드가 많은 상황에서 기존 알고리즘보다 최대 15%향상된 성능을 보여준다.

Ordered Reverse k Nearest Neighbor Search via On-demand Broadcast

  • Li, Li;Li, Guohui;Zhou, Quan;Li, Yanhong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권11호
    • /
    • pp.3896-3915
    • /
    • 2014
  • The Reverse k Nearest Neighbor (RkNN) query is valuable for finding objects influenced by a specific object and is widely used in both scientific and commercial systems. However, the influence level of each object is unknown, information that is critical for some applications (e.g. target marketing). In this paper, we propose a new query type, Ordered Reverse k Nearest Neighbor (ORkNN), and make efforts to adapt it in an on-demand scenario. An Order-k Voronoi diagram based approach is used to answer ORkNN queries. In particular, for different values of k, we pre-construct only one Voronoi diagram. Algorithms on both the server and the clients are presented. We also present experimental results that suggest our proposed algorithms may have practical applications.

MapReduce 환경에서 재그룹핑을 이용한 Locality Sensitive Hashing 기반의 K-Nearest Neighbor 그래프 생성 알고리즘의 개선 (An Improvement in K-NN Graph Construction using re-grouping with Locality Sensitive Hashing on MapReduce)

  • 이인희;오혜성;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.681-688
    • /
    • 2015
  • k-Nearest Neighbor(k-NN)그래프는 모든 노드에 대한 k-NN 정보를 나타내는 데이터 구조로써, 협업 필터링, 유사도 탐색과 여러 정보검색 및 추천 시스템에서 k-NN그래프를 활용하고 있다. 이러한 장점에도 불구하고 brute-force방법의 k-NN그래프 생성 방법은 $O(n^2)$의 시간복잡도를 갖기 때문에 빅데이터 셋에 대해서는 처리가 곤란하다. 따라서, 고차원, 희소 데이터에 효율적인 Locality Sensitive Hashing 기법을 (key, value)기반의 분산환경인 MapReduce환경에서 사용하여 k-NN그래프를 생성하는 알고리즘이 연구되고 있다. Locality Sensitive Hashing 기법을 사용하여 사용자를 이웃후보 그룹으로 만들고 후보내의 쌍에 대해서만 brute-force하게 유사도를 계산하는 two-stage 방법을 MapReduce환경에서 사용하였다. 특히, 그래프 생성과정 중 유사도 계산하는 부분이 가장 많은 시간이 소요되므로 후보 그룹을 어떻게 만드는 것인지가 중요하다. 기존의 방법은 사이즈가 큰 후보그룹을 방지하는데 한계점이 있다. 본 논문에서는 효율적인 k-NN 그래프 생성을 위하여 사이즈가 큰 후보그룹을 재구성하는 알고리즘을 제시하였다. 실험을 통해 본 논문에서 제안한 알고리즘이 그래프의 정확성, Scan Rate측면에서 좋은 성능을 보임을 확인하였다.

데이터 접근 패턴 은닉을 지원하는 암호화 인덱스 기반 kNN 질의처리 알고리즘 (kNN Query Processing Algorithm based on the Encrypted Index for Hiding Data Access Patterns)

  • 김형일;김형진;신영성;장재우
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1437-1457
    • /
    • 2016
  • 데이터베이스 아웃소싱 환경에서, 클라우드는 인증된 사용자에게 아웃소싱된 데이터베이스를 기반으로 질의 서비스를 제공한다. 그러나 금융, 의료 정보와 같은 민감한 데이터는 클라우드에 아웃소싱 되기 전에 암호화되어야 한다. 한편, kNN 질의는 다양한 분야에서 폭넓게 사용되는 대표적인 질의 타입이며, kNN 질의 결과는 사용자의 관심사 및 선호도와 밀접하게 연관된다. 따라서 데이터 보호와 질의 보호를 동시에 고려하는 kNN 질의 처리 알고리즘에 대한 연구가 진행되어 왔다. 그러나 기존 연구는 높은 연산 비용이 요구되거나, 탐색한 인덱스의 노드 및 반환된 질의 결과가 드러나기 때문에 데이터 접근 패턴이 노출되는 문제점이 존재한다. 이러한 문제를 해결하기 위해 본 논문에서는 암호화 데이터베이스 상에서의 kNN 질의처리 알고리즘을 제안한다. 제안하는 알고리즘은 데이터 보호 및 질의 보호를 지원한다. 또한, 제안하는 알고리즘은 데이터 접근 패턴을 보호하는 동시에 효율적인 질의처리를 지원한다. 이를 위해, 데이터 접근 패턴 노출 없이 데이터 필터링을 지원하는 암호화 인덱스 탐색 기법을 제안한다. 성능 분석을 통해, 제안하는 알고리즘이 기존 기법에 비해 질의처리 시간 측면에서 우수한 성능을 보임을 검증한다.

A KD-Tree-Based Nearest Neighbor Search for Large Quantities of Data

  • Yen, Shwu-Huey;Hsieh, Ya-Ju
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권3호
    • /
    • pp.459-470
    • /
    • 2013
  • The discovery of nearest neighbors, without training in advance, has many applications, such as the formation of mosaic images, image matching, image retrieval and image stitching. When the quantity of data is huge and the number of dimensions is high, the efficient identification of a nearest neighbor (NN) is very important. This study proposes a variation of the KD-tree - the arbitrary KD-tree (KDA) - which is constructed without the need to evaluate variances. Multiple KDAs can be constructed efficiently and possess independent tree structures, when the amount of data is large. Upon testing, using extended synthetic databases and real-world SIFT data, this study concludes that the KDA method increases computational efficiency and produces satisfactory accuracy, when solving NN problems.