• 제목/요약/키워드: Query Classification

검색결과 121건 처리시간 0.029초

하이브리드 공간 DBMS에서 질의 분류를 이용한 최적화 기법 (Query Optimization Scheme using Query Classification in Hybrid Spatial DBMS)

  • 정원일;장석규
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.290-299
    • /
    • 2008
  • 본 논문에서는 하이브리드 공간 DBMS에서 질의 분류를 이용한 최적화 기법을 제안한다. 제안 기법은 질의에 이용되는 데이터의 위치에 따라 메모리 질의, 디스크 질의, 하이브리드 질의로 분류하여 처리한다. 특히, 하이브리드 질의의 경우에는 실체화 뷰의 사용률을 높이기 위해 실체화 뷰 생성 조건과 사용자 질의 조건을 비교하여 술어를 분할하는 메커니즘을 적용한다. 또한 질의를 최적화하기 위해 분류된 질의의 비용 계산 결과를 이용하여 최소 비용의 데이터 접근 경로를 선택할 수 있는 데이터 접근 경로 선택 알고리즘을 제안한다. 제안 기법은 대용량 데이터 관리와 빠른 응답 속도를 동시에 만족하는 하이브리드 공간 DBMS의 성능을 기존의 디스크 기반 공간 DBMS보다 최소 20%에서 최대 50%의 성능 향상을 보인다.

스케치 질의를 통한 웹기반 영상 검색과 분류 시스템 (Web-based Image Retrieval and Classification System using Sketch Query)

  • 이상봉;고병철;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.703-712
    • /
    • 2003
  • 디지털 기술의 발달과 인터넷의 대중화에 더불어 영상데이타의 생산과 교환이 더 자유로워짐에 따라 디지털 도서관, 영상처리, 데이타베이스 시스템과 같은 연구분야에서 내용기반 영상검색에 대한 관심이 높아지고 있다. 일반적으로 ´영상에 의한 질의´의 경우 사용자가 마음에 드는 영상이 없더라도 반듯이 진의 영상을 데이타베이스로부터 선택해야 하지만, ´스케치에 의한 질의´는 사용자의 생각에 따라 영상온 그림으로 표현할 수 있으므로 최근에 가장 많이 사용되는 질의 방법 중 하나이다. 본 논문에서는 스케치 진의와 영상 분류 방법을 이용하는 사바 기반의 영상검색 시스템을 제안한다. 본 시스템에서는 유사영상을 검색하기 위해 영상으로부터 색상 히스토그램과 Haar-웨이블릿 계수를 사용하고, leave-one-out 방법을 이용하여 영상을 분류하도록 하였다. 본 논문에서는 사진-그림, 자연 도시 등의 영상 분류론 통해 영상의 의미정보를 추출할 수 있을 뿐 아니라, 사용자 질의 영상을 분류하여, 질의 영상이 갖고 있는 의미공간으로 검색 공간을 축소하여 검색 시간을 단축시키는 효율성을 얻을 수 있었다.

Robust Face Recognition under Limited Training Sample Scenario using Linear Representation

  • Iqbal, Omer;Jadoon, Waqas;ur Rehman, Zia;Khan, Fiaz Gul;Nazir, Babar;Khan, Iftikhar Ahmed
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권7호
    • /
    • pp.3172-3193
    • /
    • 2018
  • Recently, several studies have shown that linear representation based approaches are very effective and efficient for image classification. One of these linear-representation-based approaches is the Collaborative representation (CR) method. The existing algorithms based on CR have two major problems that degrade their classification performance. First problem arises due to the limited number of available training samples. The large variations, caused by illumintion and expression changes, among query and training samples leads to poor classification performance. Second problem occurs when an image is partially noised (contiguous occlusion), as some part of the given image become corrupt the classification performance also degrades. We aim to extend the collaborative representation framework under limited training samples face recognition problem. Our proposed solution will generate virtual samples and intra-class variations from training data to model the variations effectively between query and training samples. For robust classification, the image patches have been utilized to compute representation to address partial occlusion as it leads to more accurate classification results. The proposed method computes representation based on local regions in the images as opposed to CR, which computes representation based on global solution involving entire images. Furthermore, the proposed solution also integrates the locality structure into CR, using Euclidian distance between the query and training samples. Intuitively, if the query sample can be represented by selecting its nearest neighbours, lie on a same linear subspace then the resulting representation will be more discriminate and accurately classify the query sample. Hence our proposed framework model the limited sample face recognition problem into sufficient training samples problem using virtual samples and intra-class variations, generated from training samples that will result in improved classification accuracy as evident from experimental results. Moreover, it compute representation based on local image patches for robust classification and is expected to greatly increase the classification performance for face recognition task.

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

Automated Classification of Audio Genre using Sequential Forward Selection Method

  • Lee Jong Hak;Yoon Won lung;Lee Kang Kyu;Park Kyu Sik
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.768-771
    • /
    • 2004
  • In this paper, we propose a content-based audio genre classification algorithm that automatically classifies the query audio into five genres such as Classic, Hiphop, Jazz, Rock, Speech using digital signal processing approach. From the 20 second query audio file, 54 dimensional feature vectors, including Spectral Centroid, Rolloff, Flux, LPC, MFCC, is extracted from each query audio. For the classification algorithm, k-NN, Gaussian, GMM classifier is used. In order to choose optimum features from the 54 dimension feature vectors, SFS (Sequential Forward Selection) method is applied to draw 10 dimension optimum features and these are used for the genre classification algorithm. From the experimental result, we verify the superior performance of the SFS method that provides near $90{\%}$ success rate for the genre classification which means $10{\%}$-$20{\%}$ improvements over the previous methods

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

사례기반 추론을 이용한 한글 문서분류 시스템 (A Hangul Document Classification System using Case-based Reasoning)

  • 이재식;이종운
    • Asia pacific journal of information systems
    • /
    • 제12권2호
    • /
    • pp.179-195
    • /
    • 2002
  • In this research, we developed an efficient Hangul document classification system for text mining. We mean 'efficient' by maintaining an acceptable classification performance while taking shorter computing time. In our system, given a query document, k documents are first retrieved from the document case base using the k-nearest neighbor technique, which is the main algorithm of case-based reasoning. Then, TFIDF method, which is the traditional vector model in information retrieval technique, is applied to the query document and the k retrieved documents to classify the query document. We call this procedure 'CB_TFIDF' method. The result of our research showed that the classification accuracy of CB_TFIDF was similar to that of traditional TFIDF method. However, the average time for classifying one document decreased remarkably.

로그분석을 통한 이용자의 웹 문서 검색 행태에 관한 연구 (Investigating Web Search Behavior via Query Log Analysis)

  • 박소연;이준호
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.111-122
    • /
    • 2002
  • 본 연구에서는 웹 검색 이용자들의 전반적인 검색 행태를 이해하기 위하여 국내에서 널리 사용되고 있는 웹 검색 서비스 네이버에서 생성된 검색 트랜잭션 로그를 분석하였다. 본 연구에서는 웹 검색 트랜잭션 로그 분석에 필요한 세션 정의 방법을 설명하고 로그 정제 및 질의 유형 분류방법을 제시하였으며, 한글 검색 트랜잭션 로그 분석에 필수절인 검색어 정의 방법을 제안하였다. 본 연구의 결과는 보다 효과적인 국내 웹 검색 시스템 개발과 서비스 구축에 기여할 것으로 기대된다.

퍼지질의 처리를 위한 메타데이터에 관한 연구 (Study of MetaData for Natural Language Query Processing)

  • 신세영;박순철;이상범
    • 전자공학회논문지CI
    • /
    • 제40권5호
    • /
    • pp.259-265
    • /
    • 2003
  • 정보산업의 발달과 함께 일반 사용자들의 데이터베이스 사용이 증가됨에 따라 부정확한 질의를 처리할 수 있는 인공지능적인 질의시스템이 필요하게 되었다. 이러한 질의 시스템이 질의를 처리하기 위해서는 불확실한 데이터들에 대한 정보를 제공하는 메타데이터가 필수적이다. 따라서 이러한 메타데이터에 대한 정형화와 그 분류체계가 필요하다. 본 논문에서는 퍼지이론을 기초로 하여 메타데이터의 정형화를 유도하였다. 또한 그것을 이용한 퍼지질의어 처리의 수행과정을 제시하였다.

위치기반 서비스를 위한 다중레벨 DBMS에 질의 분류 컴포넌트의 설계 및 구현 (Design and Implementation of Query Classification Component in Multi-Level DBMS for Location Based Service)

  • 장석규;어상훈;김명근;배해영
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.689-698
    • /
    • 2005
  • 현재 위치기반 서비스를 제공하기 위하여 다양한 시스템들이 사용되고 있다. 그러나 기존의 시스템들은 상당히 많은 사용자들에게 빠른 서비스를 제공하기에는 적합하지가 않다. 이러한 문제점을 해결하기 위하여 빠른 데이터 처리와 대용량의 데이터 관리를 동시에 지원하는 다중레벨 DBMS를 사용하여야 한다. 스냅샷을 갖는 다중레벨 DBMS는 디스크에 모든 데이터를 가지고 있으며, 빠른 처리를 요구하는 데이터는 스냅샷의 형태로 메인메모리 데이터베이스에서 관리한다. 이 시스템의 성능을 최적화하여 위치기반 서비스를 제공하기 위해서는 스냅샷에 존재하는 데이터를 효율적으로 사용할 수 있도록 질의를 분류하는 컴포넌트가 필요하다. 본 논문에서는 위치기반 서비스를 위한 다중레벨 DBMS에서 질의 분류 컴포넌트를 설계하고 구현한다. 제안된 컴포넌트는 입력된 질의를 메모리 질의, 디스크 질의, 하이브리드 질의로 분류하여 스냅샷 사용율을 높이고, 스냅샷의 일부분을 사용할 수 있도록 질의의 비공간과 공간 필터 조건을 분할하는 메커니즘을 사용하였다. 따라서, 제안된 컴포넌트는 효율적인 질의 분류를 통하여 스냅샷을 최대한 이용함으로써 시스템의 성능을 향상시킨다.