• 제목/요약/키워드: Multi-Query

검색결과 253건 처리시간 0.027초

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

효율적인 병렬 고차원 색인구조 설계 (Design of an Efficient Parallel High-Dimensional Index Structure)

  • 박춘서;송석일;신재룡;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.58-71
    • /
    • 2002
  • 일반적으로 이미지나 공간 데이터베이스와 같은 다차원의 특징을 갖는 데이터들은 대용량의 저장공간을 요구한다. 이 대량의 데이터를 하나의 워크스테이션에 저장하고 검색을 수행하는 데는 한계가 있다. 최근 활발히 연구되고 있는 병렬 컴퓨팅 환경에서 이들에 대한 저장 및 검색을 수행한다면 훨씬 더 높은 성능 향상을 가져 올 수 있을 것이다. 이 논문에서는 기존에 존재하는 병렬 컴퓨팅 환경의 장점을 최대한 이용하는 병렬 고차원 색인구조를 제안한다. 제안하는 색인구조는 nP(프로세서)-nD(디스크)와 lP-nD의 결합 형태인 nP-n$\times$mD의 구조라고 볼 수 있다. 노드 구조는 팬-아웃을 증가시키고 트리의 높이를 줄일 수 있도록 설계되었다. 또한 I/O의 별렬성을 최대화하는 범위 탐색 알고리즘을 제안하고 이것을 K-최근접 탐색 알고리즘에 적용하여 탐색 성능향상을 꾀한다. 마지막으로, 다양한 환경에서의 실험을 통해 제안하는 색인구조의 탐색 성능을 테스트하고 기존에 제안된 병렬 다차원 색인구조와의 비교를 통해 제안한 방법의 우수함을 보인다.

NFA 표현을 사용한 문서-중심적 XML의 키워드 기반 필터링 기법 (A Keyword-based Filtering Technique of Document-centric XML using NFA Representation)

  • 이경한;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.437-452
    • /
    • 2006
  • XPath 명세는 XML 원소 내용을 필터링하기 위한 질의어 작성이 어렵다. 본 논문은 이러한 문제점을 해결하기 위해 SQL의 LIKE 연산자에서 사용되던 특별한 매칭 문자 '%'를 허용한 확장된 XPath 명세와 그것을 표준 질의어로 사용하는 문서-중심적 XML 필터링 기법인 Pfilter를 제안한다. Pfilter는 값-기반 술어(value-based predicate)에서 피연산자의 공통 앞부분 문자를 공유하여 값-기반 술어의 처리 성능을 향상시킨다. 또한 본 논문은 Pfilter와 대표적인 데이타-중심적 XML 필터링 기법인 Yfilter를 값-기반 술어 처리의 확장성과 효율성에 대해 비교하고 Pfilter의 값-기반 술어 삽입, 삭제, 처리 결과를 제공한다. 본 논문에서 제안한 Pfilter는 XML 필터링 시스템에서 XPath의 contains() 함수를 평가(evaluation)하기 위한 핵심 알고리즘으로 사용할 수 있으며, XML 기반의 분산 정보 시스템을 구축하기 위한 기초 연구로 활용될 수 있다.

웨이브릿 계수의 퍼지 동질성과 고주파 에너지를 이용한 영상 검색용 특징벡터 추출 (Visual Feature Extraction for Image Retrieval using Wavelet Coefficient’s Fuzzy Homogeneity and High Frequency Energy)

  • 박원배;류은주;송영준
    • 한국콘텐츠학회논문지
    • /
    • 제4권1호
    • /
    • pp.18-23
    • /
    • 2004
  • 본 논문에서는 공간주파수 특성과 다중 해상도 특성을 모두 갖는 웨이브릿 변환을 이용하여 각 대역의 특성에 맞는 비주얼 특징을 추출하고 이를 내용기반 영상 검색에 이용하는 새로운 방법을 제시하였다. 웨이브릿 변환된 영상의 최저주파 대역은 원 영상의 근사한 형태로 공간 정보를 충분히 활용할 수 있다. 이를 위해 웨이브릿 계수값과 각 계수간의 공간 정보를 모두 고려한 퍼지 동질성(FH : Fuzzy Homogeneity)를 이용하여 L개의 특징 벡터를 추출하였고, 나머지 고주파 대역의 에너지 값을 이용하여 3개의 특징 벡터를 추출하여 이를 영상 데이터베이스에 저장한다. 질의 시에는 L개의 FH 벡터 중 가장 크기가 큰 10개의 값과 3개의 고주파 대역의 에너지 값을 이용하여 가장 유사한 영상을 검색하였다. 90개의 텍스쳐 영상을 사용해 실험한 결과 좋은 정확성을 보였다.

  • PDF

공간 히스토그램과 웨이브렛 모멘트의 융합에 의한 영상검색 (Image Retrieval Using the Fusion of Spatial Histogram and Wavelet Moments)

  • 서상용;김남철
    • 대한전자공학회논문지SP
    • /
    • 제38권4호
    • /
    • pp.434-441
    • /
    • 2001
  • 본 논문에서는 공간 히스토그램과 웨이브렛 모멘트를 융합하여 검색 효율을 크게 향상시키는 방법을 제안한다. 이 방법에서는 질의영상과 DB영상간의 유사도를 구할 때 히스토그램의 유사도와 웨이브렛 모멘트의 유사도를 효과적으로 융합한다. 즉, 공간적 이동, 회전 등에 강한 히스토그램 특징과 주파수 대역별로 구해지는 웨이브렛 모멘트 특징을 잘 융합함으로써 검색성능의 향상을 추구한다. 제안한 방법의 성능을 평가하기 위한 시험영상 DB로는 Brodatz 질간 영상 DB와 Corel Draw Photo 영상 DB를 사용하였다. 실험 결과, 제안한 방법으로 구한 검색율이 Brodatz DB에서 히스토그램이나 웨이브렛 모멘트만으로 구한 검색율보다 각각 5.3%와 13.8% 향상되었고, Corel Draw Photo DB에서는 각각 15.5%와 3.2% 향상됨을 확인할 수 있었다.

  • PDF

PubMine: An Ontology-Based Text Mining System for Deducing Relationships among Biological Entities

  • Kim, Tae-Kyung;Oh, Jeong-Su;Ko, Gun-Hwan;Cho, Wan-Sup;Hou, Bo-Kyeng;Lee, Sang-Hyuk
    • Interdisciplinary Bio Central
    • /
    • 제3권2호
    • /
    • pp.7.1-7.6
    • /
    • 2011
  • Background: Published manuscripts are the main source of biological knowledge. Since the manual examination is almost impossible due to the huge volume of literature data (approximately 19 million abstracts in PubMed), intelligent text mining systems are of great utility for knowledge discovery. However, most of current text mining tools have limited applicability because of i) providing abstract-based search rather than sentence-based search, ii) improper use or lack of ontology terms, iii) the design to be used for specific subjects, or iv) slow response time that hampers web services and real time applications. Results: We introduce an advanced text mining system called PubMine that supports intelligent knowledge discovery based on diverse bio-ontologies. PubMine improves query accuracy and flexibility with advanced search capabilities of fuzzy search, wildcard search, proximity search, range search, and the Boolean combinations. Furthermore, PubMine allows users to extract multi-dimensional relationships between genes, diseases, and chemical compounds by using OLAP (On-Line Analytical Processing) techniques. The HUGO gene symbols and the MeSH ontology for diseases, chemical compounds, and anatomy have been included in the current version of PubMine, which is freely available at http://pubmine.kobic.re.kr. Conclusions: PubMine is a unique bio-text mining system that provides flexible searches and analysis of biological entity relationships. We believe that PubMine would serve as a key bioinformatics utility due to its rapid response to enable web services for community and to the flexibility to accommodate general ontology.

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

B2V-Tree: 무선 데이타 스트림에서 부분 부합 질의를 위한 색인 기법 (B2V-Tree: An Indexing Scheme for Partial Match Queries on Wireless Data Streams)

  • 정연돈;이지연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.285-296
    • /
    • 2005
  • 이동 분산 환경에서는 무선 데이타 방송 기법을 통하여 서버의 데이타 레코드들을 이동 사용자들에게 전달하는 방식이 많이 사용된다. 그리고, 무선 방송 스트림에서 데이타를 에너지 효율적으로 접근하기 위해서는 색인 기법이 필요하다. 하지만, 기존의 색인 기법들은 데이타 레코드의 키 값을 이용한 트리 형태의 색인 구조를 사용하고 있다. 따라서 부분 부합 질의 등과 같은 내용 기반 검색 질의를 지원할 수 없었다. 본 논문에서는 무선 방송으로 이동 사용자들에게 전달되는 데이타 스트림에서 내용 기반 검색인 부분 부합 질의를 지원하기 위해 B2V-Tree라고 불리는 색인 기법을 제안한다. 본 논문에서 제안하는 B2V-Tree는 데이타 레코드들의 애트리뷰트 값을 다중 애트리뷰트 해싱을 통해 비트 벡터로 생성한 다음, 이들을 색인 트리로 구성하는 색인 기법이다.