• 제목/요약/키워드: 질의 생성

검색결과 2,124건 처리시간 0.031초

맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘 (Travel Time Prediction Algorithm for Trajectory data by using Rule-Based Classification on MapReduce)

  • 김재원;이현조;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.798-801
    • /
    • 2014
  • 여행 정보 시스템(ATIS), 교통 관리 시스템 (ITS) 등 궤적 기반 서비스에서, 서비스 품질을 향상시키기 위해서는 주어진 궤적 질의에 대한 정확한 주행시간을 예측하는 것이 필수적이다. 이를 위한 대표적인 공간 데이터 분석 기법으로는 데이터 분류에서 높은 정확도를 보장하는 규칙 기반 분류화 기법이 존재한다. 그러나 기존 규칙 기반 분류화 기법은 단일 컴퓨터 환경만을 고려하기 때문에, 대용량 공간 데이터 처리에 적합하지 않은 문제점이 존재한다. 이를 해결하기 위해, 본 연구에서는 맵리듀스 환경에서 규칙 기반 분류화를 이용한 궤적 데이터 주행 시간 예측 알고리즘을 개발하고자 한다. 제안하는 알고리즘은 첫째, 맵리듀스를 이용하여 대용량 공간 데이터를 병렬적으로 분석함으로써, 활용도 높은 궤적 데이터 규칙을 생성한다. 이를 통해 대용량 공간 데이터 기반의 규칙 생성 시간을 감소시킨다. 둘째, 그리드 구조 기반의 지도 데이터 분할을 통해, 사용자 질의처리 시 탐색 성능을 향상시킨다. 즉, 주행 시간 예측을 위한 규칙 그룹을 탐색 시 질의를 포함하는 그리드 셀만을 탐색하기 때문에, 질의처리 성능이 향상된다. 마지막으로 맵리듀스 구조에 적합한 질의처리 알고리즘을 설계하여, 효율적인 병렬 질의처리를 지원한다. 이를 위해 맵 함수에서는 선정된 그리드 셀에 대해, 질의에 포함된 도로 구간에서의 주행 시간을 병렬적으로 측정한다. 아울러 리듀스 함수에서는 출발 시간 및 구간별 주행 시간을 바탕으로 맵 함수의 결과를 병합함으로써, 최종 결과를 생성한다. 이를 통해 공간 빅데이터 분석을 통한 주행 시간 예측 기법의 처리 시간 및 결과 정확도를 향상시킨다.

다양성을 지원하는 그래프 데이터베이스 벤치마킹 시스템 (Graph Database Benchmarking Systems Supporting Diversity)

  • 최도진;백연희;이소민;김윤아;김남영;최재용;이현병;임종태;복경수;송석일;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.84-94
    • /
    • 2021
  • 객체 간의 관계를 표현하기 위해 정점과 간선으로 구성된 그래프 데이터를 효율적으로 저장하고 질의 처리하기 위한 그래프 데이터베이스가 개발되었다. 그래프 데이터베이스는 질의 유형이 기존 NoSQL 데이터베이스와 매우 다른 특성을 보이기 때문에 그래프 데이터베이스의 성능을 검증하기 위해서는 그래프 데이터베이스에 알맞은 벤치마킹 도구가 필요하다. 본 논문에서는 그래프 입력과 질의에 대한 다양성을 지원하는 효율적인 그래프 데이터베이스 벤치마킹 시스템을 제안한다. 제안하는 시스템은 그래프 데이터베이스에 대한 벤치마킹을 테스트하기 위해서 OrientDB를 활용한다. 입력 그래프와 질의 그래프의 다양성을 지원하기 위해서 기존 그래프 데이터 생성 도구인 LDBC를 이용한다. 벤치마킹 결과 분석을 통해 제안하는 기법의 타당성 및 실효성을 입증한다. 성능 평가 결과 제안하는 시스템은 사용자 정의 가능한 가상 그래프 데이터가 생성이 가능하며, 생성된 그래프 데이터를 기반으로 벤치마킹이 가능함을 보였다.

Web GIS 클러스터링 시스템에서 질의 영역의 인접성을 이용한 로드 밸런싱 기법 (Load Balancing Method Using Proximity of Query Region in Web GIS Clustering System)

  • 장용일;이찬구;이충호;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.214-216
    • /
    • 2001
  • 웹 GIS에서의 인터넷 서비스 이용자의 집중 현상으로 발생하는 서버의 과부하 현상을 막고 안정적인 서비스 제공을 위해서는 웹 클러스터링 기술의 도입이 필요하다. 공간 질의는 웹 데이터와는 달리 인접 영역에 대한 질의가 매우 잣으며, 질의 처리 결과가 대용량이라는 특성을 가지고 있다. 이러한 공간 질의의 특성을 고려하지 않을 경우, 서버에서 처리되는 질의들의 지역적 인접성이 낮아지고 낮은 버퍼 재 사용율은 디스크로의 접근 빈도를 높여 질의 처리 비용을 증가시키는 원인이 된다. 본 논문에서는 웹 GIS 클러스터링 시스템을 위한 질의 영역의 인접성을 이용한 로드 밸런싱 기법을 제안한다. 제안하는 기법은 공간 데이터를 타일을 기반으로 인접한 타일의 그룹을 생성하여 각 서버에 할당하여, 질의 영역 및 공간 연산을 고려하여 서버에서 질의가 처리되는 동안 버퍼 재사용율이 최대가 되도록 클라이언트의 질의 요청을 적절한 서버에 전달한다. 제안하는 기법은 서버의 버퍼를 공간 인덱스 탐색에 최적화함으로써 서버의 버퍼 재상용율을 높이고, 클러스터링 시스템에서 디스크의 접근 횟수를 낮추어, 전체적인 서버 시스템의 처리 능력을 형상시킨다.

  • PDF

효율적인 센서 네트워크 관리를 위한 다중 연속질의 분할 (The Multiple Continuous Query Fragmentation for the Efficient Sensor Network Management)

  • 박정업;조명현;손진현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.43-46
    • /
    • 2006
  • 최근 센서네트워크에 관련된 많은 연구가 진행되고 있다. 특히, 센서의 전력 보전을 위한 많은 기술들이 개발되고 있는데, 본 논문에서는 센서 네트워크의 불필요한 전력 소비를 줄이는 다중 연속질의 최적화에 관련된 방법을 제시한다. 우리는 센서 네트워크에서 전송되는 데이터의 횟수나 전송량의 원천적 문제가 되는 다중 연속 질의의 중복성 문제를 해결하는 분할 알고리즘을 제안한다. 분할 알고리즘은 새롭게 생성된 사용자 질의와 기존의 질의 들 사이에 질의 중첩 질의 영역을 제거하기 위해, QR-트리 기반의 질의 인덱스를 통해 하나의 질의를 둘 이상의 질의로 분할하는 알고리즘이다. QR-트리는 효율적인 질의 분할을 위해, $R^*$-트리를 본 논문의 구조에 맞게 개량한 것이다.

  • PDF

Poly-encoder기반의 COVID-19 질의 응답 태스크 (Poly-encoder based COVID-19 Question and Answering with Task Adaptation)

  • 이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.188-191
    • /
    • 2020
  • 본 연구는 COVID-19 질의 응답 태스크를 위한 Poly-encoder 기반의 태스크를 제안하였다. COVID-19 질의 응답 시스템은 사람들에게 최신 정보에 대해 빠르고 신뢰성이 높은 정보를 전달하는 특성을 가져야한다. 검색 기반 질의 응답 시스템은 pairwise 연산을 기반으로 수행되는데, Poly-encoder는 사전 학습된 트랜스포머(transformer)기반의 pairwise 연산 방법론 중 기존 Cross-encoder와 Bi-encoder보다 실사용 및 성능이 뛰어남을 보였다 [1]. 특히, Poly-encoder는 정확도가 높으면서도 빠른 응답속도를 가지며 검색기반의 각종 태스크에서 좋은 성능을 보였다. 따라서 본 연구는 COVID-19를 위한 Poly-encoder기반의 질의 응답 태스크를 위하여 기존 질의 응답 태스크와 페르소나 기반의 질의 응답 태스크로 두 가지 유형의 태스크를 생성하여 모델을 학습하였다. 또한 신뢰성 있는 리소스정보로부터 모델에 최신 정보 반영을 위하여 자동 크롤러를 구축하여 데이터를 수집하였다. 마지막으로 전문가를 통한 데이터셋을 구축하여 질문-응답과 질의어-질문에 대한 모델 검증을 수행하였다.

  • PDF

MPEG 비디오 색인과 검색을 위한 색인키 생성 알고리즘 (An algorithm for creating index key for MPEG videos)

  • 하성욱;강대성;김대진;권기항
    • 한국멀티미디어학회논문지
    • /
    • 제2권3호
    • /
    • pp.243-251
    • /
    • 1999
  • 본 논문에서는 MPEG 비디오 데이터들을 효율적으로 색인하고 검색하기 위한 키를 정의하는 새로운 방식 을 제안한다. 기존의 방법들은 추출된 Shot과 사용자의 질의 영상올 여러 가지 특정으로 패턴 매칭하므로 수행시간이 오래 걸린다, 이에 반해,제안하는PKey생성 방법은추출된PFrame의 영상을여러 가지 특징으로 영상을 특정한 비트로 코드화하여 저장하므로 색인과 검색시에 사용자가 질의한 영상의 PKey를 사용하여 수행속도를 높일 수 있다 사용자 질의에 대한 투명성을 위해 비구문 기반 서술에 대한 5가지의 특정을 PKey로서 정의하였다.

  • PDF

연관마이닝에 의한 데이터베이스캐시 설계 (Design of Database Cache by Association Mining Method)

  • 사재학;남인길
    • 한국산업정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.16-32
    • /
    • 2002
  • 효율적인 데이타마트 정보의 축척과 질의 정보 추출을 위한 연관 마이닝 방법을 적용하여 검색 속도를 빠르게 할 수 있도록 테이블을 생성하고 고객의 속성별 가중치와 선호기준을 입력받아 선호 점수를 계산하여 점수가 높은 과목을 우선적으로 검색할 수 있도록 기존 연관 알고리즘에서 사용한 단일 항목 입력 데이터 구조를 확장하여 다중 항목 연관 알고리즘(Multiple Item Association Mining : MIAM)을 이용하여 생성된 연관 검색 유형 테이블을 데이터베이스캐시화를 설계하였다. 동일한 알고리즘에서도 데이터베이스캐시 시스템을 적용한 시스템의 질의 처리 수행속도가 우수성을 이용하여 설계함으로써 효율적인 웹 서버 기능을 수행할 수 있음과 동시에 데이터베이스 캐싱의 주요 이점인 효율성 증대, 속도 향상, 비용절감의 효과를 얻을 수 있으므로 연구 설계하였다.

  • PDF

멀티서버 환경에서의 공간 뷰 생성 및 실체화 기법 (The Spatial View Creation and Materialization Technique in Multi-Server Environments)

  • 김태연;정보홍;조숙경;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.112-114
    • /
    • 2001
  • 지금까지 구축 된 공간 데이터들을 각 서버끼리 공유하여 유사한 내용의 공간정보구축을 위만 중복투자를 막고 공간데이터의 활용도를 높이는 방안이 시급하다. 멀티서버 환경에서의 공간데이터의 공유는 데이터의 보안과 사용자 편의성을 고려하여 뷰로 제공되고 관리되어질 수 있다. 분산 된 대용량의 공간데이터에 대해 복잡한 공간연산 처리를 감안한다면 멀티서버 환경에서는 공간 뷰의 실체화가 필수적이다. 본 논문에서는 멀티서버 환경에서의 공간데이터의 유통을 지원하고 공유 된 공간데이터에 대한 사용자 편의성과 네트웍 부하를 고려한 공간 뷰 실체화 기법을 제안한다. 확장 된 공간데이터 디렉토리 서비스(Extended Spatial Data Diretory Service)를 이용하여 각 서버가 공유하는 공간테이블에 대란 정보를 검색하고, 검색 된 징보를 바탕으로 로컬서버는 각 서버에에 직접 접속하여 필요한 영역의 데이터를 얻어 뷰를 생성한다. 이때 공유 공간데이터가 대용량 데이터임을 고려하여 로컬서버는 공간 뷰 성의에 대한 술어를 분리하여 뷰 질의 처리를 각각의 원격서버로 분산시켜 네트웍 부하와 서버의 질의처리 비용을 줄이고 공간 뷰 서버에 실제화 시킴으로써 뷰에 대한 질의처리시 각 서버로의 접근을 데비터의 접근을 줄여 사용자 응-답시간을 최소화한다.

  • PDF

Skyline을 사용하는 Layer 기반 방법에 관한 조사 (An Survey on Layer-based Methods using Skylines)

  • 이지현;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1075-1076
    • /
    • 2012
  • 인터넷의 발달로 데이터가 이질적이고 방대해점에 따라 사용자의 의도와 목적에 맞는 정보를 빠르고 정확하게 찾아내는 것이 어려워지고, 대용량의 데이터를 빠르게 검색 할 수 있는 효율적인 top k 질의 처리가 중요해 지고 있다. top k 질의 처리는 릴레이션에서 가장 높은 (또는 가장 낮은) 값을 가지는 k개의 튜플을 반환하는 방법이며, 그 중 Layer 기반 방법은 객체가 가지는 d개의 속성 값들을 d-차원의 공간상의 점 객체로 랩핑하여, layer들의 list를 생성 한다. 본 논문에서는 Layer 기반 법 중 skyline을 사용하여 layer을 생성하고 인덱스를 구축하는 기존 연구에 대해서 조사한다. 그리고 대표적인 방법인 모든 객체를 순차적으로 비교하는 BNL과 이의 비교 횟수를 감소시킨 SFS, 그리고 R-tree를 사용한 NN과 이의 계산 비용을 감소시킨 BBS에 대해 설명한다.

사용자 정의 스키마 통합 (User Defined Schema Integration)

  • 이현창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.569-572
    • /
    • 2004
  • 최근 데이터베이스를 이용한 정보처리응용 시스템이 증가하고 있는 추세이다. 이러한 응용 시스템의 데이터를 종합적으로 분석 처리하여 사용자 요구에 신속하게 응답할 수 있도록 다양하고 고품질의 정보 서비스를 지원하기 위해 데이터 웨어하우스 환경에 관한 연구가 많이 이루어지고 있다. 이러한 환경을 제공하기 위해서는 많은 데이터 정보가 요구되며, 이를 분석하여 사용자 의사 결정에 적합한 정보 추출 수행은 기존의 관계형 데이터베이스 환경의 테이블들에 대한 질의 수행에서 시간적인 낭비 요소가 많이 존재한다. 그러므로 본 논문에서는 사용자 질의에서 자주 요구되는 사실 혹은 데이터를 통합, 저장 및 수행하기 위한 테이블 생성을 사용자가 직접 선택 정의함으로써 편리하게 테이블 생성할 수 있도록 설계 및 구현한다. 또한 본 내용에서 포함되는 내용으로 기존 일반적인 SQL 질의를 수행할 수 있도록 한다.

  • PDF