• 제목/요약/키워드: 영역 합 질의

검색결과 25건 처리시간 0.016초

중첩된-서브큐브: 전위-합 큐브를 위한 손실 없는 압축 방법 (Overlapped-Subcube: A Lossless Compression Method for Prefix-Sun Cubes)

  • 강흠근;민준기;전석주;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.553-560
    • /
    • 2003
  • 영역 질의는 의사결정에서 자주 사용되는 중요한 질의이다. 그러나, 영역 질의를 처리하기 위해서는 많은 점(cell)들이 검색되어야 하기 때문에 효율적인 처리가 쉽지 않았다. 이러한 문제를 해결하기 위해서 영역의 크기에 관계없이 일정한 시간에 영역 질의를 처리할 수 있는 전위-합 큐브(prefix-sum cube)가 제안되었다. 그러나, 전위-합 큐브는 영역 질의의 처리는 효율적으로 할 수 있지만, 그것을 저장하기 위해 매우 큰 저장 공간이 필요하다는 문제를 갖고 있다. 본 논문에서는 전위-합 큐브의 이 문제를 해결하기 위해서 손실 없이 전위-합 큐브를 압축하는 중첩된-서브큐브 압축 방법을 제안한다. 중첩된-서브큐브 압축 방법은 전위-합 큐브의 압축을 위해서 만들어진 것으로 압축된 상태에서 저장된 값을 검색할 수 있는 매우 유용한 특징이 있다. 이 특징으로 인해, 질의 처리 시 압축된 전위-합 큐브를 그대로 사용할 수 있다. 압축된 전위-합 큐브를 사용하면, 동일한 크기의 버퍼에 전위-합 큐브의 더 많은 부분을 저장할 수 있다. 이것은 질의 처리 시 디스크 입출력의 횟수를 획기적으로 감소시킨다.

시공간 데이타베이스에서 영역 합 질의를 위한 색인 기법 (An Indexing Technique for Range Sum Queries in Spatio - Temporal Databases)

  • 조형주;최용진;민준기;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권2호
    • /
    • pp.129-141
    • /
    • 2005
  • 시공간 데이타베이스는 최근에 많은 주목을 받았지만, 영역 합 질의에 대한 연구는 그 중요성에 비하여 많이 부족하다. 영역 합 질의를 처리하기 위하여, 많은 양의 데이타에 대한 직접적인 접근은 엄청난 계산 비용을 야기하기 때문에, 최근에 기존 색인 기법을 활용한 materialization 방법이 제안되었다. 간단하면서 효과적인 방법은 시공간 조건을 가지는 윈도우 질의를 효율적인 처리하는 MVR-tree에 materialization 방법을 적용하는 것이다. 그러나, MVR-tree는 노드들 사이의 존재하는 원형 경로 때문에, 중간 노드에 미리 계산된 합을 유지하는 것이 불가능하다. 다른 색인 구조들에 기초한 집합적 구조(aggregate structures)는 만족스러운 질의 성능을 제공하지 못 한다. 본 논문에서는 적응적 분할 기법을 사용하는 새로운 색인 기법(Adaptive Partitioned Aggregate R-Tree, APART)과 다양한 환경에서 영역합 질의를 효율적으로 처리하는 질의 처리 알고리즘을 제안한다. 실험 결과는 APART의 성능이 다양한 상황에서 기존의 집합적 색인 기법들보다 2배 이상 우월하다는 것을 보여준다.

영역-그룹화 질의 계산 알고리즘 (An Algorithm for Computing Range-Groupby Queries)

  • 이영구;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.247-261
    • /
    • 2002
  • 온라인 분석처리(On-Line Analytical Processing: OLAP)에서 집계 연산은 중요한 기본 연산이다. 본 논문에서는 OLAP에서의 집계 질의 중 영역-그룹화(range-groupby)라는 새로운 클래스의 질의를 정의하고, 이 질의의 처리 방법을 제시한다. 영역-그룹화 질의는 n-차원 데이타 큐브의 임의의 영역에 속한 셀들에 대하여 주어진 그룹화 속성들의 조합에 따라 집계 값을 구하는 질의이다. 이 질의는 관심의 대상이 되는 임의의 영역 내에서의 경향을 다각적인 측면에서 분석하기 위해서 OLAP에서 자주 사용되는 질의이다. 일반적으로, OLAP에서는 질의를 빠르게 처리하기 위하여 전방-합 배열(prefix-sum array)이라 불리는 집계 결과를 미리 계산하여 유지하는 선계산 기법이 실제적으로 널리 사용되고 있다. 그런데, 영역-그룹화 질의의 경우에는, 그룹화 속성들의 모든 조합에 대하여 집계 결과를 저장해야 하기 때문에, 저장 공간 오버헤드가 너무 크다. 본 논문에서는 가능한 적은 공간 오버헤드를 가지고 영역-그룹화 질의를 빠르게 처리할 수 있는 방법을 제안한다. 제안한 방법은 단지 하나의 전방-합 배열만을 유지하면서도, 가능한 모든 그룹화 속성의 조합에 대하여 영역-그룹화 질의를 효율적으로 처리한다. 이 방법은 가능한 모든 그룹화 속성들의 조합에 대하여, 전방-합 배열을 선계산하여 유지하는 방법과 비교할 때 액세스되는 셀의 개수는 비슷하면 서 공간 오버헤드는 (equation omitted)(n은 디멘젼의 개수)로 줄인다.

OLAP에서 MAX-of-SUM 질의의 효율적인 처리 기법 (Efficient Processing of MAX-of-SUM Queries in OLAP)

  • 정희정;김동욱;김종수;이윤준;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권2호
    • /
    • pp.165-174
    • /
    • 2000
  • OLAP 분야에서 지금까지 연구되어온 영역 질의는 주어진 영역에 대한 집단 연산의 결과를 구하는 단순한 형태이다. 그러나 실제 데이타 분석 과정에서는 이러한 단순한 형태의 영역 질의뿐만 아니라, 집단 연산이 포함된 특정 조건을 만족하는 데이타 큐브 내의 영역을 찾는 형태의 확장된 영역 질의에 대한 필요성이 존재한다. 본 논문에서는 이러한 확장된 영역 질의 유형의 일반적인 형태를 정의하고, 이에 대한 대표적인 예인 'MAX-of-SUM 질의'의 효율적인 처리 기법을 제안한다. MAX-of-SUM 질의는 데이타 큐브 상에서 영역합(SUM)이 최대(MAX)가 되는 영역을 찾는 질의를 의미한다. 본 논문에서는 MAX-of-SUM 질의 처리 시 검색의 대상이 되는 영역들에 대한 SUM 연산의 결과값이 취할 수 있는 범위를 미리 예측하는 기법을 제안한다. 즉, 영역에 대한 SUM 값의 범위를 예측함으로써, 이들 중에서 최대값을 찾기 위해 실제로 계산하여야 하는 영역의 개수를 줄여 빠른 질의 처리를 보장한다.

  • PDF

SPEC : 데이타 웨어하우스를 위한 저장 공간 효율적인 큐브 (SPEC: Space Efficient Cubes for Data Warehouses)

  • 전석주;이석룡;강흠근;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.1-11
    • /
    • 2005
  • 군집 질의는 사용자에 의해 명시된 질의 영역 내에서 큐브상의 군집 정보를 계산한다. 프리픽스-섬 기법에 기초한 기존의 방법론은 데이타의 누적된 합을 저장하기 위해 프리픽스-섬 큐브(PC)로 불리는 부가적인 큐브를 사용하므로 높은 저장공간 오버헤드를 초래한다. 이러한 저장공간 오버헤드는 기억장치의 추가적인 비용뿐만 아니라 업데이트의 부가적인 증식(propagation)과 더 많은 물리적 장치로의 접근시간을 유발시킨다. 본 논문에서는 대용량 데이타 웨어하우스에서 PC의 저장공간을 획기적으로 감소시킬 수 있는 'SPEC'으로 불리는 새로운 프리픽스-섬 큐브를 제안한다. SPEC은 PC내 셀들간의 종속에 의한 업데이트 증식을 감소시킨다. 이를 위해 대용량 데이타 큐브로부터 조밀한 서브큐브들을 발견하는 효과적인 알고리즘을 개발한다 다양한 차원의 데이타 큐브와 여러 가지 크기의 질의에 대해 폭 넓은 실험을 행하여 본 논문에서 제안한 방법의 효과와 성능을 조사한다. 실험적인 결과는 SPEC이 적절한 질의 성능을 유지하면서도 PC 저장공간을 상당히 감소시킴을 보여준다.

모양 특징을 이용한 영상 검색 (Image Retrieval using Shape Feature)

  • 정성호;황병곤;이상렬
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.57-61
    • /
    • 2000
  • 본 논문에서는 영상의 다양한 특징 정보 중에서 모양 특징을 이용한 영상 검색 시스템 을 제안한다. 모양 특징을 추출하기 위한 과정은 Chain Code를 이용 경계면의 좌표와 깊이를 구하는 과정, 경계면에 대한 무게 중심 추출 과정 그리고 영역의 넓이를 구하는 과정으로 구성되고, 무게 중심으로부터 경계면 가지 거리의 합, 표준 편차, 장축/단축 비율 등을 특징 정보로 이용한다. 각 질의 영상들의 특징 정보와 데이터베이스에 저장된 영상들의 특징 정보들을 비교하여 유사도 순위에 따라 후보영상들이 검색된다. 실험 대상으로는 170개의 폐곡선을 이루는 이진 도형 영상에 대한 검색 실험을 실시하였으며, 실험 결과 평균 Recall/Precision이 0.65/0.81을 보임으로써 제안된 방법이 유용함을 보였다.

  • PDF

차분 프라이버시 히스토그램 공개 알고리즘의 개선 (An Improved Differentially Private Histogram Publication Algorithm)

  • 구한준;정우환;심규석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.23-24
    • /
    • 2018
  • 최근 공격자의 사전 지식에 상관없이 개인 정보를 보호할 수 있는 차분 프라이버시 보호 기법에 대한 연구들이 진행되고 있다. 본 논문에서는 차분 프라이버시를 만족시키는 적은 수의 버킷을 가지는 히스토그램 공개 알고리즘을 소개하고 기존 알고리즘이 사용한 휴리스틱 방법의 문제와 개선 방법을 소개한다. 또한, 실험을 통해 개선한 방법이 기존의 알고리즘에 비하여 더 좋은 영역 합 질의 성능을 가지는 것을 보인다.

  • PDF

다이나믹 데이터 웨어하우스 환경에서 OLAP 영역-합 질의의 효율적인 처리 방법 (Efficient Processing method of OLAP Range-Sum Queries in a dynamic warehouse environment)

  • 전석주;이주홍
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.427-438
    • /
    • 2003
  • 데이터 웨어하우스에서 사용자는 전형적으로 상호작용적으로 질의를 부여함으로서 추세와 패턴 또는 예외적인 데이터의 행위를 검색한다. OLAP 영역-합 질의는 데이터 웨어하우스에서 추세를 발견하거나 또는 애트리뷰트들간의 관계를 발견하는데 폭 넓게 사용되고 있다. 최근의 기업환경은 데이터 큐브의 데이터 요소들이 자주 바뀌게 된다. 문제는 프리픽스 섬 큐브를 업데이트하는 비용이 매우 크다는 것이다. 이 논문에서는Δ-트리로 불리는 인덱싱 구조를 사용하여 업데이트 비용을 상당히 줄이는 참신한 알고리즘을 제안한다. 또한, 근사 또는 정확한 해를 제공하므로 질의의 전체비용을 줄일 수 있는 하이브리드 방법을 제안한다. 이는 의사 결정 지원 시스템과 같이 시간을 많이 소비하는 정확한 해보다는 빠른 근사 해를 필요로 하는 다양한 응용들에 큰 장점이 있다. 폭 넓은 실험은 우리의 방법이 다른 방법들과 비교하여 다양한 차원에서 매우 효율적으로 수행됨을 보여준다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

공간 데이터베이스에서 질의 결과 크기 추정을 위한 공간 분할 (Spatial Partitioning for Query Result Size Estimation in Spatial Databases)

  • 황환규
    • 전자공학회논문지CI
    • /
    • 제41권2호
    • /
    • pp.23-32
    • /
    • 2004
  • 질의 최적화기의 중요 기능 중에 하나는 질의가 주어졌을 때 질의 조건을 만족하는 입력 레코드의 개수를 추정하는 일이다. 관계 데이터베이스와 마찬가지로 공간 데이터베이스에서 질의 결과 크기 추정은 입력 데이터 공간을 버켓으로 불리는 작은 영역으로 분할한 후 분할된 영역에 대해서 질의 결과 ■기를 추정한다. 추정의 정확도는 작은 영역으로 분할할 때 근사 계산한 데이터와 실제 데이터의 차이에 의해서 결정되며 이것은 공간 분할을 어떻게 분할하는가에 달려 있다. 기존의 방법은 일차원에 많이 사용되는 데이터의 범위를 균일하게 하는 너비 균등 방법과 빈도수의 합을 일정하게 하는 높이 균등 방법을 공간상의 이차원에 적용한 면적 균등 분할과 개수 균등 분할 방법에 기초를 두고 있다. 본 논문에서 제안한 방법은 공간을 분할할 때 데이터의 범위와 빈도수의 곱을 면적으로 나타낸 후 면적 값의 차이가 가장 큰 순서로 버켓을 정하는 방법으로 데이터 범위와 빈도수를 동시에 고려하여 최적의 버켓을 결정한다. 본 논문에서는 제안한 방법과 기존의 방법을 실제 데이터와 인위데이터를 사용하여 질의 크기, 버켓수, 데이터 개수, 데이터 크기의 변화에 대해서 질의 결과 추정에 대한 정확도를 비교, 분석하여 제안한 방법의 성능 우수성을 확인한다.