• 제목/요약/키워드: 집계함수

검색결과 51건 처리시간 0.025초

시공간지원 집계 함수 연구 (Study of Aggregate Function for Spatiotemporal)

  • 정지문
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 추계학술대회
    • /
    • pp.273-280
    • /
    • 2005
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간 데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

집계 함수를 포함하는 조인 질의의 맵리듀스를 사용한 효율적인 처리 기법 (A Join Query with Aggregation functions Using Mapreduce)

  • 오소현;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.132-135
    • /
    • 2015
  • 맵리듀스(MapReduce)는 분산 환경에서의 빅데이터(Big Data), 즉 대용량 데이터를 처리하는 프로그래밍 모델이다. 대용량의 데이터를 분석하기 위해서 집계 함수(Aggregation function)로 데이터를 처리할 수 있다. 본 논문에서는 맵리듀스 환경을 기반으로 SQL 쿼리에서 집계 함수를 더 적은 비용으로 수행하며 효율적으로 처리할 수 있는 두 가지 전략을 제안한다. 두 가지 전략 중 더 높은 성능을 보이는 전략을 더 효율적인 처리 방법으로 판단한다. 첫 번째 전략은 두 테이블을 Join하여 집계 함수를 처리하는 방법이다. 두 번째 전략은 집계 함수를 처리하여 Join에 참여할 튜플의 수를 최소로 줄인 후 Join을 수행하고 다시 집계 함수를 처리하는 방법이다. 두 제안 방법을 비교하기 위하여 실험을 한 결과 두 번째 전략이 더 적은 비용이 드므로 더 효율적인 처리 방법인 것으로 보인다.

데이타 분석을 위한 시공간 집계 함수의 확장 (Extension of Aggregate Functions for Spatiotemporal Data Analysis)

  • 지정희;신현호;김상호;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권1호
    • /
    • pp.43-55
    • /
    • 2005
  • 시공간 데이타베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이타에 대한 저장 및 질의 수단을 제공한다. 실세계에서 "임의의 질의 윈도우 영역에서 2001년 4월부터 8원까지 농경지당 뿌려진 농약의 평균은 얼마인가\ulcorner"와 같은 질의를 할 수 있다. 이러한 집계 질의는 시간과 공간에 대한 제약을 가지고 있다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 시공간 데이타에 직접 적용하기 어려운 문제점이 있다. 따라서 이 논문에서는 시공간 특성을 가진 시공간 데이타 분석을 위한 시공간 집계 함수 stCOUNT, stSUM, stAVG, stMAX, stMIN를 제안한다. 아울러 제안된 시공간 집계함수론 적용한 부동산 관리 시스템을 통해 기존의 시간, 공간 집계함수가 분석하기 어려웠던 시공간 데이타에 대한 분석의 용이함과 응용 시스템에 맞는 질의 표현력의 개선 및 편리성을 제공함을 보였다 그리고 제안된 시공간 집계함수의 알고리즘의 성능 평가를 통해 알고리즘 성능의 타당성을 입증하였다.

OLAP 큐브에서의 집계함수 AVG의 적용 (Applying an Aggregate Function AVG to OLAP Cubes)

  • 이승현;이덕성;최인수
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.217-228
    • /
    • 2009
  • 데이터에 내재되어 있는 특이 패턴을 찾고자 데이터 분석을 할 때에 보통 다차원적인 데이터 집계를 하는데, 이때에 표준 SQL 쿼리를 사용해도 좋지만 쿼리가 아주 복잡해진다는 단점이 생기게 된다. 쿼리가 복잡해지면 표준 테이블을 여러 번 참조해야 되고 결과적으로 쿼리의 성능이 저하된다는 뜻이다. OLAP 쿼리는 복잡한 것이 대다수이기 때문에 SQL 쿼리를 대신할 새로운 집계용 연산자인 데이터 큐브를 간단히 불러 큐브를 만들 필요가 생기는 것이다. 집계를 하고, 부분 합을 구하는 것과 같은 OLAP 업무를 지원해 주는 것이 데이터 큐브이다. 이러한 데이터 큐브를 작성하는데 관련된 집계함수에는 여러 가지가 있는데, 이를 분배적 함수, 대수적 함수 그리고 전체관적 함수의 3가지로 분류할 수 있다. 이 중, SUM, COUNT, MAX, MIN과 같은 분배적 함수는 데이터 큐브를 작성하는 데에 직접사용 할 수 있고, AVG와 같은 대수적 함수는 매개함수를 활용하면 사용가능 하다고 알려져 있다. 즉, AVG 자체는 분배적 함수가 아니지만, (SUM, COUNT)와 같은 매개함수로 분배적 함수가되기 때문에 매개함수를 이용하여 구하면 된다는 뜻이다. 그러나 본 연구에서는 (SUM, COUNT)와 같은 매개함수를 통해 AVG를 구하는 것이 OLAP 큐브 작성에 적용시킬 수 없다는 사실을 확인했으며, 결과적으로 이 매개함수를 활용하면 잘못된 결론에 다다르고 그릇된 의사결정을 하게 된다는 사실을 확인하게 되었다. 따라서 본 연구에서는 집계함수 AVG를 OLAP 큐브에 적용시켰을 때의 여러 문제점을 밝혀내고 또한 이들 문제점을 해결할 방안을 찾고자 하는 데에 목적을 두고 있다.

시공간지원 집계 함수 설계 (Design of Aggregate Function for Spatiotemporal)

  • 신현호;최보윤;지정희;김상호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1503-1506
    • /
    • 2003
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산 중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

조건 술어 분석을 이용한 능동규칙의 조건부 처리 시스템 (A Condition Processing System of Active Rules Using Analyzing Condition Predicates)

  • 이기욱;김태식
    • 정보처리학회논문지D
    • /
    • 제9D권1호
    • /
    • pp.21-30
    • /
    • 2002
  • 능동 데이터베이스 시스템은 특정한 상태를 탐지하는 능동규칙을 도입한다. 조건부 평가는 사건이 발생할 때마다 수행되기 때문에 조건부를 처리하는 방법에 따라 시스템의 성능에 중요한 영향을 미친다. 본 논문에서는 차이트리 구조, 분류트리, 그리고 집계함수 테이블을 생성하는 전처리 기능을 갖는 조건부 처리 시스템을 제안한다. 전처리는 능동규칙을 미리 파악할 수 있는 능동 데이터베이스의 특징 때문에 도입될 수 있다. 본 논문에서는 선택연산, 조인연산, 그리고 집계함수를 효율적으로 처리할 수 있는 차이트리를 제안하고 조건부의 처리 성능을 높인다. 그리고 조인연산을 효과적으로 처리하는 분류트리와 높은 처리비용을 요구하는 집계함수를 처리하는 집계함수 테이블을 제안한다. 본 논문의 조건부 처리 시스템은 전처리 기능에서 만들어진 조건부 처리 구조 때문에 조건 비교의 횟수를 감소시켜 능동규칙에서 조건부 처리의 성능 향상을 기대할 수 있다.

데이터 웨어하우징 환경에서 질의 처리를 위한 새로운 기법 (A New Method for Processing Queries in Data Warehouse Environment)

  • 김윤호;김진호;감상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.121-123
    • /
    • 2001
  • 대용량의 데이터가 저장되는 데이터 웨어하우징 환경에서는 조인이나 집계 함수와 같은 고비용의 연산의 효율적인 처리는 매우 중요하다. 본 논문에서는 집계 함수(aggregate function)와 조인이 모두 포함된 질의를 처리하는 새로운 기법을 제안한다. 제안하는 기법은 먼저 차원 테이블(dimension table)을 미리 그룹핑한 후, 비트맵 조인 인덱스(bitmap join index)를 이용하여 조인을 처리하는 방식을 사용한다. 이 결과, 사실 테이블만을 접근하여 집계 함수를 처리함으로써 기존 기법이 가지는 성능 저하의 문제점을 해결할 수 있다. 기존 기법과 제안하는 기법에 대한 비용 모델(cost model)을 정립하고, 이를 기반으로 시뮬레이션을 수행함으로써 제안된 기법의 우수성을 규명한다.

  • PDF

큐브리드 샤드 분산 데이터베이스에서 집계/분석 함수의 분산 처리 시스템 개발 (Distributed Processing System for Aggregate/Analytical Functions on CUBRID Shard Distributed Databases)

  • 원지섭;강석;조선화;김진호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권8호
    • /
    • pp.537-542
    • /
    • 2015
  • 대용량의 테이블을 수평적으로 분할하여 서로 다른 데이터베이스에 저장함으로써 데이터를 분산 저장하고 처리할 수 있는 방법을 샤딩이라 한다. 샤딩된 데이터에 대한 집계 또는 분석 함수를 적용하여 전체 결과를 얻기 위해서는 여러 곳으로 분산된 데이터에 대한 지역 결과를 통합하는 과정이 필요하다. 본 논문에서는 오픈 소스 DBMS의 하나인 큐브리드(CUBRID)의 샤딩 기술을 이용하여 분산된 부분 집계함수를 통합 처리하는 모듈을 설계하고 구현하는 방법에 대해 소개한다. 이 통합 모듈을 통해 여러 곳으로 샤딩된 데이터에 대하여 집계 및 분석 함수를 이용한 분석이 가능하도록 하였고, 단일 데이터베이스를 사용한 분석 성능과의 비교를 통해 샤드 분산 데이터베이스를 사용한 집계 계산이 효율적임을 보인다.

시공간 데이터베이스를 위한 history 집계 연산자 (History / Aggregate Operator for Spatio-Temporal Databases)

  • 이종연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.106-108
    • /
    • 2001
  • 기존의 관계형 데이터베이스 시스템은 기본적으로 count, max, min, sum, avg의 집계 함수(aggregate functions)를 제공하며, UBMS에 따라 다양한 집계 연산자를 추가로 지원한다. 시공간 데이터베이스는 기본적인 공간 정보뿐만 아니라 시간 흐름에 따른 이력 정보를 취급하므로 데이터베이스로부터 자유로운 이력(history) 정보의 검색 기능이 요구되고 있다. 따라서, 본 연구에서는 시공간 데이터베이스로부터 이력을 자동으로 검색할 수 있는 새로운 집계 연산자, ‘history’를 제안하고, 그 처리 알고리즘과 SQL3에서 탐색 질의 표현법을 제안한다. 결과적으로, 제안된 이력 집계 연산자는 향후 SQL3리 질의 표현 능력의 제고에 기여할 것이다.

  • PDF

우리나라 도시가구 거주자의 집계교통수요함수 분석 (An Empirical Analysis of the Aggregate Travel Demands of the Urban Households in Korea)

  • 윤재호
    • 대한교통학회지
    • /
    • 제20권3호
    • /
    • pp.93-103
    • /
    • 2002
  • 우리 국민의 교통수요행태를 분석하기 위하여 준이상수요체계(almost ideal demand system) 함수형태의 집계교통수요모형을 설정하였다. 대중교통수단으로서 시내버스, 시외버스, 택시, 기차, 전철이 그리고 개인교통수단으로서 연료비가 포함되었으며, 기타재화 및 서비스에 대한 소비지출이 함께 추정되었다. 추정에 이용된 자료는 통계청의 "도시가계연보"에 수록된 '전국 도시가구 소비지출'과 "물가통계"에 수록된 '전국 도시소비자 물가'이다. 추정결과 모형의 설명력을 나타내는 수정결정계수(adjusted-$R^2$)는 대부분 0.9 내외에서 높게 나타났다. 추정계수는 총 51개중에서 25개가 5% 수준에서 유의한 것으로 나타났다. 추정된 계수값을 이용하여 가격탄력성과 소득탄력성을 구하였다. 자기가격탄력성과 소득탄력성 추정치는 조금 높기는 하나 부호와 상대적 크기가 모두 예상과 일치하고 다른 연구결과들과 유사한 범위에 있다. 연료비에 대한 소득탄력성은 1.72로 가장 높게 나타났고, 대중교통수단은 0.03~0.49 사이에서 나타나므로 교통수단이 정상재임을 의미한다. 보상수요의 교차가격탄력성은 총 15개의 교차관계에서 12개의 관계가 상식과 일치한다. 다음 연구에서는 더 많은 시계열자료를 발굴하여, 장기간의 교통수요 변화에 대한 분석을 시도할 필요가 있다. 또한 초월대수함수나 동태함수 등 다양한 형태의 수요함수를 시도할 필요가 있다. 여러가지 형태의 교통수요함수추정을 통해서 우리 현실에 적합한 교통수요모형을 발견할 수 있을 것이다. 대도시와 중소도시 등 지역별 지출자료를 발굴하여 지역특성을 반영하는 교통수요함수의 추정도 필요하다.