• 제목/요약/키워드: 데이터 크기

검색결과 3,446건 처리시간 0.03초

실시간 데이터 스트림 분석을 위한 클러스터링 기법 (A Grid-based Clustering Method for a Data Stream)

  • 박남훈;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.46-49
    • /
    • 2007
  • 데이터 스트림이란, 빠른 속도로 지속적으로 생성되는 무한한 크기의 방대한 양의 데이터 집합으로 정의된다. 본 연구에서는 데이터 스트림 분석을 위한 데이터 스트림 격자 기반 클러스터링 기법을 제시한다. 주어진 초기 격자셀에 대해, 데이터 객체의 빈도가 높은 범위를 반복적으로 보다 작은 크기의 격자셀로 분할하여 최소 크기의 격자셀, 단위 격자셀을 생성한다. 격자셀에서는 데이터 객체들의 분포에 대한 통계값만을 저장하여, 기존의 클러스터링 기법에 비해 데이터 객체에 대한 탐색없이 효율적으로 클러스터를 찾을 수 있다.

  • PDF

이동 컴퓨팅 환경에서 다양한 데이터 크기를 지원하는 브로드캐스트 스케줄링 기법 (The broadcast Scheduling method supporting unequal size of data in mobile computing environment)

  • 신지현;이종환;이중화;이철숙;김경석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.244-246
    • /
    • 2001
  • 이동 컴퓨팅은 주로 서버에서 클라이언트로의 대역폭이 상대적으로 큰 비대칭적 환경에서 이루어진다. 비대칭적 판정에서 정보 전달은 브로드개스팅이 효과적이다. 기존의 많은 논문들이 서버가 전달하는 데이터의 크기가 같다고 가정하고 스케줄링 알고리즘을 제안하였지만 실제 데이터의 크기는 매우 다양하다 인기도가 비슷하더라도 데이터 크기가 다를 때 큰 데이터 대신 작은 데이터 여러 개를 전송하면 클라이언트의 평균 대기시간이 감소하여 성능이 향상될 수 있다. 따라서 본 논문에서는 대기시간을 최소화하기위해 인기도뿐만 아니라 데이터 크기도 함께 고려하는 스케줄링 기법을 제안하고 성능을 평가하였다.

  • PDF

동적 분할에 의한 평균 빙산 질의 처리 (Computing Average Iceberg Query by Dynamic Partition)

  • 배진욱;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.126-128
    • /
    • 1999
  • 평균 빙산 질의란 대용량의 데이터들에 의해 avg 집단 함수를 수행한 뒤 임계값 이상인 데이터들을 결과로 출력하는 연산을 의미한다. 이 때 데이터 도메인의 크기가 메모리에 생성할 수 있는 카운터의 수보다 크기 때문에 연산 처리가 어렵다. 지난 연구에서 빙산 질의에 대해 제안한 해시 카운터는 avg 연사의 경우 착오누락이 발생한다는 문제점이 존재한다. 그래서 이런 문제점들을 해결하며 효율적으로 연산을 수행하기 위해, 데이터베이스를 분할하며 카운터를 관리하는 '메모리 Full 분할', '후보 Full 분할'의 두 알고리즘을 제안한다. 실험결과 두 알고리즘은 메모리크기, 데이터 분포, 데이터 순서에 영향을 받았는데, 데이터들이 정렬이 되어 있거나 데이터분포가 정규분포를 이룰 때 우수한 성능을 보였다.

  • PDF

HDFS에서 적응형 캐시 관리 기법 (Adaptive Cache Management Scheme in HDFS)

  • 최형락;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.461-462
    • /
    • 2019
  • 스마트팩토리는 정보통신기술(ICT)를 이용한 공정의 모든 데이터를 수집, 분석하여 제어하고 있다. 기존보다 방대한 양의 데이터를 처리하기 위해 기업들은 하둡을 이용한다. 다양한 크기의 데이터가 나타나는 환경에서 HDFS을 효율적으로 관리하기 위한 적응형 캐시 관리 기법을 제안한다. 제안하는 기법은 데이터 노드의 로컬 디스크의 공간 이용 효율성을 높이고 평균 데이터 크기를 분석하여 데이터 노드 확장시 적합한 블록 크기를 적용할 수 있게 관리한다. 성능 평가를 통해 제안하는 기법의 데이터 노드에서 로컬 디스크 효율 향상과 읽기와 쓰기 속도의 속도에 효과를 보인다.

  • PDF

커널 방법을 이용한 선택도 추정에 관한 연구 (Selectivity Estimation using Kernel Method)

  • 김학철;신명진;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.188-190
    • /
    • 1998
  • 데이터 베이스 관리 시스템에서는 질의 결과의 크기(selectivity)를 미리 예측하는 것이 필요하다. 질의 결과의 크기는 데이터의 분포 상태에 의해서 결정된다. 이러한 데이터의 분포 상태를 정확하게 예측하는 것이 매우 중요하다. 대부분의 데이터 베이스 관리 시스템에서는 이를 위하여 주기적으로 저장하고 있는 레코드에 대해서 히스토그램을 만들고 이용한다. 이 방법은 히스토그램의 저장공간이 적게 필요로 하고 선택도를 추정하는데 있어서 선택도 추정시 부가적인 계산이 필요하지 않은 장점이 있지만, 일정한 크기의 버켓내에서는 데이터들이 균일하게 분포한다는 가정을 함으로써 선택도 추정에 있어서 에러율이 높았다. 이에 본 논문에서는 커널 방법을 사용하여 버켓 내 데이터의 분포에 대하여 추정 함으로써 이를 해결하는 방법을 제시하였다.

뉴로 스포츠 마케팅을 위한 동공 확장과 주시빈도 간의 관계: 시그마 분석법을 적용하여 (Relationship of Pupil's Size and Gaze Frequency for Neuro Sports Marketing: Focusing on Sigma Analysis)

  • 고의석;송기현;조수현;김종하
    • 감성과학
    • /
    • 제20권3호
    • /
    • pp.39-48
    • /
    • 2017
  • 이 연구는 농구 경기장내 마케팅의 효용성을 확인하기 위해서 마케팅의 여러 연구 기법들 중 시선추적 기술을 이용하여 동공이 확장 되었을 때의 시선 관찰 및 관심도를 측정하고 비교 분석하였다. 특히 동공이 확장된 구간을 산출하기 위해 유효테이터를 중심으로 동공의 크기가 2시그마 범위 상위 2.275%일 때의 구간별 데이터를 정리하고 이전 연구에서 산출된 3시그마의 상위 0.135%일 때의 구간별 데이터와 전체 유효 데이터를 주시 빈도에 따른 변곡점으로 구분하여 분석하였다. 또한 전체 유효 데이터와 동공의 크기가 유의미하게 커졌다고 판단되는 범위들 간의 상관도를 분석하였다. 그 결과 가장 시선이 많이 머무른 구간과 동공이 크기가 유의미하게 커진 부분은 완전히 일치하지는 않았으나, 전체 유효 데이터와 동공크기 2시그마 상위 데이터의 상관분석은 .805로 가장 높은 상관관계를 나타내었으며, 동공크기 2시그마 상위 데이터와 동공크기 3시그마 상위 데이터의 상관분석은 .781의 상관관계를 보였고 전체 유효데이터와 동공크기 3시그마 상위 데이터 상관분석은 .683의 상관관계를 보였다. 따라서 동공의 크기가 확장 되어진 구간과 시선추적 데이터에서 시선이 많이 머무른 구간이 유사함을 알 수 있었으나, 동공의 크기가 유의미하게 확장되었다고 판단되어지는 구간의 데이터 일수록 전체 데이터와의 상관도가 떨어지는 것을 알 수 있었다.

리눅스 운영체제하의 OLTP환경에서 RAID 레벨 5의 효율적인 캐쉬 운영 방안에 대한 연구 (A Study on Efficient Management of RAID Level 5 Cache in OLTP Environment under Linux Operating System)

  • 송자영;장태무
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.3-5
    • /
    • 2000
  • RAID 레벨 5는 쓰기 시에 패리티 갱신을 위한 4번의 디스크 접근으로 인하여 OLTP와 같이 상대적으로 빈번한 디스크 접근을 가지고 데이터 크기가 작으며 쓰기의 횟수가 많은 작업환경에서 성능이 떨어지게 된다. 데이터와 패리티에 대한 캐싱은 OLTP환경에서의 쓰기에 대한 문제를 해결하기 위한 기법이다. 본 논문에서는 리눅스 운영체제의 파일 데이터 구조에 변화를 주고, 커널에서 얻어진 정보를 디스크 캐쉬의 운영에 이용한다. 스트라입 크기(G)를 가지는 RAID 레벌 5에서 패리티 캐쉬의 크기가 전체 캐쉬 크기의 1/G 이하 일 경우 데이터 패리티 캐쉬 크기 변화에 영향을 받지 않고 캐쉬의 그룹 단위 운영과 그에 따른 패리티의 미리 읽기를 가능하게 하여 패리티에 대한 추가적인 읽기를 최소화하는 기법을 제안한다. 본 논문의 실험 결과는 초당 디스크에 도착하는 평균 디스크 접근 요구 개수에 변화를 주어 시뮬레이션 방법으로 입증하였으며, OLTP 환경에서 데이터와 패리티 캐쉬를 독립적으로 운영하는 일반적인 캐쉬 운영 방법에 비해 평균 응답시간을 단축시킬 수 있음을 알 수 있다.

  • PDF

가중치를 갖는 문자의 개수를 서명으로 이용한 DNA 인덱스 구조 (A DNA Index Structure Using Signature by Weighted Number of Characters)

  • 김우철;민준기;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.337-339
    • /
    • 2004
  • 우리는 대규모의 유전자 데이터베이스에서 원하는 패턴을 빠르고 정확하게 찾고 싶어한다 하지만 지금까지 나온 대부분의 검색방법들은 인덱스의 크기를 실제 데 이 터 보다 훨씬 크게 만들어 사용해왔다. 그런 방법들은 기하급수적으로 증가하고 있는 데 이 터를 처 리 하는 데는 비효율적이다. 따라서 인덱스 크기를 실제 데이터보다 작게 만들면서도 원하는 패턴을 빨리 찾을 수 있는 효율적 인 방법 이 필요하다. 이렇게 하기 위해서는 일정한 크기의 데이터를 작은 크기의 데이터로 줄인 후, 이 데이터를 이용하여 인덱스를 만들어야 한다. 이 논문에서는 일정한 크기의 문자열(=윈도우)을 작은 크기의 숫자들(=서명)로 표현해서 인덱스를 구축한 후, 이를 이용해 우리가 원하는 패턴을 최소한의 디스크 접근을 통해 빠르게 찾을 수 있는 방법을 제시한다.

  • PDF

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할 (Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization)

  • 황환규;김현국
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.23-30
    • /
    • 2004
  • 공간 질의 크기에 대한 근사치를 구하기 위해서는 입력 데이터 공간을 분할한 후 분할된 영역에 대하여 질의 결과 크기를 추정한다. 본 논문에서는 데이터 편재가 심한 공간 데이터에 대한 질의 크기 추정의 문제를 논의한다. 공간을 분할하는 기법으로 관계 데이터베이스에서 많이 사용되는 너비 균등, 높이 균등 히스토그램에 해당되는 면적 균등, 개수 균등 분할에 대한 방법을 검토하고 공간 인덱싱에 기초한 공간 분할방법에 대해서 알아본다. 본 논문에서는 공간 순서화 기법인 힐버트 공간 채움 곡선을 이용한 공간 분할을 제안한다. 제안한 방법과 기존의 방법을 실제 데이터와 인위 데이터를 사용하여 편재된 공간 데이터에 대한 질의 결과 크기의 추정에 대한 정확도를 비교한다. 본 실험에서 힐버트 채움 곡선에 의한 공간 분할이 공간 질의 크기 버켓 수의 변화, 데이터 위치 편재도의 변화, 데이터 크기의 변화에 대해서 기존의 분할 방법보다 질의 결과 크기 추정에 대해서 우수한 성능을 보였다.

스파크 기반의 대용량 데이터 압축을 이용한 실시간 데이터 분석 기법 (Real-time data analysis technique using large data compression based spark)

  • 박수용;신용태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.545-546
    • /
    • 2020
  • 스파크는 데이터 분석을 위한 오픈소스 툴이다. 스파크에서는 실시간 데이터 분석을 위하여 스파크 스트리밍이라는 기술을 제공한다. 스파크 스트리밍은 데이터 소스가 분석서버로 데이터 스트림을 전송한다. 이때 전송하는 데이터의 크기가 커질 경우 전송과정에서 지연이 발생할 수 있다. 제안하는 기법은 전송하고자 하는 데이터의 크기가 클 때 허프만 인코딩을 이용하여 데이터를 압축하여 전송시키므로 지연시간을 줄일 수 있다.

  • PDF