• 제목/요약/키워드: Large-memory data processing

검색결과 192건 처리시간 0.025초

필터링에 기반한 고차원 색인구조의 동시성 제어기법의 설계 및 구현 (Design and Implementation of High-dimensional Index Structure for the support of Concurrency Control)

  • 이용주;장재우;김학영;김명준
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.1-12
    • /
    • 2003
  • 최근 이미지, 비디오와 같은 멀티미디어 데이터에 대한 효율적인 검색을 위해 많은 다차원 및 고차원 색인 구조들에 대한 연구가 활발히 진행되고 있다. 하지만 기존의 색인 구조의 연구 방향은 검색의 효율을 극대화 하는데 초점을 맞추어 왔으며 최근의 멀티미디어 데이터베이스나 데이터 마이닝 분야와 같은 다수 사용자 환경을 요구하는 환경에서는 부적합한 실정이다. 이에 본 논문에서는 기존의 제시된 차원이 증가하면서 급속하게 성능이 저하되는 문제를 특징 벡터의 시그니쳐를 구성하여 완화시킨 필터링에 기반한 고차원 색인 구조에 동시성 제어기법을 설계 및 구현하여 위스콘신 대학에서 개발한 지속성 객체 저장 시스템인 SHORE 하부저장 시스템과 밀결합 방식으로 통합하였다. 확장된 SHORE 하부저장 시스템은 고차원 데이터에 대한 효율적인 검색 뿐만 아니라 레코드 레벨의 색인 데이터에 대한 동시성 제어를 지원하며 시그니쳐 파일을 모두 메모리에 로딩하는 구조를 개선하여 페이지 레벨의 관리가 가능하다. 아울러 본 논문에서 제시한 확장된 SHOE 하부저장 시스템을 실제 응용 시스템에 적용하기 위해 플랫폼 독립적인 환경을 지원하는 자바 언어를 사용하여 미들웨어 구축 방안을 제시한다. 또한 구축된 미들웨어를 통해 쓰레드 별로 대표적인 내용기반 질의 형태인 포인트질의, 범위질의, k-최근접 질의에 대한 다수 사용자 환경에서의 성능 평가를 수행하였다.

Hadoop기반의 공개의료정보 빅 데이터 분석을 통한 한국여성암 검진 요인분석 서비스 (Analysis of Factors for Korean Women's Cancer Screening through Hadoop-Based Public Medical Information Big Data Analysis)

  • 박민희;조영복;김소영;박종배;박종혁
    • 한국정보통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.1277-1286
    • /
    • 2018
  • 본 논문에서는 공개의료정보 빅데이터 분석을 위해 클라우드 환경에서 아파치 하둡 기반의 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하고 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함했다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 빅데이터 분석을 위해 빈도분석과 카이제곱검정을 수행하고 유의 수준 0.05를 기준으로 단변량 로지스틱 회귀분석과 모델별 의미 있는 변수들의 다변량 로지스틱 회귀분석을 시행 하였다. (p<0.05) 의미 있는 변수들을 모델별로 나누어 다변량 로지스틱 회귀 분석한 결과 Model 3으로 갈수록 적합도가 높아졌다.

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF

순차적 시뮬레이션을 위한 순차적인 Percentile 추정에 관한 연구 (Sequential Percentile Estimation for Sequential Steady-State Simulation)

  • 이종숙;정해덕
    • 정보처리학회논문지D
    • /
    • 제10D권6호
    • /
    • pp.1025-1032
    • /
    • 2003
  • 백분위수는 시뮬레이션 결과의 전체적인 성향을 파악하는데 아주 유용한 측정 기법 중의 하나이다. 그러나, 시뮬레이션으로 수집된 데이터들에 대한 평균이나 표준편차와는 달리 백분위수를 추정하기 위해서는 모든 관측된 데이터들을 저장해야 만 한다, 왜냐하면 백분위수의 추정을 위해서는 관측된 모든 데이를 분류하여 오른차순으로 정렬하는 등 여러 단계의 처리과정이 필요하기 때문이다. 따라서, 백분위수 추정을 위해서는 관측된 모든 데이터를 저장하기 위한 대용량의 저장장치와 정렬을 위한 계산시간 (O($nlog_{2}n$))이 요구된다. 이러한 문제점을 해결하기 위한 여러 백분위수 추정 기법들이 제안되었으나 고정된 샘플 크기의 시뮬레이선(fixed sample size simulation) 을 수행할 경우에만 적용 가능하다. [11, 12, 21]. 본 논문에서는 3가지 백분위수 추정 기법(linear PE, batching PE, spectral $P^2$ PE) 을 순차적인 안정상태 시뮬레이션(sequential steady-state simulation) 에 적용하여 연구하였다. 또한, 3가지의 백분위수 추정 기법들에 대해 coverage 분석을 수행한 결과를 제시하였다.

센서 네트워크에서 스트림 데이터 질의의 효율적인 처리를 위한 다중 질의 색인 기법 (Multi-query Indexing Technique for Efficient Query Processing on Stream Data in Sensor Networks)

  • 이민수;김연정;윤혜정
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1367-1383
    • /
    • 2007
  • 센서 네트워크는 스스로 감지하고 계산하고 무선으로 서로 통신할 수 있는 기능을 갖춘 센서들로 이루어진 네트워크이다. 센서 네트워크의 특징들로는 네트워크가 자체적으로 관리가 되어야 한다는 것과 배터리 전원이여서 전력의 효율성을 크게 고려해야 한다는 것이 있다. 센서 네트워크에서 생성되는 많은 양의 연속적인 데이터에 대하여 여러 개의 질의들을 동시에 처리해야 하는 경우에 전력의 효율성을 극대화시켜야 한다. 본 연구에서는 센서 네트워크에서 감시 목적의 미리 정의된 다중 질의들에 대해 색인을 두어 다중 질의 처리 성능을 높이고 메모리와 전력을 효율적으로 사용할 수 있는 기법을 제안한다. 공간 색인 기법 중에서 이진 탐색트리에 기반한 데이터 구조로서 각 레벨별로 차원이 반복되어 각 차원을 분할시키는 k-d 트리와, 공간을 계층적 구조로 자르며 겹침 관계를 줄인 R-트리의 변형인 R+-트리를 기반으로 하여 이들의 응용 및 융합을 통해 다중 질의를 색인하는 새로운 트리인 SMILE 트리를 제안한다. 질의들에 대한 SMILE 트리를 구성하여 센서 네트워크에서 생성되는 스트림 데이터에 대하여 관련된 질의를 탐색하도록 하면 질의를 순차 탐색하는 것과 비교하여 경우에 따라서는 평균 탐색시간을 약 50% 정도로 줄일 수 있다.

  • PDF

비원형 궤도에서의 검출에 의한 SPECT 영상 왜곡 보정 (Correction for SPECT image distortion by non-circular detection orbits)

  • 이남용
    • 융합신호처리학회논문지
    • /
    • 제8권3호
    • /
    • pp.156-162
    • /
    • 2007
  • 평행 빔 SPECT는 조준기와 광자 검출기를 결합하여 프로젝션 데이터를 얻는다. 그러나, 프로젝션 데이터는 광자가 검출되어 지는 방향의 범위를 제한하는데 사용하는 조준기의 점광원 반응 함수에 의해 흐트러지게 된다. 단위 면적당 많은 수의 평행 구멍을 대응시키는 방법으로 이러한 흐트러짐 현상을 어느 정도 줄일 수 있다. 그러나, 이 방법도 대상체로부터 조준기까지의 거리가 먼 경우에는 흐트러짐이 역시 문제가 된다. 이 논문에서는 하나의 검출기 선에 여러 개의 평행 구멍을 대응시키는 평행 빔 SPECT가 비원형 회진할 때 야기하는 인위적 오류의 제거방법에 대해 다루고자 한다. 그러기 위해, 재구성하고자 하는 영상과 관측된 프로젝션 데이터와의 관계를 선형 시스템으로 모델화하고, 반복법을 이용하여 왜곡보정을 포함한 영상재구성을 제안한다. 특히, 반복법에 필요한 투사기와 역투사기를 하나의 함수를 이용하여 해석적으로 계산 가능한 거리 의존적 점광원 대응 함수들의 콘볼류선의 합으로 계산하려다. 그렇게 함으로써, 투사기와 역투사기를 표현하는데 필요한 계산 시간 및 메모리를 획기적으로 줄였다. 제안된 방법의 성능을 기존의 푸리에 방법과 비교하기 위해 여러 시뮬레이션을 수행하였다. 시뮬레이션 결과는 제안된 방법이 기존의 푸리에 방법에 비해 더 우수한 결과를 제공함을 보여준다.

  • PDF

대용량 플래시 저장장치에서 신뢰성 향상을 위한 무작위 기반 정적 마모 평준화 기법 (Randomness based Static Wear-Leveling for Enhancing Reliability in Large-scale Flash-based Storage)

  • 최길모;김세욱;최종무
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.126-131
    • /
    • 2015
  • 플래시 기반 저장장치가 서버와 데이터 센터에 활발하게 도입됨에 따라 신뢰성이 더욱 중요해지고 있다. 신뢰성을 향상시키는 방법들 중에 한 가지는 정적 마모도 평준화로, 이것은 삭제 횟수를 평준화시켜 결국 저장장치 수명을 향상시킬 수 있다. 하지만 저장장치의 용량이 증가함에 따라 정적 마모도 평준화를 위한 부하도 커지고 있다. 특히 전체 블록에서 최대 또는 최소의 삭제 횟수를 갖는 블록의 검색 비용이 용량의 증가에 따라 커지고 있다. 본 논문에서는 이러한 부하를 줄이기 위해 무작위 선택을 정적 마모도 평준화에 도입한다. 구체적으로 전수 조사 대신, n개의 블록을 무작위로 뽑고 이 중에서 최대 또는 최소 삭제 횟수를 갖는 블록들을 선택한다. 실험 결과 n이 2일 때에도 마모 평준화 효과가 있으며, n이 4 이상이며 전수 조사에 기반한 최적 평준화에 근접하는 결과를 보이는 것을 알 수 있었다. 성능 향상의 효과를 측정하기 위해 실제 보드에 구현을 하였으며, 블록 선택 시간이 3배 이상 향상된 것을 관찰할 수 있었다. 결국 제안 기법은 기존 정적 마모 평균화의 효과를 적은 부하로 얻을 수 있는 것이다.

실시간 시각화를 위한 계층 구조 구축 기법 개발 (Real-Time Terrain Visualization with Hierarchical Structure)

  • 박찬수;서용철
    • 대한토목학회논문집
    • /
    • 제29권2D호
    • /
    • pp.311-318
    • /
    • 2009
  • 최근 지형 정보의 시각화 기술은 GIS 응용분야는 물론 게임, 가상현실, 항공 시뮬레이션 및 군사적인 목적 등을 실현하기 위한 중요한 기술로 부각되고 있다(유병현 2002). 그러나 대용량 지형 데이터를 실시간으로 처리하여 시각화를 구현하기 위한 메모리 한계성의 극복은 아직도 과제로 남아있다. 본 연구에서는 대규모 지형 표현을 위해 파일 기반의 효율적인 실시간 LOD (level-of-detail) 알고리즘 개발을 수행하였다. 실시간 LOD 알고리즘은 대규모 지형 데이터를 가시화하는데 필요한 기하학적 연산 처리를 가능하게 한다. 본 연구에서는 수치지도의 등고선이나 LiDAR, DTM, DSM 등으로부터 취득된 대용량 DEM의 가시화를 위해 계층적인 $4{\times}4$ 또는 $2{\times}2$ 타일 구조를 선택하였다. 또한 정규화된 Giga Byte급 고도데이터는 사용자 중심적 지형 정보의 원활하고 사실감 있는 표현이 될 수 있도록 고도데이터를 활용한 음영기복도를 생성하여 비메모리 방식의 계층적 타일 구조로 생성된 지형 블록에 Texture Mapping 하여 지형 가시화를 수행하였다. 대용량 데이터는 실시간 가시화를 위해 지형 데이터를 다양한 상세도를 가지는 데이터로 변형하여 이를 계층적으로 상호 연결함으로서 데이터의 손실이 최소화되며, 프레임 속도를 극대화하였고, 또한 사용자 시점에 따라 상세도 변화가 끊김없이(seamless) 고품질로 표현되도록 하였다.

웹 기반 GIS 응용을 위한 변경 프로토콜 (Update Protocols for Web-Based GIS Applications)

  • 안성우;서영덕;김진덕;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.321-333
    • /
    • 2002
  • 웹 기반 서비스의 급속한 성장으로 다양한 서비스를 이용할 수 있도록 웹 환경에서 공간 데이타의 동시 변경이 가능해야 한다. 웹 기반 GIS 응용은 다양한 사용자 층에 대한 요구를 만족시키기 위하여 다양한 서비스 데이타를 필요로 하고, 이 데이타들은 지속적으로 변경되어야 한다. 또한 웹 환경에서 사용하는 HTTP 프로토콜은 연결 해제(Connectionless)와 상태 비유지(Stateless)를 가정한다. 그러나 웹 환경에서 웹 클라이언트에 의한 데이타 변경 시, 긴 트랜잭션이 특징인 공간 데이타베이스 등의 응용은 클라이언트 간의 동시성과 서버 데이타의 일관성 유지에 문제점을 발생시킨다. 이 논문에서는 웹 환경에서 웹 클라이언트가 서버 측의 공간 데이타를 변경할 때 서버 데이타의 일관성 유지를 위한 해결책을 제시한다. 웹 환경에서 공간 데이타를 변경할 때 HTTP 프로토콜의 연결 해제와 상태 비유지에 의해서 발생하는 휴면 영역 잠금(Dormancy Region Lock) 문제를 영역 잠금 기법인 RX(Region-exclusive) 잠금과 주기적인 메시지(ALIVE_CLIENTi) 전송에 의해서 해결한다. 그리고 이 방법을 기반으로 한 프로토콜을 제시하고, 메인 메모리 공간 데이타베이스 시스템인 사이버맵을 이용한 시스템 설계 및 구현을 통하여 검증하고 있다.

동적 클러스터링 기반 모바일 클라우드 컴퓨팅의 최적화 기법 및 품질 평가 모델 (Dynamic Clustering based Optimization Technique and Quality Assessment Model of Mobile Cloud Computing)

  • 김대영;라현정;김수동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권6호
    • /
    • pp.383-394
    • /
    • 2013
  • CPU, 메모리 등 모바일 디바이스의 제한된 자원문제를 해결하기 위한 방법으로, 모바일 디바이스의 자원이 아닌 클라우드 서비스 또는 PC등 외부 자원을 사용하는 모바일 클라우드 컴퓨팅(Mobile Cloud Computing, MCC)이 부각되고 있다. 전형적인 MCC 환경(MCC Environment, MCE)은 다른 운영체제 및 플랫폼을 가지는 여러 개의 노드, 모바일 애플리케이션과 서비스들로 구성되어 있고, 중앙관리자는 MCE 전체 품질이 일정 수준 이상을 유지하도록 관리 태스크를 수행한다. 그러나, 노드 수, 모바일 애플리케이션 수, 서비스의 수가 많아지고 서비스 실행빈도가 높아질 경우, 중앙 관리자의 관리 태스크 과중으로 병목현상과 성능저하 문제가 제기될 수 있다. 본 논문에서는 이러한 대규모 MCE의 병목과 성능저하 문제를 해결하고, 전체 품질을 안정화시키기 위한 클러스터링(Clustering) 기반의 최적화 기법을 제안한다. 본 기법을 적용하면 MCE의 전체 품질을 안정화시키기 위한 부하를 최소화하면서, 능동적이며 자율적인 방식으로 품질을 보장할 수 있다.