• 제목/요약/키워드: 대용량계산

검색결과 341건 처리시간 0.036초

클라우드 기반 과학데이터 그리드 테스트베드 설계 (Design of Cloud based Grid Test-bed for Handling Science Dataset)

  • 강윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.90-92
    • /
    • 2014
  • 이 논문에서는 그리드 환경에서 과학응용을 효율적으로 수행시키기 위해 클라우드 기반의 동적자원 프로비저닝 기술을 그리드 응용에 적용하기 위한 테스드베드 설계를 기술한다. 이를 위해 클라우드 기반 그리드 테스트베드 구축을 위한 요구사항 및 응용 아키텍처 설계를 요약한 후 가상화 자원을 이용하는 과학데이터 그리드 플랫폼을 대용량 데이터 처리에 적합하도록 최적화하고, 그 방안을 제시한다. 설계된 테스트베드는 그리드 환경 고도화를 위한 접근 방법으로 계산 자원 제공을 위해 클라우드 기술을 활용하도록 한다.

맵리듀스에서 Grouping Sets 질의의 효율적인 계산 기법 (Efficient Computation of Grouping Sets Queries Using MapReduce)

  • 박소정;박은주;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.783-786
    • /
    • 2014
  • 맵리듀스(MapReduce)는 대용량의 데이터를 여러 컴퓨터에서 분산, 병렬 처리하는 프레임워크이다. Grouping sets 질의는 사용자가 지정한 여러 개의 group-by들을 모두 구하는 질의로서, 롤업(rollup)과 큐브(cube)가 너무 많은 결과를 반환하는 단점을 보완하여 원하는 group-by들에 대한 결과만 얻을 수 있도록 한다. 본 논문은 맵리듀스 환경에서 grouping sets 질의를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 grouping sets 질의를 2개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 첫 번째 맵리듀스 잡은 grouping sets 질의에 포함된 group-by들이 모두 계산될 수 있는 '부모' group-by를 먼저 계산한다. 두 번째 맵리듀스 잡은 부모 group-by를 입력으로 하여 grouping sets 질의에 포함된 group-by들을 각각 계산한다. 부모 group-by의 크기가 입력 데이터의 크기에 비해 매우 작은 경우, 제안 방법은 입력 데이터로부터 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 보인다. 실험을 통해 제안 방법이 각 group-by를 독립적으로 구하는 단순 방법보다 좋은 성능을 가짐을 보인다.

대규모 과학 데이터 분석을 위한 데이터 집약형 클라우드 서비스 (Data Intensive Cloud Service for Large Scientific Data Analysis)

  • 함재균;우준;김석문;장지훈;박찬열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.21-23
    • /
    • 2012
  • 과학 연구에 있어서 데이터 집약형 컴퓨팅은 데이터의 대형화와 함께 그 중요성이 날로 더하여지고 있다. 데이터 집약형 컴퓨팅은 대용량 데이터의 분석을 통해 과학적 지식을 발견하는 것을 목적으로 하고 있으며, 그 처리 방법에 있어서 데이터 병렬화 기법을 주로 사용하게 되는데, 이는 클라우드 컴퓨팅을 통해 도움을 받을 수 있는 계산 처리 방식이다. 또 데이터 집약형 컴퓨팅 서비스에서는 데이터의 검색 및 추출, 전송 등에 있어서 대용량의 데이터를 다룰 수 있는 고도화된 기술을 필요로 하게 된다. 본 연구에서는 대규모 과학 데이터 분석을 위해서 필요한 연구 환경을 유연하고 확장성 있게 제공하는 데이터 집약형 클라우드 서비스를 제안하였다. 본 연구의 목표 시스템은 대량의 데이터 분석을 위해 필요한 다양한 형태의 플랫폼, 응용 프로그램, 시스템 프로그램 등을 제공하는 클라우드 기반의 분석 서비스와 데이터 속성에 기반하여 빠른 검색 및 추출, 효율적인 전송을 제공하는 데이터 서비스로 이루어진다.

교통 데이터에 대한 품질 평가 및 자료 처리 기법의 구현 (Implementation of Quality Evaluation, Error Filtering, Imputation for Traffic Missing Data)

  • 정수정;송수경;이민수;남궁성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.185-190
    • /
    • 2007
  • 대용량의 자료가 생산됨에 따라 데이터를 효율적으로 저장, 관리, 이용할 수 있는 데이터 웨어하우스의 역할이 중요하게 되었고, 그에 따라 자료 처리 기법의 개발은 필수 과제가 되었다. 품질 평가와 오류 판단, 결측 보정의 자료 처리 과점은 자료의 신뢰도를 판단하고 활용도를 높일 수 있는 과정으로 매우 중요하다. 본 논문에서는 우리나라의 실제 교통상황을 반영하고 평가 기준의 오차를 줄이면서 더욱 간단 명료한 평가 계산식을 도입하여 효율적인 품질평가와 오류판단, 결측 보정의 자료 처리 기법을 제안한다. 또한 오류 판단 기준에 새로운 파라미터론 도입하여 교통 연구자의 요구 사항을 반영할 수 있게 하였다. 결측 보정 과정은 여러 기법을 연구하고 기존의 결측 보정 기법에 입력 변수를 추가하여 실제 대용량의 교통 자료에 적용하였다. 그리고 교통 자료가 저장되는 데이터베이스에 직접 접근하여 결측 보정과정을 수행하도록 PL/SQL로 구현하였으며, 이를 통해 교통 연구자에게 쉽고 다양한 방법으로 결측 보정을 수행하고 그 결과를 이용하여 다양한 교통 정보를 가공할 수 있는 환경을 제공하였다.

  • PDF

대용량 유동해석 데이터에서의 중요도 기반 스트림라인 생성 방법 (Method for Importance based Streamline Generation on the Massive Fluid Dynamics Dataset)

  • 이중연;김민아;이세훈
    • 한국콘텐츠학회논문지
    • /
    • 제18권6호
    • /
    • pp.27-37
    • /
    • 2018
  • 스트림라인 생성은 유동해석 데이터에서 유동의 흐름을 해석하기 위한 대표적인 가시화 기법이다. 그러나 효과적인 스트림라인 배치를 위한 씨드 포인트의 위치를 결정하는 것은 매우 어려운 문제이다. 한편, 대용량의 유동해석 데이터에서 씨드 포인트 결정과 스트림라인 생성 계산은 매우 오랜 시간을 필요로 한다. 본 논문에서는 효과적인 스트림라인 배치를 위해 유동해석 데이터의 중요도를 기반으로 한 씨드 포인트 결정 방법과 분산병렬 가시화 시스템 환경에서의 병렬 처리 기법을 제안한다. 또한, GLOVE 가시화 시스템에서 실제 유동해석 데이터를 이용한 구현 결과를 소개하고 이를 통해 본 논문의 제안 방법을 검증하고자 한다.

멀티 클라우드 서비스 연동을 위한 게이트웨이 시스템 개발 (Development of gateway system for multi-cloud federation)

  • 김바울;김승한;구원본;김명진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.721-724
    • /
    • 2020
  • 멀티 클라우드는 다양한 클라우드 제공자들의 클라우드 서비스를 연동하여 사용자에게 제공하는 기술로 최근 4차 산업혁명 기술의 발전에 따라 대용량 데이터의 수용, 대용량 계산 등을 단일 클라우드에서 활용하기 어려워 데이터를 가까운 클라우드 자원을 활용하여 분석하거나 서비스를 가까운 지역에서 제공하기 위해 등장한 기술이다. 그러나 멀티 클라우드 제공처마다 동일한 기능을 서로 다른 인터페이스와 파라미터를 사용해야 하며, 시스템의 버전 증가에 따른 인터페이스 변화 시 멀티 클라우드 연동을 다시 해주어야 하는 번거로움이 있다. 본 논문에서는 멀티 클라우드마다 다른 인터페이스를 분석하고 공통 요소를 도출 및 규격화하여 연동을 위한 게이트웨이를 제안한다. 인터페이스 제공을 위해 필수적인 요소와 부가적인 요소를 정리하여 공통 규격으로 만들어 멀티 클라우드 시스템 구성 및 서비스 이용에 편의성을 향상시킬 수 있다. 또한, 멀티 클라우드 인터페이스를 마이크로 서비스로 구성하여 새로운 클라우드 서비스 등록과 기존 등록된 서비스의 인터페이스 버전 변화에도 대응 가능할 수 있도록 설계하여 손쉽게 연동 서비스를 이용할 수 있는 시스템을 제안한다.

데이터 샘플링 기반 프루닝 기법을 도입한 효율적인 각도 기반 공간 분할 병렬 스카이라인 질의 처리 기법 (An Efficient Angular Space Partitioning Based Skyline Query Processing Using Sampling-Based Pruning)

  • 최우성;김민석;;정재화;정순영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권1호
    • /
    • pp.1-8
    • /
    • 2017
  • 다기준 의사결정 시 활용할 수 있는 스카이라인 질의는 다수의 선택지 중에서 사용자가 '선호하지 않을 만한'(uninteresting) 선택지를 제거함으로써 사용자가 검토해야 하는 선택지의 수를 대폭 감소시키기 때문에 대용량 데이터 분석 시 매우 유용하게 활용될 수 있다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행되어 왔다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 데이터 샘플링 기반 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 소개한다. 또한 다양한 관점에서의 실험 평가함으로써 제안 기법의 효용성을 다방면으로 검증했다.

SSQUSAR : Apache Spark SQL을 이용한 대용량 정성 공간 추론기 (SSQUSAR : A Large-Scale Qualitative Spatial Reasoner Using Apache Spark SQL)

  • 김종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권2호
    • /
    • pp.103-116
    • /
    • 2017
  • 본 논문에서는 Apache Spark SQL을 이용하여 임의의 두 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 새로운 정성 공간 지식을 효율적으로 추론해내는 대용량 정성 공간 추론기의 설계와 구현에 대해 소개한다. Apache Spark SQL은 Hadoop 클러스터 컴퓨터 시스템에서 다양한 데이터들 간의 매우 효율적인 조인 연산과 질의 처리 기능을 제공하는 분산 병렬 프로그래밍 환경이다. 본 공간 추론기에서는 정성 공간 추론의 전체 과정을 지식 인코딩, 역 관계 추론, 동일 관계 추론, 이행 관계 추론, 관계 정제, 지식 디코딩 등 크게 총 6개의 작업들로 나누고, 논리적 인과관계와 계산 효율성을 고려하여 작업들 간의 처리 순서를 결정하였다. 지식 인코딩 작업에서는 추론의 전처리 과정으로서 XML/RDF 형태의 입력 지식을 보다 간략한 내부 형태로 변환함으로써, 추론 대상인 지식 베이스의 크기를 축소시켰다. 일반적으로 이행 관계 추론 작업과 관계 정제 작업의 반복은 정성 공간 추론에 필요한 가장 많은 계산 시간과 기억 공간을 소모한다. 이 작업들을 효율화하기 위해 본 공간 추론기에서는 공간 추론에 필요한 최소한의 이접 관계들을 찾아내고, 이들을 기반으로 이행 관계 추론을 위한 조합표를 큰 폭으로 축소하고 관계 정제 작업도 최적화하였다. 대규모 벤치마킹 공간 지식 베이스를 이용한 실험을 통해, 본 논문에서 제안하는 대용량 정성 공간 추론기의 높은 추론 성능과 확장성을 확인하였다.

e-Science 기반 계산화학 교육환경(e-Chem) 설계 (Design of e-Science Gateway for Computational Chemistry)

  • 안부영;서정현;김지영;조금원;차지영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.231-235
    • /
    • 2010
  • 요즘 들어 컴퓨터 처리 능력의 향상에 따라 사이버인프라스트럭처(Cyberinfrastructure)를 이용하는 계산과학이 주목을 받고 있다. 그 중에서도 대용량 데이터의 복잡한 계산과 시뮬레이션을 동반하는 계산화학 연구 분야에서의 컴퓨터 활용은 매우 중요하다. 계산화학을 간단하게 설명하자면 컴퓨터를 이용한 계산을 통하여 이론 화학의 문제를 다루는 화학의 한 분야라고 말할 수 있다. 계산화학 분야의 연구를 위하여 고성능 컴퓨터와 데이터를 처리, 분석하는 계산화학 도구는 이론연구자 및 실험연구자 모두에게 있어 필수적인 요소이다. 더불어 계산화학 연구자간의 협업과 원격지에 있는 사이버인프라스트럭처 자원의 활용을 위해 e-Science 환경에서의 연구 및 교육 환경이 개발되어야 한다. 이에, 본 논문에서는 한국과학기술정보연구원(KISTI)이 보유 및 운영하고 있는 사이버인프라스트럭처(고성능 컴퓨터, 초고속 네트워크)를 기반으로 컴퓨터에 익숙하지 않은 계산화학 관련 연구자 및 전공자들이 인터넷 상에서 계산화학 분야 교육을 받을 수 있는 e-Science 기반 계산화학 교육을 위한 환경을 설계하고자 한다. 이를 위해 1) 세계적으로 유명한 GridChem, CICC, NBCR 웹사이트를 이용하여 발표된 논문을 분석하였으며, 2) 분석된 결과를 가지고 주로 사용되는 계산화학 도구의 통계를 산출하여, 3) 이를 바탕으로 KISTI 사이버인프라스트럭처를 활용한 e-Science 기반 계산화학 교육 환경(e-Chem)을 설계하였다.

  • PDF

비교 문장으로부터 비교 요소 자동 추출 (Extracting Comparative Elements from Comparative Sentences)

  • 양선;고영중
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.225-228
    • /
    • 2011
  • 본 논문은 비교 마이닝(comparison mining) 의 일환인 비교 요소 자동 추출에 관하여 연구한다. 비교 마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계롤 자동 분석하며, 비교 문장인지 아닌지를 식별하는 단계, 비교 타입을 분류하는 단계, 다양한 비교 요소들을 추출하는 단계, 추출된 요소를 분석 및 요약하는 단계 등을 거치게 된다. 본 연구에서는 특정 타입의 비교 문장이 주어졌을때, 그 문장에서 비교 요소를 자동으로 추출하는 단계의 과제를 수행하며, 우열 비교 타입 및 최상급 타입 문장들을 대상으로 비교 주체, 비교 대상, 비교 술어를 추출한다. 실험 과정으로는, 우선 비교 요소 후보들을 선정하고, 그 후 각 요소별로 확률을 계산하여 가장 높은 수치를 기록한 요소를 정답으로 채택하게 된다. 확률 계산은 지지 벡터 기계 (Support Vector Machine)를 이용한다. 인터넷 상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 비교 요소 추출을 수출한 결과, 정확도 86.81 %의 우수한 성능을 산출 할 수 있었다.