• 제목/요약/키워드: 대규모 그래프 데이터

검색결과 27건 처리시간 0.03초

하둡 맵리듀스와 페이지 랭크를 이용한 서울시 대중 교통 인구 이동 분석 (Analysis of the population flow of public transportation in Seoul using Hadoop MapReduce and PageRank algorithm)

  • 백민석;오상윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.354-356
    • /
    • 2022
  • 소셜 네트워크 및 웹 데이터와 같은 대규모 그래프 데이터를 처리하기 위해 병렬 처리 기반의 기법들이 많이 사용되어 왔다. 본 연구에서는 그래프 형식의 대규모 교통 데이터를 하둡 맵리듀스를 이용하여 처리하는 효과적인 기법을 제안한다. 제안하는 방식에서는 도시의 유동 인구 흐름을 가중치로 고려할 수 있도록 Weighted PageRank 알고리즘을 기반으로 하는 병렬 그래프 알고리즘을 사용하며, 해당 알고리즘을 하둡 맵리듀스에 적용하여 주거 및 근무지 등의 지역을 분류하도록 결과를 분석하였다. 제안 기법을 통한 분석 결과를 기반으로 지역 간 유동 인구 그래프 데이터에서 각 도시의 영향력을 측정하는 페이지랭크, 하둡 맵리듀스 기반의 기법을 제시한다.

블록 중심 그래프 처리 시스템의 부하 분산을 위한 동적 블록 재배치 기법 (Dynamic Block Reassignment for Load Balancing of Block Centric Graph Processing Systems)

  • 김예원;배민호;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권5호
    • /
    • pp.177-188
    • /
    • 2018
  • 최근 웹, 소셜 네트워크 서비스, 모바일, 사물인터넷 등의 ICT 기술의 발전으로 인해 처리 및 분석이 필요한 그래프 데이터의 규모가 급속하게 증가하였다. 이러한 대규모 그래프 데이터는 단일 기기에서의 처리가 어렵기 때문에 여러 기기에 나누어 분산/병렬 처리하는 것이 필요하다. 기존 그래프 처리 알고리즘들은 단일 메모리 환경을 기반으로 연구되어 분산/병렬 처리환경에 적용되기 힘들다. 이에 대규모 그래프의 보다 효과적인 분산/병렬 처리를 위해 정점 중심 방식의 그래프 처리 시스템들과, 정점 중심 방식의 단점을 보완한 블록 중심 방식의 그래프 처리 시스템들이 등장하였다. 이러한 시스템들은 초기 그래프 분할 상태가 전체 처리 성능에 상당한 영향을 미친다. 한 번에 최적의 상태로 그래프를 분할하는 것은 매우 어려운 문제이므로, 그래프 처리 시간에 점진적으로 그래프 분할 상태를 개선하는 여러 로드 밸런싱 기법들이 연구되었다. 그러나 기존 기법들은 대부분 정점 중심 그래프 처리 시스템을 대상으로 하여 블록 중심 그래프 처리 시스템에 적용이 어렵다. 본 논문에서는 블록 중심 그래프 처리 시스템을 대상으로 적용 가능한 로드 밸런싱 기법을 제안한다. 제안 기법은 동적으로 블록을 재배치하여 점진적으로 그래프 분할 상태를 개선시키며, 해를 찾아나가는 과정에서 지역 최적해를 벗어나기 위한 블록 분할 전략을 함께 제시한다.

매크로-스타 그래프에서의 일-대-다 방송 알고리즘

  • 이형옥;류광택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.597-599
    • /
    • 2000
  • 대규모 병렬 컴퓨터에서 메시지를 가진 한 노드에서 다른 모든 노드들로 그 메시지를 전달하는 방송은 데이터의 복제, 신호 처리와 같은 다양한 응용프로그램에서 이용되는 중요한 통신 패턴이다. 매크로-스타 그래프는 스타 그래프를 기본 모듈로 가지면서 스타 그래프가 갖는 노드 대칭성, 최대 고장 허용도, 계층적 분할 성질을 갖고, 스타 그래프보다 망 비용이 개선된 상호 연결망으로 최근에 제안되었다. 본 논문에서는 매크로-스타 그래프의 계층적 분할 성질과 기본 모듈을 이용한 매크로-스타 그래프에서의 일-대-다 방송알고리즘을 제안한다.

  • PDF

대규모 분산 처리 프레임워크에 따른 대규모 그래프 처리 성능 비교 (A Performance Comparison of Distributed Data Processing Frameworks for Large Scale Graph Data)

  • 배경숙;공용준;심탁길;신의섭;성기진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.469-472
    • /
    • 2012
  • 최근 IT 분야의 화두로 '빅 데이터'가 떠오르고 있으며 많은 기업들이 이를 분석하여 이익을 증대하기 위한 노력을 하고 있다. 이에 구글은 초기에 맴리듀스라고 하는 대용량 분산처리 프레임워크 기술을 확보하여 이를 기반으로 한 서비스를 제공하고 있다. 그러나 스마트 단말 및 소설미디어 등의 출현으로 다양한 디지털 정보들이 그래프로 표현되는 추세가 강화되고 있으며 기존의 맵리듀스로 이를 처리하는 데에 한계를 느낀 구글은 Pregel 이라는 그래프 형 자료구조에 최적화된 또 다른 분산 프레임워크를 개발하였다. 본 논문에서는 일반적인 그래프 형 데이터가 갖는 특성을 분석하고, 대용량 그래프 데이터를 처리하는데 있어 맵리듀스가 갖는 한계와 Pregel은 어떤 방식으로 이를 극복하고 있는지를 소개한다. 또한 실험을 통하여 데이터의 특성에 따른 적절한 프레임워크의 선택이 대용량 데이터를 처리하는 데에 있어서 얼마나 큰 영향을 미치는지 확인한다.

동적 그래프에서 GPU 기반의 점진적 연결 요소 처리 (GPU Based Incremental Connected Component Processing in Dynamic Graphs)

  • 김남영;최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.56-68
    • /
    • 2022
  • 최근 실시간 처리의 요구가 증가하면서 시간에 따라서 변화하는 동적 그래프에 관한 연구가 활발하게 진행되고 있다. 동적 그래프를 분석하기 위한 알고리즘의 하나로 연결 요소가 있다. GPU는 높은 메모리 대역폭, 연산 성능으로 대규모의 그래프 계산에 적합하다. 그러나 동적 그래프의 연결 요소를 GPU를 이용하여 처리할 때, GPU의 제한된 메모리로 인해 실제 그래프 처리 시 CPU와 GPU 간에 잦은 데이터 교환이 발생한다. 본 논문에서는 동적 그래프에서 GPU 기반의 효율적인 점진적 연결 요소 처리 기법을 제안한다. 제안하는 기법은 Weighted-Quick-Union 알고리즘을 기반으로 연결 요소 레이블에 구성 요소의 개수를 이용하여 연결 요소를 빠르게 계산한다. 또한, 재계산할 부분을 판별하여 GPU로 전송할 데이터를 최소화하여 대규모 그래프에 대하여 CPU와 GPU 간의 데이터 교환 횟수를 감소시킨다. 뿐만 아니라 GPU와 CPU 간에 데이터 전송 시간 낭비를 줄이기 위해 GPU와 CPU가 비동기로 실행하는 처리 구조를 제안한다. 실제 데이터 집합을 사용한 성능 평가를 통해 제안하는 기법의 우수성을 입증한다.

$\mathcal{K}o$-ATOMIC: 일반 상식 기반의 한국어 지식 그래프 ($\mathcal{K}o$-ATOMIC: Korean Commonsense Knowledge Graph)

  • 이재욱;서재형;이승준;박찬준;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.412-417
    • /
    • 2022
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 그래프로 표현하여, 자연어 처리의 하위 작업들에 적용할 수 있도록 하는 구조화된 지식 표현 방법이다. 현재 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ATOMIC [1]이 있다. 하지만 한국어를 주요 언어로 하는 일반 상식 기반의 지식 그래프에 대한 연구는 아직 활발하지 않다. 따라서 본 연구에서는 기존에 존재하는 영어 기반의 지식 그래프와 일반 상식 기반의 한국어 데이터셋을 활용해서 한국어 일반 상식 기반 지식 그래프를 구축하는 방법론을 제시한다. 또한, 제작한 지식 그래프를 평가하여 구축하는 방법론에 대한 타당성을 검증한다.

  • PDF

Pharmacogenomics를 위한 대규모 베이지안 유전자망 학습 (Large-Scale Bayesian Genetic Network Learning for Pharmacogenomics)

  • 황규백;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.139-141
    • /
    • 2001
  • Pharmacogenomics는 개인의 유전적 성향과 약물에 대한 반응간의 관계에 대해 연구하는 학문이다. 이를 위해 DNA microarray 데이터를 비롯한 대량의 생물학 데이터가 구축되고 있으며 이러한 대규모 데이터를 분석하기 위해서 기계학습과 데이터 마이닝의 여러 기법들이 이용되고 있다. 본 논문에서는 pharmacogenomics를 위한 생물학 데이터의 효율적인 분석 수단으로 베이지안망(Bayesian network)을 제시한다. 배이지안망은 다수의 변수들간의 확률적 관계를 표현하는 확률그래프모델(probabilistic graphical model)로 유전자 발현과 약물 반응 사이의 확률적 의존 관계를 분석하는데 적합하다. NC160 cell lines dataset으로부터 학습된 베이지안 유전자망(Bayesian genetic network)이 나타내는 관계는 생물학적 실험을 통해 검증된 실제 관계들을 다수 포함하며, 이는 배이지안 유전자망 분석을 통해 개략적인 유전자-유전자, 약물-약물, 유전자-약물 관계를 효율적으로 파악할 수 있음을 나타낸다.

  • PDF

대규모 데이터 분석을 위한 계층적 베이지안망 학습 (Hierarchical Bayesian Network Learning for Large-scale Data Analysis)

  • 황규백;김병희;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.724-726
    • /
    • 2005
  • 베이지안망(Bayesian network)은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 이러한 베이지안망은 비감독학습(unsupervised teaming)을 통한 데이터마이닝에 적합하다. 이를 위해 데이터로부터 베이지안망의 구조와 파라미터를 학습하게 된다. 주어진 데이터의 likelihood를 최대로 하는 베이지안망 구조를 찾는 문제는 NP-hard임이 알려져 있으므로, greedy search를 통한 근사해(approximate solution)를 구하는 방법이 주로 이용된다. 하지만 이러한 근사적 학습방법들도 데이터를 구성하는 변수들이 수천 - 수만에 이르는 경우, 방대한 계산량으로 인해 그 적용이 실질적으로 불가능하게 된다. 본 논문에서는 그러한 대규모 데이터에서 학습될 수 있는 계층적 베이지안망(hierarchical Bayesian network) 모델 및 그 학습방법을 제안하고, 그 가능성을 실험을 통해 보인다.

  • PDF

그래프 신경망 하이퍼 파라미터 연구 (A Study on Hyper Parameters of Graph Neural Network)

  • 민연아;전진영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.517-518
    • /
    • 2023
  • 본 논문에서는 인공지능 신경망의 하이퍼 파라미터들이 그래프 신경망 모델의 성능에 미치는 영향을 알아보기 위하여 대규모 그래프 데이터를 기반으로 이진 분류 문제를 예측하는 그래프 합성곱 신경망 모델(Graph Convolution Network Model)을 구현하고 모델의 다양한 하이퍼 파라미터 중 손실함수와 활성화 함수를 여러 가지 조합으로 적용하며 모델 학습과 예측 실험을 시행하였다. 실험 결과, 활성화 함수보다는 손실함수의 선택이 모델의 예측 성능에 좀 더 큰 영향을 미치는 것을 확인하였다.

  • PDF

대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법 (A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data)

  • 김천중;김기연;윤종현;임종태;복경수;유재수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1126-1135
    • /
    • 2014
  • 최근 대규모 RDF 데이터를 효과적으로 분산 저장 및 관리하기 위해 RDF 분할 기법의 연구가 진행되고 있다. 본 논문에서는 지속적으로 데이터의 추가 및 변경이 발생하는 동적 환경에서 부하 분산을 지원하는 RDF 동적 분할 기법을 제안한다. 제안하는 기법은 그래프 분할을 수행하기 위한 기준으로 질의에 의해 사용된 RDF 데이터의 사용 빈도에 따라 클러스터와 서브 클러스터 그룹을 생성한다. 생성된 클러스터와 서브 클러스터는 분산된 서버의 부하 및 저장되는 데이터 크기를 고려하여 분할을 수행한다. 이를 통해 지속적인 데이터 변경 및 추가로 인해 특정 서버에 대한 데이터 집중을 해결하고 서버들간에 효율적인 부하 분산을 수행한다. 성능평가를 통하여 분산 서버에서 제안하는 기법이 기존 분할 기법에 비해 질의 수행 시간이 크게 향상됨을 보인다.