• 제목/요약/키워드: distributed-data processing algorithm

검색결과 181건 처리시간 0.025초

S-PARAFAC: 아파치 스파크를 이용한 분산 텐서 분해 (S-PARAFAC: Distributed Tensor Decomposition using Apache Spark)

  • 양혜경;용환승
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.280-287
    • /
    • 2018
  • 최근 추천시스템과 데이터 분석 분야에서 고차원 형태의 텐서를 이용하는 연구가 증가하고 있다. 이는 고차원의 데이터인 텐서 분석을 통해 더 많은 잠재 요소와 잠재 패턴을 추출가능하기 때문이다. 그러나 고차원 형태인 텐서는 크기가 방대하고 계산이 복잡하기 때문에 텐서 분해를 통해 분석해야한다. 기존 텐서 도구들인 rTensor, pyTensor와 MATLAB은 단일 시스템에서 작동하기 때문에 방대한 양의 데이터를 처리하기 어렵다. 하둡을 이용한 텐서 분해 도구들도 있지만 처리 시간이 오래 걸린다. 따라서 본 논문에서는 인 메모리 기반의 빅데이터 시스템인 아파치 스파크를 기반으로 하는 텐서 분해 도구인 S-PARAFAC을 제안한다. S-PARAFAC은 텐서 분해 방법 중 PARAFAC 분해에 초점을 맞춰 아파치 스파크에 적합하게 변형하여 텐서 분해를 빠르게 분산 처리가능 하도록 하였다. 본 논문에서는 하둡을 기반의 텐서 분해 도구와 S-PARAFAC의 성능을 비교하여 약 4~25배 정도의 좋은 성능을 보였다.

분산 멀티미디어 데이터베이스에 대한 수집 융합 알고리즘 (Collection Fusion Algorithm in Distributed Multimedia Databases)

  • 김덕환;이주흥;이석룡;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.406-417
    • /
    • 2001
  • 웹에서의 멀티미디어 데이터베이스가 발달함에 따라 분산 멀티미디어 데이터에 대한 검색 기능의 필요성이 높아지고 있다. 그러나 지금까지는 주로 웹상에 분산된 텍스트 데이터베이스를 선택하고 선택된 텍스트 데이터베이스에 대해소 질의 결과를 결합하는 연구가 이루어졌을 뿐 멀티미디어 데이터베이스에 대해서는 연구가 미진하였다. 웹상의 멀티미디어 데이터베이스는 자율적이고 이질적인 특성을 가지고 있고 주로 내용 기반으로 검색된다. 멀티미디어 데이터베이스에서의 수집 융합 문제는 웹상의 이질적인 멀티미디어 데이터베이스에서 내용 기반 검색으로 검색된 경과를 병합하는 것을 다룬다. 이 문제는 분산 멀티미디어 데이터베이스의 검색에 매우 중요하지만 아직까지 연구된 바가 없다. 본 논문은 웹상에서 이질적인 멀티미디어 데이터베이스의 수집 융합을 처리하는 새로운 알고리즘을 제안한다. 본 논문은 데이터베이스에서 검색할 객체의 개수를 추정하는 휴리스틱 방법과 선형 회귀분석을 이용한 알고리즘을 사용한다. 그리고 실험에 의해서 이 알고리즘들의 효율성을 보였다. 이 알고리즘들은 향후 웹상의 멀티미디어 데이터베이스들에 대한 분산 내용 기반 검색 알고리즘들의 기본이 될 수 있다.

  • PDF

Middleware for Ubiquitous Healthcare Information System

  • Sain, Mangal;Lee, Hoon-Jae;Chung, Wan-Young
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.257-260
    • /
    • 2008
  • We build middleware architecture with J2EE and LiveGraph to process different ubiquitous healthcare application's data and process that data into useful information, which can play a most important role in decision making in ubiquitous Healthcare System. Application developers mostly rely on third party middleware, tools and libraries (i.e., webservers, distributed middleware such as CORBA, etc.) to respond the emerging trends of their target domain. With this middleware we tried to enhance the efficiency of application by decrease their memory uses, data processing and decision making on another web module which is independent of each application. For middleware system, we proposed an algorithm by which we can find some important conclusion about different health status likewise ECG, Accelerometer. etc., which can be used in various data processing and determine the current health status. In this paper we also analyze some different low level and high level middleware technology which were used to build different kind middleware likewise CAMUS, MiLAN and try to find the best solution in the form of middleware for Ubiquitous Healthcare Information System.

  • PDF

MPMD 방식의 동기/비동기 병렬 혼합 멱승법에 의한 거대 고유치 문제의 해법 (A Synchronous/Asynchronous Hybrid Parallel Power Iteration for Large Eigenvalue Problems by the MPMD Methodology)

  • 박필성
    • 정보처리학회논문지A
    • /
    • 제11A권1호
    • /
    • pp.67-74
    • /
    • 2004
  • 대부분의 병렬 알고리즘은 동기 알고리즘으로, 올바른 계산을 위해 작업을 일찍 끝낸 빠른 프로세서들은 동기점에서 느린 프로세서를 기다려야 하는데, 프로세서들의 성능이 다를 경우 연산 속도는 가장 느린 프로세서에 의해 결정된다. 본 논문에서는 거대 고유치 문제의 주요 고유쌍을 구하는 문제에 있어서 빠른 프로세서의 유휴 시간을 줄여 수렴 속도를 가속한 수 있는 동기/비동기 혼합 알고리즘을 고안하고 이를 MPMD 프로그래밍 방식을 사용하여 구현하였다.

Radix-2 트리 ATM 스위치를 위한 멀티캐스팅 알고리즘에 관한 연구 (A study on the multicasting algorithm for radix-2 tree ATM switch)

  • 김홍열;임제택
    • 전자공학회논문지S
    • /
    • 제34S권1호
    • /
    • pp.1-8
    • /
    • 1997
  • A wide class of networking application services, such as video teleconferencing, VOD, LAN bridging, and distributed data processing require multipoint communications. The essential component inteh network to achieve this is a multicast packet switch which is capable of packet replication and switching. In this paper, we propose an efficient mukticast addressing scheme using the smallest number of routing bits which is deterministic lower bound. The new scheme performs all point-to-multipoint connection in radix-2 tree ATM switch like banyan network. Also, we provide a simple radix-2 switch block diagram for achieving our algorithm. And we investigate several addressing schemes for implementing multicasting in radix-r tree ATM switch and evaluate several performance factors, such as complexity of the additional header bits, requirement of the internal speedup and complexity of the major hardware.

  • PDF

블록체인을 이용한 부동산종합공부시스템 참조모델 (A Reference Model for Korea Real Estate Administration Intelligence System Using Block Chain)

  • 선종철;김진욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권11호
    • /
    • pp.281-288
    • /
    • 2018
  • 동일한 데이터를 여러 곳에 보관하는 분산원장을 특징으로 갖는 블록체인은 보안성과 안정성을 비롯한 여러 가지 기술적 특징을 가지며, 이로 인해 블록체인의 활용처에 관한 연구가 다양하게 이루어지고 있다. 본 논문에서는 공적장부의 하나인 부동산종합공부시스템에 블록체인을 적용하기 위해 고려할 사항들을 도출하고, 이를 바탕으로 블록체인 시스템 구성 방안과 합의 알고리즘을 포함하는 블록체인 참조 모델을 제시한다.

실시간 환경을 위한 효율적인 인과순서 알고리즘 (An Efficient Causal Order Algorithm for Real-Time Environment)

  • 장익현
    • 정보처리학회논문지A
    • /
    • 제12A권1호
    • /
    • pp.23-30
    • /
    • 2005
  • 인과순서 메시지 전달 알고리즘은 모든 전송되는 메시지가 인과순서로 전달되도록 한다. 인과순서를 유지하기 위해서는 전송되는 모든 메시지가 제어정보를 가지고 다녀야 하고, 제어정보의 크기는 관련된 프로세스의 수에 비례하여 커지게 되므로 제어정보의 크기를 줄이는 것은 분산시스템의 주요한 관심사가 되어 왔다. 본 논문에서는 실시간 성질을 가지는 멀티미디어 자료를 위한 효율적인 ${\Delta}$-인과순서 알고리즘을 제안하고 평가하였다. 제안된 알고리즘은 전송 부하를 줄이기 위하여 인과순서를 유지하는데 필수적이지 않은 정보를 가능한 이른 시기에 찾아내어 제거하며, 기존 알고리즘보다 훨씬 적은 전송부하를 가지게 된다.

웹 로그에서의 Apriori 알고리즘 기반 사용자 액세스 패턴 발견 (User Access Patterns Discovery based on Apriori Algorithm under Web Logs)

  • 염종림;정석태
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.681-689
    • /
    • 2019
  • 웹 사용 패턴 발견은 웹 로그 데이터를 사용하는 고급 수단이며 웹 로그 데이터 마이닝에 데이터 마이닝 기술을 적용한 특정 응용이다. 교육 분야에서 데이터 마이닝 (DM)은 데이터 마이닝 기술을 교육 데이터 (대학의 웹 로그, e-러닝, 적응형 하이퍼미디어 및 지능형 튜터링시스템 등)에 적용한다. 따라서 교육 연구 문제를 해결하기 위해 이러한 유형의 데이터를 분석하는 것이 목표이다. 본 논문에서는 대학의 웹 로그 데이터가 데이터 마이닝의 연구 대상으로 사용되어 진다. 데이터베이스 OLAP 기술을 사용하여 웹 로그 데이터가 데이터 마이닝에 사용될 수 있는 데이터 형식으로 사전 처리되고 그 처리 결과가 MSSQL에 저장된다. 동시에 처리 된 웹 로그 레코드를 기반으로 기본 데이터 통계 및 분석이 완료된다. 또한 웹 사용 패턴 마이닝의 Apriori Algorithm 및 구현 프로세스를 소개하고 Python 개발 환경에서 Apriori Algorithm 프로그램을 개발했다. 그런 다음 Apriori Algorithm의 성능을 보이고 웹 사용자 액세스 패턴의 마이닝을 실현했다. 이 연구 결과는 교육 시스템 개발에 패턴을 적용하는데 중요한 이론적 의미를 갖는다. 다음 연구로는 분산 컴퓨팅 환경에서 Apriori Algorithm의 성능 향상을 연구하는 것이다.

3D 프린터를 위하여 3D 모델 데이터의 분산 변환 기법 개발 (Developing a distributed conversion algorithm of 3D model data for 3D printers)

  • 모준서;주우성;이규영;김성석;양순옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.68-70
    • /
    • 2016
  • 3D 프린터는 연속적인 계층에 특수한 재료를 출력시켜 3차원 물체를 만들어 내는 장치이다. 3D 프린팅을 위해서는 3D 모델을 생성한 후, 이를 3D 프린터에 출력할 수 있도록 G-code로 변환해야 한다. 본 논문에서는 이 변환 작업을 완전 분산 방식으로 처리할 수 있는 알고리즘을 제안한다. 이를 위해 하나의 메인 노드와 N개의 작업 노드로 구성한 시스템에서 2단계에 걸쳐 분할 정복(divide-and-conquer) 방식으로 변환하도록 하였다. 실제 구현한 시스템을 이용하여, 성능에 미치는 요소(모델의 크기 및 정밀도)에 따른 변환 시간의 단축 효과를 보였다.

Greedy 알고리즘을 사용한 데이터 분할 시스템 (Data Segmentation System using Greedy Algorithm)

  • 김민우;김세준;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.211-212
    • /
    • 2018
  • 머신 러닝 환경에서 많은 양의 데이터를 한꺼번에 학습하게 되면 데이터 트래픽이 증가함에 따라 흐름 정체가 발생하고 학습 품질이 저하되며 학습속도 지연 등의 문제가 발생한다. 본 연구는 머신러닝 환경에서 빅 데이터 학습 데이터 분할을 위한 핵심 목표인 Greedy 알고리즘에 대해 설명하고 간단한 Greedy 알고리즘을 사용하여 각각의 데이터 파티션을 생성하여 학습 속도의 효율성을 향상시키는 방법을 제안한다.

  • PDF