• 제목/요약/키워드: 분산 기계 학습

검색결과 90건 처리시간 0.026초

기계학습 분산 환경을 위한 부하 분산 기법 (Load Balancing Scheme for Machine Learning Distributed Environment)

  • 김영관;이주석;김아정;홍지만
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.25-31
    • /
    • 2021
  • 기계학습이 보편화되면서 기계학습을 활용한 응용 개발 또한 활발하게 이루어지고 있다. 또한 이러한 응용 개발을 지원하기 위한 기계학습 플랫폼 연구도 활발하게 진행되고 있다. 그러나 기계학습 플랫폼 연구가 활발하게 진행되고 있음에도 불구하고 기계학습 플랫폼에 적절한 부하 분산에 관한 연구는 아직 부족하다. 따라서 본 논문에서는 기계학습 분산 환경을 위한 부하 분산 기법을 제안한다. 제안하는 기법은 분산 서버를 레벨 해시 테이블 구조로 구성하고 각 서버의 성능을 고려하여 기계학습 작업을 서버에 할당한다. 이후 분산 서버를 구현하여 실험하고 기존 해싱 기법과 성능을 비교하였다. 제안하는 기법을 기존 해싱 기법과 비교하였을 때 평균 약 26%의 속도 향상을 보였고, 서버에 할당되지 못하고 대기하는 작업의 수가 약 38% 이상 감소함을 보였다.

프라이버시를 보호하는 분산 기계 학습 연구 동향 (Systematic Research on Privacy-Preserving Distributed Machine Learning)

  • 이민섭;신영아;천지영
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.76-90
    • /
    • 2024
  • 인공지능 기술은 스마트 시티, 자율 주행, 의료 분야 등 다양한 분야에서 활용 가능성을 높이 평가받고 있으나, 정보주체의 개인정보 및 민감정보의 노출 문제로 모델 활용이 제한되고 있다. 이에 따라 데이터를 중앙 서버에 모아서 학습하지 않고, 보유 데이터셋을 바탕으로 일차적으로 학습을 진행한 후 글로벌 모델을 최종적으로 학습하는 분산 기계 학습의 개념이 등장하였다. 그러나, 분산 기계 학습은 여전히 협력하여 학습을 진행하는 과정에서 데이터 프라이버시 위협이 발생한다. 본 연구는 분산 기계 학습 연구 분야에서 프라이버시를 보호하기 위한 연구를 서버의 존재 유무, 학습 데이터셋의 분포 환경, 참여자의 성능 차이 등 현재까지 제안된 분류 기준들을 바탕으로 유기적으로 분석하여 최신 연구 동향을 파악한다. 특히, 대표적인 분산 기계 학습 기법인 수평적 연합학습, 수직적 연합학습, 스웜 학습에 집중하여 활용된 프라이버시 보호 기법을 살펴본 후 향후 진행되어야 할 연구 방향을 모색한다.

쿠버네티스에서 ML 워크로드를 위한 분산 인-메모리 캐싱 방법 (Distributed In-Memory Caching Method for ML Workload in Kubernetes)

  • 윤동현;송석일
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.71-79
    • /
    • 2023
  • 이 논문에서는 기계학습 워크로드의 특징을 분석하고 이를 기반으로 기계학습 워크로드의 성능 향상을 위한 분산 인-메모리 캐싱 기법을 제안한다. 기계학습 워크로드의 핵심은 모델 학습이며 모델 학습은 컴퓨팅 집약적 (Computation Intensive)인 작업이다. 쿠버네티스 기반 클라우드 환경에서 컴퓨팅 프레임워크와 스토리지를 분리한 구조에서 기계학습 워크로드를 수행하는 것은 자원을 효과적으로 할당할 수 있지만, 네트워크 통신을 통해 IO가 수행되야 하므로 지연이 발생할 수 있다. 이 논문에서는 이런 환경에서 수행되는 머신러닝 워크로드의 성능을 향상하기 위한 분산 인-메모리 캐싱 기법을 제안한다. 특히, 제안하는 방법은 쿠버네티스 기반의 머신러닝 파이프라인 관리 도구인 쿠브플로우를 고려하여 머신러닝 워크로드에 필요한 데이터를 분산 인-메모리 캐시에 미리 로드하는 새로운 방법을 제안한다.

  • PDF

실시간 데이터 처리를 위한 아파치 스파크 기반 기계 학습 라이브러리 성능 비교 (A Performance Comparison of Machine Learning Library based on Apache Spark for Real-time Data Processing)

  • 송준석;김상영;송병후;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.15-16
    • /
    • 2017
  • IoT 시대가 도래함에 따라 실시간으로 대규모 데이터가 발생하고 있으며 이를 효율적으로 처리하고 활용하기 위한 분산 처리 및 기계 학습에 대한 관심이 높아지고 있다. 아파치 스파크는 RDD 기반의 인 메모리 처리 방식을 지원하는 분산 처리 플랫폼으로 다양한 기계 학습 라이브러리와의 연동을 지원하여 최근 차세대 빅 데이터 분석 엔진으로 주목받고 있다. 본 논문에서는 아파치 스파크 기반 기계 학습 라이브러리 성능 비교를 통해 아파치 스파크와 연동 가능한 기계 학습라이브러리인 MLlib와 아파치 머하웃, SparkR의 데이터 처리 성능을 비교한다. 이를 위해, 대표적인 기계 학습 알고리즘인 나이브 베이즈 알고리즘을 사용했으며 학습 시간 및 예측 시간을 비교하여 아파치 스파크 기반에서 실시간 데이터 처리에 적합한 기계 학습 라이브러리를 확인한다.

  • PDF

Big Data 분석을 위한 Machine Learning

  • 이재구;이태훈;윤성로
    • 정보와 통신
    • /
    • 제31권11호
    • /
    • pp.14-26
    • /
    • 2014
  • 본고는 빅데이터 시대에 새로운 가치를 창출할 수 있는 정보 분석을 위한 기계학습을 설명하고자 한다. 기계학습의 일반적 정의와 특성, 그리고 빅데이터 특성에 의한 기계학습의 변화를 확인하고 특별히 다양한 변화 중에서 분산 및 병렬화를 통한 스케일러블 기계학습을 중점으로 주어진 빅데이터를 효율적으로 분석할 수 있는 다양한 플랫폼들과 프레임워크들을 설명한다. 더불어 실제 다양한 응용 활용을 제공하고 있는 Google API 같은 빅데이터 분석 기계학습 프로젝트들을 통해서 기계학습을 통한 빅데이터 분석에 대한 폭넓은 이해를 전달하고자 한다.

분산 처리 환경에서의 기계학습 기반의 뉴스 기사 빅 데이터 분석 (News Article Big Data Analysis based on Machine Learning in Distributed Processing Environments)

  • 오희빈;이정청;김경섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.59-62
    • /
    • 2017
  • 본 논문에서는 텍스트 형태의 빅 데이터를 분산처리 환경에서 기계학습을 이용하여 분석하고 유의미한 데이터를 만들어내는 시스템에 대해 다루었다. 빅 데이터의 한 종류인 뉴스 기사 빅 데이터를 분산 시스템 환경(Spark) 내에서 기계 학습(Word2Vec)을 이용하여 뉴스 기사의 키워드 간의 연관도를 분석하는 분산 처리 시스템을 설계 및 구현하였고, 사용자가 입력한 검색어와 연관된 키워드들을 한눈에 파악하기 쉽게 만드는 시각화 시스템을 설계하였다.

천문학에서의 대용량 자료 분석 (Analysis of massive data in astronomy)

  • 신민수
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1107-1116
    • /
    • 2016
  • 최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석 환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

불균형한 DNN 모델의 효율적인 분산 학습을 위한 파라미터 샤딩 기술 성능 평가 (Performance Evaluation: Parameter Sharding approaches for DNN Models with a Very Large Layer)

  • 최기봉;고윤용;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.881-882
    • /
    • 2020
  • 최근 딥 러닝 (deep learning) 기술의 큰 발전으로 기존 기계 학습 분야의 기술들이 성공적으로 해결하지 못하던 많은 문제들을 해결할 수 있게 되었다. 이러한 딥 러닝의 학습 과정은 매우 많은 연산을 요구하기에 다수의 노드들로 모델을 학습하는 분산 학습 (distributed training) 기술이 연구되었다. 대표적인 분산 학습 기법으로 파라미터 서버 기반의 분산 학습 기법들이 있으며, 이 기법들은 파라미터 서버 노드가 학습의 병목이 될 수 있다는 한계를 갖는다. 본 논문에서는 이러한 파라미터 서버 병목 문제를 해결하는 파라미터 샤딩 기법에 대해 소개하고, 각 기법 별 학습 성능을 비교하고 그 결과를 분석하였다.

딥러닝 분산처리 기술동향 (Trends on Distributed Frameworks for Deep Learning)

  • 안신영;박유미;임은지;최완
    • 전자통신동향분석
    • /
    • 제31권3호
    • /
    • pp.131-141
    • /
    • 2016
  • 최근 알파고를 통해 인공지능 기술이 전 세계인의 이목을 집중시켰던 반면, 인공지능 연구자들은 인공지능 부활에 결정적 역할을 한 딥러닝 기술에 주목하고 있다. 딥러닝은 다계층 인공신경망 기반의 기계학습 기술로서 최근 컴퓨터 비전, 음성인식, 자연어 처리 분야에서 인식 성능을 높이는 데 중요한 역할을 하고 있다. 딥러닝 기술을 이용하여 기계가 수천만장의 이미지를 학습하여 객체를 인식하게 하고, 수천 시간의 음성 데이터를 학습하여 사람의 말을 알아듣게 처리하는 데에는 다수의 고성능 컴퓨터가 필요하다. 따라서 딥러닝에는 다수의 컴퓨터를 효율적으로 이용하기 위한 분산처리 기술이 필수적이며 관련 연구들이 활발히 진행되고 있다. 이에 본고는 다중 컴퓨터 노드들에서 딥러닝 모델을 분산처리할 수 있는 기존의 프레임워크들을 비교 분석하고 딥러닝 분산처리 기술에 대한 발전 방향을 전망한다.

  • PDF

A Study of Collaborative and Distributed Multi-agent Path-planning using Reinforcement Learning

  • Kim, Min-Suk
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.9-17
    • /
    • 2021
  • 동적 시스템 환경에서 지능형 협업 자율 시스템을 위한 기계학습 기반의 다양한 방법들이 연구 및 개발되고 있다. 본 연구에서는 분산 노드 기반 컴퓨팅 방식의 자율형 다중 에이전트 경로 탐색 방법을 제안하고 있으며, 지능형 학습을 통한 시스템 최적화를 위해 강화학습 방법을 적용하여 다양한 실험을 진행하였다. 강화학습 기반의 다중 에이전트 시스템은 에이전트의 연속된 행동에 따른 누적 보상을 평가하고 이를 학습하여 정책을 개선하는 지능형 최적화 기계학습 방법이다. 본 연구에서 제안한 방법은 강화학습 기반 다중 에이전트 최적화 경로 탐색 성능을 높이기 위해 학습 초기 경로 탐색 방법을 개선한 최적화 방법을 제안하고 있다. 또한, 분산된 다중 목표를 구성하여 에이전트간 정보 공유를 이용한 학습 최적화를 시도하였으며, 비동기식 에이전트 경로 탐색 기능을 추가하여 실제 분산 환경 시스템에서 일어날 수 있는 다양한 문제점 및 한계점에 대한 솔루션을 제안하고자 한다.