• 제목/요약/키워드: 분산학습

검색결과 534건 처리시간 0.025초

아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화 (Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark)

  • 명노영;안범진;유헌창
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

기계학습 분산 환경을 위한 부하 분산 기법 (Load Balancing Scheme for Machine Learning Distributed Environment)

  • 김영관;이주석;김아정;홍지만
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.25-31
    • /
    • 2021
  • 기계학습이 보편화되면서 기계학습을 활용한 응용 개발 또한 활발하게 이루어지고 있다. 또한 이러한 응용 개발을 지원하기 위한 기계학습 플랫폼 연구도 활발하게 진행되고 있다. 그러나 기계학습 플랫폼 연구가 활발하게 진행되고 있음에도 불구하고 기계학습 플랫폼에 적절한 부하 분산에 관한 연구는 아직 부족하다. 따라서 본 논문에서는 기계학습 분산 환경을 위한 부하 분산 기법을 제안한다. 제안하는 기법은 분산 서버를 레벨 해시 테이블 구조로 구성하고 각 서버의 성능을 고려하여 기계학습 작업을 서버에 할당한다. 이후 분산 서버를 구현하여 실험하고 기존 해싱 기법과 성능을 비교하였다. 제안하는 기법을 기존 해싱 기법과 비교하였을 때 평균 약 26%의 속도 향상을 보였고, 서버에 할당되지 못하고 대기하는 작업의 수가 약 38% 이상 감소함을 보였다.

프라이버시를 보호하는 분산 기계 학습 연구 동향 (Systematic Research on Privacy-Preserving Distributed Machine Learning)

  • 이민섭;신영아;천지영
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.76-90
    • /
    • 2024
  • 인공지능 기술은 스마트 시티, 자율 주행, 의료 분야 등 다양한 분야에서 활용 가능성을 높이 평가받고 있으나, 정보주체의 개인정보 및 민감정보의 노출 문제로 모델 활용이 제한되고 있다. 이에 따라 데이터를 중앙 서버에 모아서 학습하지 않고, 보유 데이터셋을 바탕으로 일차적으로 학습을 진행한 후 글로벌 모델을 최종적으로 학습하는 분산 기계 학습의 개념이 등장하였다. 그러나, 분산 기계 학습은 여전히 협력하여 학습을 진행하는 과정에서 데이터 프라이버시 위협이 발생한다. 본 연구는 분산 기계 학습 연구 분야에서 프라이버시를 보호하기 위한 연구를 서버의 존재 유무, 학습 데이터셋의 분포 환경, 참여자의 성능 차이 등 현재까지 제안된 분류 기준들을 바탕으로 유기적으로 분석하여 최신 연구 동향을 파악한다. 특히, 대표적인 분산 기계 학습 기법인 수평적 연합학습, 수직적 연합학습, 스웜 학습에 집중하여 활용된 프라이버시 보호 기법을 살펴본 후 향후 진행되어야 할 연구 방향을 모색한다.

불균형한 DNN 모델의 효율적인 분산 학습을 위한 파라미터 샤딩 기술 성능 평가 (Performance Evaluation: Parameter Sharding approaches for DNN Models with a Very Large Layer)

  • 최기봉;고윤용;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.881-882
    • /
    • 2020
  • 최근 딥 러닝 (deep learning) 기술의 큰 발전으로 기존 기계 학습 분야의 기술들이 성공적으로 해결하지 못하던 많은 문제들을 해결할 수 있게 되었다. 이러한 딥 러닝의 학습 과정은 매우 많은 연산을 요구하기에 다수의 노드들로 모델을 학습하는 분산 학습 (distributed training) 기술이 연구되었다. 대표적인 분산 학습 기법으로 파라미터 서버 기반의 분산 학습 기법들이 있으며, 이 기법들은 파라미터 서버 노드가 학습의 병목이 될 수 있다는 한계를 갖는다. 본 논문에서는 이러한 파라미터 서버 병목 문제를 해결하는 파라미터 샤딩 기법에 대해 소개하고, 각 기법 별 학습 성능을 비교하고 그 결과를 분석하였다.

인공 면역 시스템과 분산 유전자 알고리즘에 기반한 자율 분산 로봇 시스템 (Distributed Autonomous Robotic System based on Artificial Immune system and Distributed Genetic Algorithm)

  • 심귀보;황철민
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.164-170
    • /
    • 2004
  • 본 논문에서는 인공 면역 시스템과 분산 유전자 알고리즘에 기반하여 동작하는 자율분산로봇 시스템을 제안한다. 시스템에서 로봇들의 행동은 전역행동과 지역행동으로 분류된다. 전역행동은 환경에서 작업을 탐색하는데 이를 빠르게 수행하기 위하여 집합과 분산의 두 가지 행동으로 이루어져 있다. 이때 인공 면역 시스템은 로봇이 어떤 행동을 선택하여 행동할 것인가를 결정한다. 지역행동은 탐색된 작업을 수행하는 부분으로서 어떤 로봇들이 협조행동을 할지를 학습하고, 학습한 결과에 따라 작업을 수행하는 행동을 한다. 이를 위해 분산 유전자 알고리즘을 이용하여 각 로봇들은 주어진 작업에 대하여 학습을 한다. 제안된 시스템에서 학습 알고리즘은 주어지는 작업의 변화로봇들은 주어진 작업을 수행하기 위해 학습을 하고, 주어진 작업이 변할 경우 스스로 대처한다는 면에서 기존의 자율 분산 시스템보다 적응성에서 향상된 시스템이다.

동기식 분산 딥러닝 환경에서 배치 사이즈 변화에 따른 모델 학습 성능 분석 (A Performance Analysis of Model Training Due to Different Batch Sizes in Synchronous Distributed Deep Learning Environments)

  • 김예랑;김형준;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.79-80
    • /
    • 2023
  • 동기식 분산 딥러닝 기법은 그래디언트 계산 작업을 다수의 워커가 나누어 병렬 처리함으로써 모델 학습 과정을 효율적으로 단축시킨다. 배치 사이즈는 이터레이션 단위로 처리하는 데이터 개수를 의미하며, 학습 속도 및 학습 모델의 품질에 영향을 미치는 중요한 요소이다. 멀티 GPU 환경에서 작동하는 분산 학습의 경우, 가용 GPU 메모리 용량이 커짐에 따라 선택 가능한 배치 사이즈의 상한이 증가한다. 하지만 배치 사이즈가 학습 속도 및 학습 모델 품질에 미치는 영향은 GPU 활용률, 총 에포크 수, 모델 파라미터 개수 등 다양한 변수에 영향을 받으므로 최적값을 찾기 쉽지 않다. 본 연구는 동기식 분산 딥러닝 환경에서 실험을 통해 최적의 배치 사이즈 선택에 영향을 미치는 주요 요인을 분석한다.

Unification of Deep Learning Model trained by Parallel Learning in Security environment

  • Lee, Jong-Lark
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.69-75
    • /
    • 2021
  • 최근 인공지능 분야에서 가장 많이 사용하는 딥러닝은 그 구조가 점차 크고 복잡해지고 있다. 딥러닝 모델이 커질수록 이를 학습시키기 위해서는 대용량의 데이터가 필요하지만 데이터가 여러 소유 주체별로 분산되어 있고 보안 문제로 인해 이를 통합하여 학습시키기 어려운 경우가 발생한다. 우리는 동일한 딥러닝 모형이 필요하지만 보안 문제로 인해 데이터가 여러곳에 분산되어 처리될 수 밖에 없는 상황에서 데이터를 소유하고 있는 주체별로 분산 학습을 수행한 후 이를 통합하는 방법을 연구하였다. 이를 위해 보안 상황을 V-환경과 H-환경으로 가정하여 소유 주체별로 분산학습을 수행했으며 Average, Max, AbsMax를 사용하여 분산학습된 결과를 통합하였다. mnist-fashion 데이터에 이를 적용해 본 결과 V-환경에서는 정확도 면에서 데이터를 통합시켜 학습한 결과와 큰 차이가 없음을 확인할 수 있었으며, H-환경에서는 차이는 존재하지만 의미있는 결과를 얻을 수 있었다.

분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘 (Neural Net Based User Feedback Learning Mechanism for Distributed Information Retrieval)

  • 최용석
    • 컴퓨터교육학회논문지
    • /
    • 제4권2호
    • /
    • pp.85-95
    • /
    • 2001
  • 웹과 같은 분산 정보 검색 환경에서 문서들은 많은 문서 데이터 베이스들에 자연스럽게 분할되어서 존재한다. 그러므로 이러한 문서들의 효율적인 검색을 위해서는 먼저 질의에 관련되어 문서들을 제공할 것으로 판단되는 문서 데이터 베이스를 찾아내고 다음으로 그 문서 데이터 베이스에 질의를 줌으로써 분산 정보 검색을 수행해야 한다. 본 논문에서는 이러한 효율적인 분산 정보 검색을 위한 신경망 기반 사용자 피드백 학습 메카니즘을 제안한다. 제안된 학습 메카니즘은 질의 검색 예제들을 통하여 얻어진 질의에 대한 사용자의 관련도 피드백 정보에 기반하여 역전파 알고리즘으로 분산 정보 검색 지식을 학습한다. 충분히 학습한 후의 학습 메카니즘은 주어진 질의에 대하여 관련 문서 데이터 베이스들을 찾아내고 그 문서 데이터 베이스들로부터 관련되는 문서들을 검색하는데 효과적으로 사용될 수 있다. 실험에서는 제안된 학습 메카니즘을 적용한 신경망 에이전트 시스템을 구현하고 이 시스템의 정보 검색 성능을 기존 시스템들과 비교하여 제안된 학습 메카니즘의 유용성을 입증한다.

  • PDF

다중 에이전트 협력학습 응용을 위한 적응적 접근법을 이용한 분산신경망 최적화 연구 (Distributed Neural Network Optimization Study using Adaptive Approach for Multi-Agent Collaborative Learning Application)

  • 윤준학;전상훈;이용주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.442-445
    • /
    • 2023
  • 최근 딥러닝 및 로봇기술의 발전으로 인해 대량의 데이터를 빠르게 수집하고 처리하는 연구 분야들로 확대되었다. 이와 관련된 한 가지 분야로써 다중 로봇을 이용한 분산학습 연구가 있으며, 이는 단일 에이전트를 이용할 때보다 대량의 데이터를 빠르게 수집 및 처리하는데 용이하다. 본 연구에서는 기존 Distributed Neural Network Optimization (DiNNO) 알고리즘에서 제안한 정적 분산 학습방법과 달리 단계적 분산학습 방법을 새롭게 제안하였으며, 모델 성능을 향상시키기 위해 원시 변수를 근사하는 단계수를 상수로 고정하는 기존의 방식에서 통신회차가 늘어남에 따라 점진적으로 근사 횟수를 높이는 방법을 고안하여 새로운 알고리즘을 제안하였다. 기존 알고리즘과 제안된 알고리즘의 정성 및 정량적 성능 평가를 수행하기 MNIST 분류와 2 차원 평면도 지도화 실험을 수행하였으며, 그 결과 제안된 알고리즘이 기존 DiNNO 알고리즘보다 동일한 통신회차에서 높은 정확도를 보임과 함께 전역 최적점으로 빠르게 수렴하는 것을 입증하였다.

학습방법을 이용한 분산통합검색시스템의 설계 (A Design of Distributed Information Retrieval System using Learning Method)

  • 강무영;이민호;주원균
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.133-135
    • /
    • 2002
  • 본 논문에서는 여러 가지 분산통합 검색 방법 중 학습을 이용한 분산통합 검색 시스템을 설계한다. 분산통합 검색시스템의 여러 가지 이슈 중 결과통합 문제에 주안점을 두었으며, 설계목적은 다양한 학습방법을 적용한 검색 결과 통합 실험을 위함이다. 이러한 목적을 달성하기 위하여 확장성을 고려한 모듈화를 통한 설계를 적용하여 다양한 실험과 향후 컬렉션 선택모듈, 질의변환 모들도 삽입이 가능하도록 설계하였다.

  • PDF