• 제목/요약/키워드: 학습강화

검색결과 1,589건 처리시간 0.033초

상태 표현 방식에 따른 심층 강화 학습 기반 캐릭터 제어기의 학습 성능 비교 (Comparison of learning performance of character controller based on deep reinforcement learning according to state representation)

  • 손채준;권태수;이윤상
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.55-61
    • /
    • 2021
  • 물리 시뮬레이션 기반의 캐릭터 동작 제어 문제를 강화학습을 이용하여 해결해나가는 연구들이 계속해서 진행되고 있다. 강화학습을 사용하여 문제를 풀기 위해서는 네트워크 구조, 하이퍼파라미터 튜닝, 상태(state), 행동(action), 보상(reward)이 문제에 맞게 적절히 설정이 되어야 한다. 많은 연구들에서 다양한 조합으로 상태, 행동, 보상을 정의하였고, 성공적으로 문제에 적용하였다. 상태, 행동, 보상을 정의함에 다양한 조합이 있다보니 학습 성능을 향상시키는 최적의 조합을 찾기 위해서 각각의 요소들이 미치는 영향을 분석하는 연구도 진행되고 있다. 우리는 지금까지 이뤄지지 않았던 상태 표현 방식에 따른 강화학습성능에 미치는 영향을 분석하였다. 첫째로, root attached frame, root aligned frame, projected aligned frame 3가지로 좌표계를 정의하였고, 이에 대해 표현된 상태를 이용하여 강화학습에 미치는 영향을 분석하였다. 둘째로, 상태를 정의 할 때, 관절의 위치, 각도로 다양하게 조합하는 경우에 학습성능에 어떠한 영향을 미치는지 분석하였다.

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 (Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning)

  • 이승관
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.1-9
    • /
    • 2005
  • 본 논문에서는 Temporal Difference 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 이 모델은 몇 개의 독립적 개미시스템 집단으로 이루어져 있으며, 상호작용은 집단간 엘리트 전략(강화, 다양화 전략)에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다. 이것은 집단간 긍정적 상호작용을 통해 에이전트들의 방문 빈도가 높은 간선을 선택하게 한다. 다양화 전략은 에이전트들이 다른 에이전트 집단의 탐색 정보에 의해 부정적 상호작용을 수행함으로써 방문 빈도수가 높은 간선의 선택을 회피하게 만든다. 이러한 전략을 통해 제안한 강화학습은 기존의 개미집단시스템, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

  • PDF

다중 에이전트 시스템의 컨센서스를 위한 슬라이딩 기법 강화학습 (A slide reinforcement learning for the consensus of a multi-agents system)

  • 양장훈
    • 한국항행학회논문지
    • /
    • 제26권4호
    • /
    • pp.226-234
    • /
    • 2022
  • 자율주행체와 네트워크기반 제어 기술의 발달에 따라서, 하나의 에이전트를 제어하는 것을 넘어서 다수의 이동체를 분산 제어하는데 사용 가능한 다중 에이전트의 컨센서스 제어에 대한 관심과 연구가 증가하고 있다. 컨센서스 제어는 분산형 제어이기 때문에, 정보 교환은 실제 시스템에서 지연을 가지게 된다. 또한, 시스템에 대한 모델을 정확히 수식적으로 표현하는데 있어서 한계를 갖는다. 이런 한계를 극복하는 방법 중에 하나로서 강화 학습 기반 컨센서스 알고리즘이 개발되었지만, 불확실성이 큰 환경에서 느린 수렴을 갖는 경우가 자주 발생하는 특징을 보이고 있다. 따라서, 이 논문에서는 불확실성에 강인한 특성을 갖는 슬라이딩 모드제어를 강화학습과 결합한 슬라이딩 강화학습 알고리즘을 제안한다. 제안 알고리즘은 기존의 강화학습 기반 컨센서스 알고리즘의 제어 신호에 슬라이딩 모드 제어 구조를 추가하고, 시스템의 상태 정보를 슬라이딩 변수를 추가하여 확장한다. 모의실험 결과 다양한 시변 지연과 왜란에 대한 정보가 주어지지 않았을 때에 슬라이딩 강화학습 알고리즘은 모델기반의 알고리즘과 유사한 성능을 보이면서, 기존의 강화학습에 비해서 안정적이면서 우수한 성능을 보여준다.

사용자와의 협력 플레이를 위한 강화학습 인공지능 프로세스 구축 (Build reinforcement learning AI process for cooperative play with users)

  • 정원조
    • 한국게임학회 논문지
    • /
    • 제20권1호
    • /
    • pp.57-66
    • /
    • 2020
  • 연구는 MOBA 게임에서 선호도가 낮은 Supporter를 대체하는 인공지능을 강화학습을 이용한 구현을 목표하였다. ML_Agent를 이용해 게임의 규칙, 환경, 관측 정보, 보상 처벌을 구성하였다. DPS 에이전트로 구성된 그룹과, Support 에이전트가 있는 그룹으로 나누어 강화학습을 진행하였다. 결과 데이터인 누적 보상 값, 사망 횟수 바탕으로 결론을 도출하였다. 협력 플레이 그룹이 비교 그룹보다 평균 누적 보상 값이 3.3 더 높게 측정되었으며 사망 횟수 총합 평균은 3.15 낮게 되었다. 이를 바탕으로 죽음을 최소화하고 보상을 최대화하는 협력 플레이를 수행하는 강화학습을 확인할 수 있었다.

감독 지식을 융합하는 강화 학습 기법을 사용하는 셀룰러 네트워크에서 동적 채널 할당 기법 (A Dynamic Channel Assignment Method in Cellular Networks Using Reinforcement learning Method that Combines Supervised Knowledge)

  • 김성완;장형수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.502-506
    • /
    • 2008
  • 최근에 제안된 강화 학습 기법인 "potential-based" reinforcement learning(RL) 기법은 다수 학습들과 expert advice들을 감독 지식으로 강화 학습 알고리즘에 융합하는 것을 가능하게 했고 그 효용성은 최적 정책으로의 이론적 수렴성 보장으로 증명되었다. 본 논문에서는 potential-based RL 기법을 셀룰러 네트워크에서의 채널 할당 문제에 적용한다. Potential-based RL 기반의 동적 채널 할당 기법이 기존의 fixed channel assignment, Maxavail, Q-learning-based dynamic channel assignment 채널 할당 기법들보다 효율적으로 채널을 할당한다. 또한, potential-based RL 기법이 기존의 강화 학습 알고리즘인 Q-learning, SARSA(0)에 비하여 최적 정책에 더 빠르게 수렴함을 실험적으로 보인다.

순서 의존적 작업 준비시간을 갖는 단일기계 작업장을 위한 강화학습 기반 작업 배정 모형 (Reinforcement Learning based Job Dispatching Model for Single Machine with Sequence Dependent Setup Time)

  • 박진성;김준우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.327-329
    • /
    • 2023
  • 순서 의존적 준비시간을 갖는 단일기계 생산라인에서 주어진 작업들을 효율적으로 수행하기 위해서는 최대한 동일하거나 유사한 유형의 작업물들을 연속적으로 처리하여 다음 번 작업물의 처리를 시작하기 전에 발생하는 준비시간을 최소화하여야 한다. 따라서, 대기 중인 것들 중 기계에 투입할 작업물을 적절히 선택하는 것이 중요하며, 이를 위해 작업 배정 규칙과 같은 휴리스틱을 사용할 수도 있지만, 이러한 해법들은 일반적으로 다양한 상황을 동적으로 고려하지 못하는 한계점을 갖는다. 따라서, 본 논문에서는 상용 3D 시뮬레이션 소프트웨어인 FlexSim을 사용하여 모형을 구성한 다음, 강화학습을 적용하여 대기 중인 작업물 중 최적의 후보를 선택하기 위한 작업 배정 모형을 개발하고자 한다. 세부적으로는 강화학습의 상태 및 보상을 달리 설정하면서 학습된 모형의 성능을 비교하고자 한다. 실험 결과를 통해 적절한 시뮬레이션 모형 구성과 강화학습의 파라미터 변수들을 적절히 조합하여 적절한 작업 배정 모형의 개발이 가능하다는 점을 알 수 있었다.

  • PDF

디자인과 경영 콘텐츠학습 태도를 기반으로 한 기업 경영자 교육의 효과 연구 (Effect of Design & Business Content Class on the Improvements of Learning Attitude for Corporate Learning Program)

  • 조윤형;이상호
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권2호
    • /
    • pp.155-165
    • /
    • 2014
  • 본 연구는 기업의 경영자 교육 효율 재고를 위해 학습태도 모형을 실증하는 연구이다. 이를 위해 연구자는 긍정심리학을 기반으로 분류된 학습자의 성격강점과 학습 친화력 강화와 학습태도 개선의 인과 관계를 검증하였다. 최근 기업들은 온 오프라인 경영자 재교육을 통해 기업의 생산성을 높이려고 시도하고 있다. 연구자는 디자인과 경영분야 교과목을 접목하여 학습태도에 미치는 영향요인을 확인하고, 경영자 교육에 함의를 논의하고자 하였다. 분석결과에 따르면, 첫째, 온라인과 오프라인 수업은 공히 학습자 성격강점이 친화력강화에 정(+)의 영향을 미치는 것으로 확인되었다. 둘째, 친화력강화도 온라인과 오프라인 수업학습태도 개선에 정(+)의 영향을 미치는 것으로 확인되었다. 셋째, 온라인과 오프라인 수업은 모두 학습자 성격강점이 학습태도 개선에 직접적으로 유의미한 영향을 주지 못하였으며, 따라서 친화력 강화 변인이 매개변수 역할을 함을 확인할 수 있었다.

산업용 사물 인터넷을 위한 프라이버시 보존 연합학습 기반 심층 강화학습 모델 (Federated Deep Reinforcement Learning Based on Privacy Preserving for Industrial Internet of Things)

  • 한채림;이선진;이일구
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.1055-1065
    • /
    • 2023
  • 최근 사물 인터넷을 활용한 산업 현장에서 수집되는 빅데이터를 활용해 복잡한 문제들을 해결하기 위하여 심층 강화학습 기술을 적용한 다양한 연구들이 이루어지고 있다. 심층 강화학습은 강화 학습의 시행 착오 알고리즘과 보상의 누적값을 이용해 자체 데이터를 생성하여 학습하고 신경망 구조와 파라미터 결정을 빠르게 탐색한다. 그러나 종래 방법은 학습 데이터의 크기가 커질수록 메모리 사용량과 탐색 시간이 기하급수적으로 높아지며 정확도가 떨어진다. 본 연구에서는 메타 학습을 적용한 연합학습 기반의 심층 강화학습 모델을 활용하여 55.9%만큼 보안성을 개선함으로써 프라이버시 침해 문제를 해결하고, 종래 최적화 기반 메타 학습 모델 대비 5.5% 향상된 97.8%의 분류 정확도를 달성하면서 평균 28.9%의 지연시간을 단축하였다.

정책 기울기 값 강화학습을 이용한 적응적인 QoS 라우팅 기법 연구 (A Study of Adaptive QoS Routing scheme using Policy-gradient Reinforcement Learning)

  • 한정수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.93-99
    • /
    • 2011
  • 본 논문에서는 강화학습(RL : Reinforcement Learning) 환경 하에서 정책 기울기 값 기법을 사용하는 적응적인 QoS 라우팅 기법을 제안하였다. 이 기법은 기존의 강화학습 환경 하에 제공하는 기법에 비해 기대 보상값의 기울기 값을 정책에 반영함으로써 빠른 네트워크 환경을 학습함으로써 보다 우수한 라우팅 성공률을 제공할 수 있는 기법이다. 이를 검증하기 위해 기존의 기법들과 비교 검증함으로써 그 우수성을 확인하였다.

RLVisualizer: 강화학습의 문제의 학습궤적을 시각화하는 응용 (RLVisualizer: An application for Visualizing Trajectories of Reinforcement Learning Problem)

  • 정태충
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.13-14
    • /
    • 2017
  • 딥러닝을 비롯한 전반적인 인공지능에 대한 관심이 뜨겁다. 특정 영역에 영향력을 주었던 과거와 다르게 인공지능의 영향력은 인류문명 전체에 변화를 주고 있다. 예술 분야도 영향을 받고 있는데, 그 중 한 분야는 과학적 실험의 자료를 어떻게 시각화 하느냐의 문제를 풀다가 나오기도 한다. 자료를 시각화하는 것은 실험과정 및 결과를 과학자 및 독자들에게 쉽게 전달하기위한 것이다. 그런데, 그 시각화된 영상 중에는 미적인 아름다움이 있는 경우가 있다. 본 연구자는 강화학습의 정책이 어떻게 개선되고 있는지 보기위해 강화학습의 과정을 시각화 해서 검증하는 시도를 했다. 그 과정에서 만든 자료가 미술적인 관점에서도 아름다움이 있는 작품을 만들 수 있다는 확신이 들어서 강화학습용 디지탈예술 도구를 만들어 작품을 생성해 보았다.

  • PDF