• Title/Summary/Keyword: 정책학습

Search Result 1,336, Processing Time 0.022 seconds

RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델)

  • Gwon, Gi-Deok;Kim, In-Cheol
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

A Study of 'Policy Learning' as a Lesson of Education Policy Failure : Focusing on the case of Teacher Incentive Policy (교육정책 실패의 교훈으로서 '정책학습'에 관한 연구 : 교원성과급 정책사례를 중심으로)

  • Song, Kyoung-oh
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.5
    • /
    • pp.221-233
    • /
    • 2021
  • This study analyzed the contents of changes in educational policy from the perspective of policy learning, based on the awareness of the lack of academic efforts to identify such phenomena despite repeated policy failures in educational policy. To this end, it has been more than 20 years since the policy was established, but it was analyzed using the policy analysis case of the teacher incentive policy, which still had severe conflicts between the government and teacher unions. As a result of the analysis, first, there were 11 changes in the policy content from the Kim Dae-jung administration to the Moon Jae-in administration. Whenever the government was newly launched, not only the contents of the policy for teacher incentives changed, but also the policy changes continued during the same government period. Second, when analyzing what kind of policy learning took place at the stage of change in each government's policy content, most of them were 'political policy learning' or 'instrumental policy learning'. Rather than a fundamental discussion about the goal of the policy, it has only repeated policy learning that adjusts only the ratio of differential payments to defend the teacher incentive policy. In order to recover from this current situation, this study suggests that it is necessary to present an alternative policy that can change the rigid society of teachers through 'social policy learning', which examines the basic values and strategies of teacher incentive policies.

Using Prior Domain Knowledge for Efficient Relational Reinforcement Learning (효율적인 관계형 강화학습을 위한 사전 영역 지식의 활용)

  • Kang, Minkyo;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.483-486
    • /
    • 2021
  • 기존의 심층 강화학습은 상태, 행동, 정책 등을 모두 벡터 형태로 표현하는 강화학습으로서, 학습된 정책의 일반성과 해석 가능성에 제한이 있고 영역 지식을 학습에 효과적으로 활용하기도 어렵다는 한계성이 있다. 이러한 문제점들을 해결하기 위해 제안된 새로운 관계형 강화학습 프레임워크인 dNL-RRL은 상태, 행동, 그리고 학습된 정책을 모두 논리 서술자와 규칙들로 표현할 수 있다. 본 논문에서는 dNL-RRL을 기초로 공장 내 운송용 모바일 로봇의 제어를 위한 행동 정책 학습을 수행하였으며, 학습의 효율성 향상을 위해 인간 전문가의 사전 영역 지식을 활용하는 방안들을 제안한다. 다양한 실험들을 통해, 본 논문에서 제안하는 영역 지식을 활용한 관계형 강화학습 방법의 학습 성능 개선 효과를 입증한다.

Transfer Learning Technique for Accelerating Learning of Reinforcement Learning-Based Horizontal Pod Autoscaling Policy (강화학습 기반 수평적 파드 오토스케일링 정책의 학습 가속화를 위한 전이학습 기법)

  • Jang, Yonghyeon;Yu, Heonchang;Kim, SungSuk
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.11 no.4
    • /
    • pp.105-112
    • /
    • 2022
  • Recently, many studies using reinforcement learning-based autoscaling have been performed to make autoscaling policies that are adaptive to changes in the environment and meet specific purposes. However, training the reinforcement learning-based Horizontal Pod Autoscaler(HPA) policy in a real environment requires a lot of money and time. And it is not practical to retrain the reinforcement learning-based HPA policy from scratch every time in a real environment. In this paper, we implement a reinforcement learning-based HPA in Kubernetes, and propose a transfer leanring technique using a queuing model-based simulation to accelerate the training of a reinforcement learning-based HPA policy. Pre-training using simulation enabled training the policy through simulation experience without consuming time and resources in the real environment, and by using the transfer learning technique, the cost was reduced by about 42.6% compared to the case without transfer learning technique.

Characteristics of Lifelong Learning Policy and Developmental Tasks of South Korea (한국 평생교육 정책의 유형화와 발전과제)

  • Choi, Don Min;Kim, Hyunsoo
    • Korean Journal of Comparative Education
    • /
    • v.28 no.5
    • /
    • pp.47-69
    • /
    • 2018
  • The purpose of this study is to classify the lifelong learning policy implementation process of lifelong learning in Korea according to the policy making decision models and to suggest developmental tasks. Korea's lifelong learning policy came to a full-fledged start with the enactment of the Lifelong Education Act in 2000. The Lifelong Education Act proposed the establishment of an open educational system as a strategy to realize the lifelong learning society. According to the Lifelong Education Act, the Korean government has developed several lifelong education policies such as providing learning opportunity for the underprivileged, facilitating lifelong learning city project, building lifelong learning culture, recognizing of experiential learning result, funding lifelong learning hub university, launching lifelong learning supporting administrative etc. The Korean lifelong system is characterized as Allison's (1971) governmental/bureaucratic, Ziegler and Johnson's (1972) legislative, Griffin's(1987) social control and Green's (2000) state-led models which make policy through the coordination between the government and the parliament and control bureaucratic power and educational qualifications. Lifelong learning policies should be managed in terms of supply and demand at the learning market. In addition, the state has to strengthen lifelong learning through supporting NGOs' activities and adult learners' tuition fee for the disadvantaged group of people.

Learning Relational Instance-Based Policies from User Demonstrations (사용자 데모를 이용한 관계적 개체 기반 정책 학습)

  • Park, Chan-Young;Kim, Hyun-Sik;Kim, In-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.5
    • /
    • pp.363-369
    • /
    • 2010
  • Demonstration-based learning has the advantage that a user can easily teach his/her robot new task knowledge just by demonstrating directly how to perform the task. However, many previous demonstration-based learning techniques used a kind of attribute-value vector model to represent their state spaces and policies. Due to the limitation of this model, they suffered from both low efficiency of the learning process and low reusability of the learned policy. In this paper, we present a new demonstration-based learning method, in which the relational model is adopted in place of the attribute-value model. Applying the relational instance-based learning to the training examples extracted from the records of the user demonstrations, the method derives a relational instance-based policy which can be easily utilized for other similar tasks in the same domain. A relational policy maps a context, represented as a pair of (state, goal), to a corresponding action to be executed. In this paper, we give a detail explanation of our demonstration-based relational policy learning method, and then analyze the effectiveness of our learning method through some experiments using a robot simulator.

A Naive Bayesian-based Model of the Opponent's Policy for Efficient Multiagent Reinforcement Learning (효율적인 멀티 에이전트 강화 학습을 위한 나이브 베이지만 기반 상대 정책 모델)

  • Kwon, Ki-Duk
    • Journal of Internet Computing and Services
    • /
    • v.9 no.6
    • /
    • pp.165-177
    • /
    • 2008
  • An important issue in Multiagent reinforcement learning is how an agent should learn its optimal policy in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for Multiagent reinforcement learning tend to apply single-agent reinforcement learning techniques without any extensions or require some unrealistic assumptions even though they use explicit models of other agents. In this paper, a Naive Bayesian based policy model of the opponent agent is introduced and then the Multiagent reinforcement learning method using this model is explained. Unlike previous works, the proposed Multiagent reinforcement learning method utilizes the Naive Bayesian based policy model, not the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper, the Cat and Mouse game is introduced as an adversarial Multiagent environment. And then effectiveness of the proposed Naive Bayesian based policy model is analyzed through experiments using this game as test-bed.

  • PDF

Strategies Encouraging Learning Motivation for Underachievers in Computer Programming Learning (컴퓨터 프로그래밍 학습에서 학습 부진 학생들의 학습 동기 유발 정책)

  • Ahn, You Jung;Kim, Kyong-Ah
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.329-330
    • /
    • 2016
  • 본 연구에서는 컴퓨터 프로그래밍 학습을 하는 학습자들 중 특히 학습 부진을 겪고 있는 학생들의 학습 동기를 유발시킬 수 있는 교수법 정책에 대해 제안해보았다. 제안된 학습동기 유발 정책들을 수업에 참여하고 있는 학습 부진 학생들에게 적용한 뒤 학기말에 설문조사를 통하여 그 결과를 분석함으로써 어떤 방법이 내재적, 외재적 학습 동기 유발에 효과적이었는지를 평가하고 제시하였다.

  • PDF

Design and Implementation of An Web-based Learning System Using Self - Regulated Learning (자기조절학습을 이용한 웹기반 학습 시스템 설계 및 구현)

  • Baek, Hyeon-Gi;Ha, Tae-Hyeon
    • 한국디지털정책학회:학술대회논문집
    • /
    • 2004.05a
    • /
    • pp.277-288
    • /
    • 2004
  • 컴퓨터를 통한 원격교육의 등장은 학습자에게 다양한 능력을 요구하고 이러한 것들이 성공적인 학업을 이루는 중요한 열쇠가 된다. 이런 시대적 흐름에 따라 학습자에게 요구되는 능력 중 하나가 자기조절 학습 (Self - Regulated Learning)이다. 이에 본 연구는 자기조절학습 (Self - Regulated Learning)을 지원하는 웹기반 학습 (WBI) 시스템에 대하여 연구하였다. 자기조절학습은 매우 긍정적인 학습효과를 제공할 뿐 아니라, 세분화된 학습절차에 의한 학습 구조를 가지며 절차마다 구분된 공간이 필요하므로 웹에 적용하기에 적절하다. 따라서, 본 연구에서는 자기조절학습 모형을 웹에 접목시킨 학습시스템을 개발한다.

  • PDF

Design and Implementation of Reinforcement Learning Environment Using Unity 3D-based ML-Agents Toolkit (Unity 3D 기반 ML-Agents Toolkit을 이용한 강화 학습 환경 설계 및 구현)

  • Choi, Ho-Bin;Kim, Chan-Myung;Kim, Ju-Bong;Han, Youn-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.548-551
    • /
    • 2019
  • 강화 학습은 일반적으로 제어 로봇과 관련이 있는 순차적 의사결정을 위한 학습의 한 형태이다. 이 강화 학습은 행동에 대한 보상을 최대로 하는 정책을 학습하는 것을 목표로 한다. 하지만, 강화 학습을 실제 세계에 적용하기에는 많은 제약사항이 존재하며 실제 세계의 복잡한 환경에서 좋은 정책을 학습하는 것은 매우 어렵다. Unity는 강화 학습 시뮬레이션을 위한 전용 Toolkit을 제공한다. 이러한 이유로 Unity를 시뮬레이터로서 사용하는 것이 좋은 정책을 학습하는 훈련의 근거가 된다. 따라서 본 논문에서는 강화 학습을 실제 세계에 바로 적용시키기 전에 Unity Machine Learning Agents Toolkit을 사용하여 실제 세계와 비슷한 환경을 만들고 강화 학습을 통해 에이전트를 미리 학습시켜보는 과정을 수행해봄으로써 시뮬레이터의 필요성을 부각시킨다.