• Title/Summary/Keyword: 정책학습

검색결과 1,336건 처리시간 0.056초

효율적인 멀티 에이전트 강화학습을 위한 RBFN 기반 정책 모델 (RBFN-based Policy Model for Efficient Multiagent Reinforcement Learning)

  • 권기덕;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.294-302
    • /
    • 2007
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한RBFN기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서는 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 RBFN 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적이 절대적 멀티 에이전트 환경인 고양이와 쥐 게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 RBFN 기반의 정책 모델의 효과를 분석해본다.

  • PDF

교육정책 실패의 교훈으로서 '정책학습'에 관한 연구 : 교원성과급 정책사례를 중심으로 (A Study of 'Policy Learning' as a Lesson of Education Policy Failure : Focusing on the case of Teacher Incentive Policy)

  • 송경오
    • 한국콘텐츠학회논문지
    • /
    • 제21권5호
    • /
    • pp.221-233
    • /
    • 2021
  • 이 연구는 교육정책의 반복적인 정책실패에도 불구하고 이와 같은 현상을 규명하려는 학술적 노력이 부족했다는 문제의식에서 정책학습이라는 관점에서 교육정책의 변화 내용을 분석하였다. 이를 위해 정책이 수립된 지 20여 년이 넘었지만, 여전히 정부와 교원단체 간에 갈등이 심각한 교원성과급 정책을 정책 분석사례로 삼아 분석하였다. 분석결과, 첫째 교원성과급 정책은 김대중 정부에서 문재인 정부에 이르기까지 총 11차에 걸친 정책 내용의 변화가 있었다. 정부가 새롭게 출범할 때마다 교원성과급 정책은 내용에 변화가 생겼을 뿐만 아니라, 동일 정부 시기 동안에도 정책변화는 지속되었다. 둘째, 각 정부별 정책 내용의 변화 단계에서 어떠한 정책학습이 있었는지를 분석하였을 때, 대부분 '정치적 정책학습'과 '도구적 정책학습'이 이루어졌다. 즉, 정책의 목표나 가치에 대한 근본적인 논의보다는 교원성과급 정책의 옹호를 위해 차등지급의 비율을 조정하는 정책학습을 이어왔다. 이와 같은 현 상황을 회복하기 위해 이 연구는 교원성과급 정책의 기본적인 가치와 전략을 검토하는 '사회적 정책학습'을 통해 경직된 교직 사회를 변화시킬 수 있는 대안적인 정책 제시가 필요함을 제안한다.

효율적인 관계형 강화학습을 위한 사전 영역 지식의 활용 (Using Prior Domain Knowledge for Efficient Relational Reinforcement Learning)

  • 강민교;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.483-486
    • /
    • 2021
  • 기존의 심층 강화학습은 상태, 행동, 정책 등을 모두 벡터 형태로 표현하는 강화학습으로서, 학습된 정책의 일반성과 해석 가능성에 제한이 있고 영역 지식을 학습에 효과적으로 활용하기도 어렵다는 한계성이 있다. 이러한 문제점들을 해결하기 위해 제안된 새로운 관계형 강화학습 프레임워크인 dNL-RRL은 상태, 행동, 그리고 학습된 정책을 모두 논리 서술자와 규칙들로 표현할 수 있다. 본 논문에서는 dNL-RRL을 기초로 공장 내 운송용 모바일 로봇의 제어를 위한 행동 정책 학습을 수행하였으며, 학습의 효율성 향상을 위해 인간 전문가의 사전 영역 지식을 활용하는 방안들을 제안한다. 다양한 실험들을 통해, 본 논문에서 제안하는 영역 지식을 활용한 관계형 강화학습 방법의 학습 성능 개선 효과를 입증한다.

강화학습 기반 수평적 파드 오토스케일링 정책의 학습 가속화를 위한 전이학습 기법 (Transfer Learning Technique for Accelerating Learning of Reinforcement Learning-Based Horizontal Pod Autoscaling Policy)

  • 장용현;유헌창;김성석
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권4호
    • /
    • pp.105-112
    • /
    • 2022
  • 최근 환경의 변화에 적응적이고 특정 목적에 부합하는 오토스케일링 정책을 만들기 위해 강화학습 기반 오토스케일링을 사용하는 연구가 많이 이루어지고 있다. 하지만 실제 환경에서 강화학습 기반 수평적 파드 오토스케일러(HPA, Horizontal Pod Autoscaler)의 정책을 학습하기 위해서는 많은 비용과 시간이 요구되며, 서비스를 배포할 때마다 실제 환경에서 강화학습 기반 HPA 정책을 처음부터 다시 학습하는 것은 실용적이지 않다. 본 논문에서는 쿠버네티스에서 강화학습 기반 HPA를 구현하고, 강화학습 기반 HPA 정책에 대한 학습을 가속화하기 위해 대기행렬 모델 기반 시뮬레이션을 활용한 전이 학습 기법을 제안한다. 시뮬레이션을 활용한 사전 학습을 수행함으로써 실제 환경에서 시간과 자원을 소모하며 학습을 수행하지 않아도 시뮬레이션 경험을 통해 정책 학습이 이루어질 수 있도록 하였고, 전이 학습 기법을 사용함으로써 전이 학습 기법을 사용하지 않았을 때보다 약 42.6%의 비용을 절감할 수 있었다.

한국 평생교육 정책의 유형화와 발전과제 (Characteristics of Lifelong Learning Policy and Developmental Tasks of South Korea)

  • 최돈민;김현수
    • 비교교육연구
    • /
    • 제28권5호
    • /
    • pp.47-69
    • /
    • 2018
  • 이 연구는 한국의 평생학습 정책 집행과정을 정책의사결정 모형으로 유형화하고 발전과제를 제시하는 데 목적이 있다. 한국의 평생학습 정책은 2000년에 평생교육법의 제정과 함께 본격적으로 시작되었다. 평생교육법에 따라 평생학습사회를 실현하기 위한 전략으로 다양한 열린 교육제도를 도입하였다. 그 결과 한국 정부는 취약계층을 위한 학습기회의 제공, 평생학습도시 선정, 평생학습문화 구축, 평생학습결과의 인정, 평생학습 중심대학 선정 등 다양한 평생교육 정책을 수립하여 국민의 평생학습을 지원하였다. 한국은 정부가 평생교육정책을 결정하고 재정 지원을 담당하지만 평생교육예산이 교육부 예산의 0.07%에 불과하여 아직도 학교교육 위주의 교육정책을 추진하는데 역점을 두고 있다. 한국의 정부관료적 평생교육정책은 그린(Green, 2000)의 입법모형에 비추었을 때 국가주도 모형이다. 그러나 이는 교육비 부담을 국가가 담당하는 것이 특징인 모델이므로 학습비를 대부분 개인이 부담하는 한국의 현실과는 맞지 않는다. 따라서 한국의 특성을 반영할 수 있는 평생교육 모형을 탐색할 필요가 있다. 연구결과 한국의 평생교육 제도는 앨리슨(Allison, 1971)의 정부 / 관료주의 모델, 지글러와 존슨(Ziegler and Johnson, 1972)의 입법모델, 그리핀(Griffin, 1987)의 사회통제 모델, 그린(Green, 2000)의 국가주도 모델로 특징지을 수 있음을 확인했다. 연구결과를 토대로 평생학습 활동은 학습시장의 수요와 공급 측면에서 관리되어야 하며, NGO의 활동과 취약계층에 대한 학습비 지원을 통해 평생학습을 강화해야 할 필요가 있을 제언으로 제시하였다.

사용자 데모를 이용한 관계적 개체 기반 정책 학습 (Learning Relational Instance-Based Policies from User Demonstrations)

  • 박찬영;김현식;김인철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권5호
    • /
    • pp.363-369
    • /
    • 2010
  • 데모-기반 학습은 사용자가 직접 작업을 시연함으로써 로봇에게 쉽게 새로운 작업지식을 가르칠 수 있다는 장점이 있다. 하지만 기존의 많은 데모-기반 학습법들은 상태공간과 정책들을 표현하기 위해 속성-값 벡터 모델을 이용하였다. 속성-값 벡터 모델의 제한성으로 인해, 이들은 학습과정의 효율성도 낮고 학습된 정책의 재사용성도 낮았다. 본 논문에서는 기존의 속성-값 모델 대신 관계적 모델을 이용하는 새로운 데모-기반 작업 학습법을 제안한다. 이 방법에서는 사용자 데모 기록에서 추출한 훈련 예들에 관계적 개체-기반 학습법을 적용함으로써, 동일 작업영역내의 다른 유사한 작업들에도 활용하기 용이한 관계적 개체-기반 정책을 유도한다. 이 관계적 정책은 (상태, 목표) 쌍으로 표현되는 임의의 한 상황에 대해 이것에 대응하는 하나의 실행동작을 결정해주는 역할을 한다. 본 논문에서는 데모-기반 관계적 정책 학습법에 대해 자세히 소개한 후, 로봇 시뮬레이터를 이용한 실험을 통해 이 학습법의 효과를 분석해본다.

효율적인 멀티 에이전트 강화 학습을 위한 나이브 베이지만 기반 상대 정책 모델 (A Naive Bayesian-based Model of the Opponent's Policy for Efficient Multiagent Reinforcement Learning)

  • 권기덕
    • 인터넷정보학회논문지
    • /
    • 제9권6호
    • /
    • pp.165-177
    • /
    • 2008
  • 멀티 에이전트 강화학습에서 중요한 이슈 중의 하나는 자신의 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 어떻게 최적의 행동 정책을 학습하느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 현실적이지 못한 가정들을 요구한다. 본 논문에서는 상대 에이전트에 대한 나이브 베이지안 기반의 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 기존의 멀티 에이전트 강화 학습 연구들과는 달리 상대 에이전트의 Q 평가 함수 모델이 아니라 나이브 베이지안 기반의 행동 정책 모델을 학습한다. 또한, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델은 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개한 뒤, 이 게임을 테스트 베드 삼아 실험들을 전개함으로써 제안하는 나이브 베이지안 기반의 정책 모델의 효과를 분석해본다.

  • PDF

컴퓨터 프로그래밍 학습에서 학습 부진 학생들의 학습 동기 유발 정책 (Strategies Encouraging Learning Motivation for Underachievers in Computer Programming Learning)

  • 안유정;김경아
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.329-330
    • /
    • 2016
  • 본 연구에서는 컴퓨터 프로그래밍 학습을 하는 학습자들 중 특히 학습 부진을 겪고 있는 학생들의 학습 동기를 유발시킬 수 있는 교수법 정책에 대해 제안해보았다. 제안된 학습동기 유발 정책들을 수업에 참여하고 있는 학습 부진 학생들에게 적용한 뒤 학기말에 설문조사를 통하여 그 결과를 분석함으로써 어떤 방법이 내재적, 외재적 학습 동기 유발에 효과적이었는지를 평가하고 제시하였다.

  • PDF

자기조절학습을 이용한 웹기반 학습 시스템 설계 및 구현 (Design and Implementation of An Web-based Learning System Using Self - Regulated Learning)

  • 백현기;하태현
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2004년도 춘계학술대회
    • /
    • pp.277-288
    • /
    • 2004
  • 컴퓨터를 통한 원격교육의 등장은 학습자에게 다양한 능력을 요구하고 이러한 것들이 성공적인 학업을 이루는 중요한 열쇠가 된다. 이런 시대적 흐름에 따라 학습자에게 요구되는 능력 중 하나가 자기조절 학습 (Self - Regulated Learning)이다. 이에 본 연구는 자기조절학습 (Self - Regulated Learning)을 지원하는 웹기반 학습 (WBI) 시스템에 대하여 연구하였다. 자기조절학습은 매우 긍정적인 학습효과를 제공할 뿐 아니라, 세분화된 학습절차에 의한 학습 구조를 가지며 절차마다 구분된 공간이 필요하므로 웹에 적용하기에 적절하다. 따라서, 본 연구에서는 자기조절학습 모형을 웹에 접목시킨 학습시스템을 개발한다.

  • PDF

Unity 3D 기반 ML-Agents Toolkit을 이용한 강화 학습 환경 설계 및 구현 (Design and Implementation of Reinforcement Learning Environment Using Unity 3D-based ML-Agents Toolkit)

  • 최호빈;김찬명;김주봉;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.548-551
    • /
    • 2019
  • 강화 학습은 일반적으로 제어 로봇과 관련이 있는 순차적 의사결정을 위한 학습의 한 형태이다. 이 강화 학습은 행동에 대한 보상을 최대로 하는 정책을 학습하는 것을 목표로 한다. 하지만, 강화 학습을 실제 세계에 적용하기에는 많은 제약사항이 존재하며 실제 세계의 복잡한 환경에서 좋은 정책을 학습하는 것은 매우 어렵다. Unity는 강화 학습 시뮬레이션을 위한 전용 Toolkit을 제공한다. 이러한 이유로 Unity를 시뮬레이터로서 사용하는 것이 좋은 정책을 학습하는 훈련의 근거가 된다. 따라서 본 논문에서는 강화 학습을 실제 세계에 바로 적용시키기 전에 Unity Machine Learning Agents Toolkit을 사용하여 실제 세계와 비슷한 환경을 만들고 강화 학습을 통해 에이전트를 미리 학습시켜보는 과정을 수행해봄으로써 시뮬레이터의 필요성을 부각시킨다.