• 제목/요약/키워드: 학습강화

검색결과 1,598건 처리시간 0.024초

OpenAI Gym 환경의 Mountain-Car에 대한 DQN 강화학습 (DQN Reinforcement Learning for Mountain-Car in OpenAI Gym Environment)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.375-377
    • /
    • 2024
  • 본 논문에서는 OpenAI Gym 환경에서 프로그램으로 간단한 제어가 가능한 Mountain-Car-v0 게임에 대해 DQN(Deep Q-Networks) 강화학습을 진행하였다. 본 논문에서 적용한 DQN 네트워크는 입력층 1개, 은닉층 3개, 출력층 1개로 구성하였고, 입력층과 은닉층에서의 활성화함수는 ReLU를, 출력층에서는 Linear함수를 활성화함수로 적용하였다. 실험은 Mountain-Car-v0에 대해 DQN 강화학습을 진행했을 때 각 에피소드별로 획득한 보상 결과를 살펴보고, 보상구간에 포함된 횟수를 분석하였다. 실험결과 전체 100회의 에피소드 중 보상을 50 이상 획득한 에피소드가 85개로 나타났다.

  • PDF

스마트 그리드 환경에서 비용 절감을 위한 강화학습 기법 성능 비교 (Performance Comparison of Reinforcement Learning for Cost Savings in Smart Grid)

  • 노하진;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.662-665
    • /
    • 2024
  • IT 기술이 발전하며 실시간 전력 수요량 및 가격 등을 파악할 수 있는 스마트 그리드가 주목을 받고 있다. 스마트 그리드 환경에서는 에너지 저장 장치를 이용하여 소비자의 경제적 부담을 덜어낼 뿐만 아니라 에너지를 효율적으로 사용할 수 있다. 본 연구에서는 이러한 목표를 위해 과거 2시간 동안의 부하량 및 가격을 바탕으로 에너지 저장 장치의 충전 및 방전량을 결정하는 강화학습 알고리즘을 제안한다. 또한, 여러 강화학습 기법의 성능을 비교 분석한다.

서비스 메시 환경에서 강화학습을 이용한 트래픽 부하 분산 메커니즘에 관한 연구 (Reinforcement Learning-based Traffic Load Balancing in Service Mesh Environments)

  • 김채호;남재현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.839-842
    • /
    • 2024
  • 서비스 메시 환경에서의 트래픽 분산은 시스템의 성능과 안정성, 그리고 보안에 필수적인 기능을 담당한다. 현재의 트래픽 분산 방식들은 대부분 정적 설정을 기반으로 하기 때문에 시스템 환경의 변화에 신속하게 대응하기 어렵고 최적화된 성능을 보장하기 힘들다. 본 논문에서는 강화학습을 활용해 서비스 메시 환경 내에서의 트래픽 분산을 자동화하고 최적화할 수 있는 새로운 시스템을 제안한다. 특히, 텔레메트리 기술을 활용해 트래픽의 분산을 실시간으로 추적하며, 강화학습 알고리즘을 이용해 트래픽 가중치를 조정함으로써 기존의 로드 밸런싱 방법들에 비해 더 빠른 처리 시간과 보다 효율적인 로드 밸런싱을 달성할 수 있을 것으로 기대한다.

강화 학습 및 감독 학습 기반의 지능형 판매 에이전트 시스템 (Reinforcement and Supervised Learning Based Intelligent Sales Agent System)

  • 이경은;고세진;이필규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.329-332
    • /
    • 2001
  • 인터넷상에서의 대부분의 검색 환경이 그렇듯이, 인터넷 쇼핑몰에서의 검색 환경 역시 고객 중심으로 제공하는 것이 중요하다. 특히, 고객의 행동 패턴 분석을 통해 얻어진 정보는 고객 중심의 검색 환경을 구성하는 데에 가장 중요한 요소라고 할 수 있으며, 또한 시시각각 변화하는 고객의 심리에 따라서 판매 전략도 달라질 수 있어, 이에 대한 여러 방법들이 연구되고 있는 추세이다. 본 논문에서는 고객과 시스템과의 상호작용으로부터 학습을 최대화시키기 위해 강화학습 기반의 플래닝과 학습의 통합 방법을 통하여 실시간적이고 동적인 인터뷰를 구성하는 방법과 이를 통해 얻어진 개인화된 판매전략과 결정 수와의 통합으로 고객이 원하는 적합한 상품을 추천할 수 있는 방법을 제시한다.

  • PDF

프로그래밍 수업에서 복습 강화를 위한 교수학습법 적용 사례 연구 (A Case Study on the Teaching Learning Method for the Review of Programming Classes)

  • 진명숙;오석;안유정;김경아;김지심
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.351-353
    • /
    • 2019
  • 전문대학의 프로그래밍 수업에서 복습을 강화하고 학습효과를 높이기 위해 수업의 이론 및 실습 동영상을 인터넷상에 제공하고 학습자 설문을 통해 그 효과를 분석하였다. 설문을 통해 학습자들은 동영상 제공에 대해 긍정적인 대답을 하였으며 복습으로 활용하는 것을 넘어서 예습과 거꾸로 학습에도 적용할 수 있는 가능성을 보여주었다.

  • PDF

Deep Deterministic Policy Gradient 알고리즘을 응용한 자전거의 자율 주행 제어 (Autonomous control of bicycle using Deep Deterministic Policy Gradient Algorithm)

  • 최승윤;레 팜 투옌;정태충
    • 융합보안논문지
    • /
    • 제18권3호
    • /
    • pp.3-9
    • /
    • 2018
  • DDPG(Deep Deterministic Policy Gradient)알고리즘은 인공신경망과 강화학습을 사용하여 학습하는 알고리즘이다. 최근 많은 연구가 이루어지고 있는 강화학습과 관련된 연구 중에서도 DDPG 알고리즘은 오프폴리시로 학습하기 때문에 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하는 장점이 있다. 본 연구에서는 DDPG 알고리즘을 응용하여 자전거를 자율주행 하도록 제어하는 실험을 진행하였다. 다양한 환경을 설정하여 시뮬레이션을 진행하였고 실험을 통해서 사용된 방법이 시뮬레이션 상에서 안정적으로 동작함을 보였다.

  • PDF

선박항해 에이전트 학습을 위한 보상설계 방안에 관한 연구 (A Study on the Development of Learning Environment for Ship Navigation Agents)

  • 박세길;오재용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2020년도 추계학술대회
    • /
    • pp.177-178
    • /
    • 2020
  • 본 논문은 선박항해 에이전트가 개발 의도와 부합되도록 학습시키는데 있어 가장 중요한 역할을 수행하는 보상설계에 대해 소개한다. 보상설계는 먼저 학습 대상이 무엇인지 명확히 정의하는 것이 중요하며, 보상이 상황에 따라 다른 목적으로 활용되지 않도록 하고 에이전트에게 너무 드물게 주어지지 않도록 보상 형태화를 적용하는 등의 방법을 사용할 필요가 있다. 또한 보상을 구성하는 요소가 많아지는 경우에는 의도가 명확하게 전달이 되지 않을 수 있으므로 문제를 작은 문제들로 나누어 접근하는 계층적 강화학습 방법 등을 적용할 필요가 있다.

  • PDF

전문계 고교에서 모둠별 학습 강화를 위한 온라인 평가 시스템 (On-line Assesment System for Improving of Learning by Group inVocational High School)

  • 조신원;이선영;이세훈;이정현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.147-152
    • /
    • 2009
  • 정보 컴퓨터 분야의 실무현장에서 요구하는 인재는 바로 문제해결력과 프로젝트 수행능력을 갖춘 현장적 합성 연재라 하겠다. 본 논문에서는 정보 컴퓨터 분야의 전문계 고교에서 문제해결력과 프로젝트 수행능력을 갖춘 인력을 양성하기 위한 프로젝트식 모둠별 협력 학습 교육과정을 제안하고, 학습을 직접적으로 지원할 수 있는 온라인 평가 시스템을 설계 및 구현한다. 제안하는 시스템을 통해 진행되는 모둠별 학습을 체계적으로 관리할 수 있으며, 향후 같은 교육과정을 이수하는 학습자에게 사례 데이터베이스로서의 역할을 수행할 수 있을 것이다. 또한, 실무능력을 향상시키기 위한 외부전문가의 교과과정 참여를 이끌고 시간 공간적인 제약을 제안하는 시스템을 통해 극복할 수 있을 것이며, 각 진행 단계마다 평가되는 결과를 즉각적이고 다양한 형태로 피드백 해줌으로 해서 학습자는 동기부여와 학습강화 효과를 얻을 수 있다.

  • PDF

대학신입생의 진로·학습 역량 강화 프로그램 콘텐츠 설계 및 개발 방안 연구 - H대학의 사례를 중심으로- (A Study on Design and Development Plan of Program Content for Enhancing the Career·Learning Competency of University Freshmen -Focusing on H university case-)

  • 김경화;김진숙
    • 한국콘텐츠학회논문지
    • /
    • 제17권7호
    • /
    • pp.384-396
    • /
    • 2017
  • 본 연구의 목적은 신입생의 성공적인 대학생활 적응을 돕기 위하여 진로 학습 프로그램 콘텐츠를 설계하고 개발 방안을 제시하는데 있다. 이러한 목적을 달성하기 위하여 첫째, 신입생이 처한 상황과 문제 그리고 신입생 대상 교육 프로그램에 대한 선행연구 검토 및 H대학 신입생을 대상으로 프로그램 요구도 분석을 실시하였다. 둘째, 프로그램 관련 선행연구와 요구도 분석 결과에 기초하여 진로 학습 프로그램 개념모형을 개발하였다. 셋째, 맞춤형 콘텐츠, 정서적 지원, 온오프라인 융합 프로그램 등을 중심축으로 하여 진로 학습 역량강화 프로그램 콘텐츠를 설계하고 개발방안을 제시하였다. 전공별 진로 학습 트랙, 빅 데이터 분석, 액션 플랜 등을 주요 콘텐츠로 제안하였다. 이 연구의 결과는 신입생을 위한 역량기반 맞춤형 진로 학습 프로그램의 개발과 실행의 기초자료로써 활용되어 프로그램의 질적 내실화와 신입생들의 대학적응력 향상에 도움을 줄 것으로 기대된다.

군집 로봇의 협조 행동을 위한 로봇 개체의 행동학습과 진화 (Behavior Learning and Evolution of Individual Robot for Cooperative Behavior of Swarm Robot System)

  • 심귀보;이동욱
    • 한국지능시스템학회논문지
    • /
    • 제16권2호
    • /
    • pp.131-137
    • /
    • 2006
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 이를 위하여 본 논문에서는 지연된 보상능력이 있는 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화방법을 제안한다. 지연 보상능력이 있는 강화학습은 로봇이 취한 행동에 대하여 즉각적인 보상을 가할 수 없는 경우에도 학습이 가능한 방법이다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 강화학습의 특성을 이용한 선택 교배방법을 채택하였다. 제안된 방법은 협조탐색 문제에 적용하여 컴퓨터 시뮬레이션을 통하여 그 유효성을 검증한다.