• 제목/요약/키워드: 학습강화

검색결과 1,589건 처리시간 0.031초

강화학습기법을 이용한 목적지 경로 탐색 (Destination Path Search using Reinforcement Learning Technique)

  • 이태경;전준리
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.244-247
    • /
    • 2013
  • 본 논문에서는 목적지들의 중요도를 이용하여 강화학습에 의한 목적지 경로 탐색을 제안한다. 일반적인 목적지 경로탐색은 목적지의 중요도나 방문빈도를 고려하지 않는 최단경로탐색을 수행한다. 그러므로 방문객들의 요구에는 맞지 않는 경로를 탐색한다. 강화학습의 특징은 관심 대상에 대한 구체적인 지배 규칙의 정보 없이도 최적화된 행동 방식을 학습시킬 수 있는 특징이 있다. 이를 이용하면 주요목적지를 누락시키지 않고 방문객들의 요구에 만족하는 경로를 탐색할 수 있다. 기존에 이용되고 있는 경로탐색 알고리즘과 강화학습기법이 적용된 알고리즘을 서로 분석하여 비교한다.

심층적 강화학습 기반 적응적 GOP 선택을 통한 HEVC/H.265 인코더 제어 (Deep Reinforcement Learning based Adaptive GOP Selection for HEVC/H.265 Encoder)

  • 이정경;김나영;강제원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.140-142
    • /
    • 2020
  • 본 논문에서는 심층적 강화학습 기반 GOP (Group of Picture) 크기를 선택하여 HEVC/H.265의 인코더를 제어하는 방법을 제안한다. 기존 방법에서는 현재 비디오 신호를 부호화 하는 과정에서 이미 부호화한 정보를 사용해야하는 부호화 의존성에 관한 문제가 있었다. 제안 방법은 강화학습 방식을 도입하여 이러한 문제를 극복하고 입력 비디오의 시간적 상관도에 따라 GOP의 크기를 적응적으로 선택하여 부호화 한다. 본 논문에서는 GOP 선택을 위한 강화학습 환경을 새롭게 정의하고 부호화 성능에 따른 보상을 부여하는 방식으로 학습을 수행한다. 제안된 적응적 GOP 선택에 따라 인코더 제어 시, 부호화 방법의 부호화 효율이 -6.07% BD-rate 향상된 실험 결과를 보이며 본 방법의 우수성을 입증한다.

  • PDF

강화학습 에이전트 시야 정보 차이에 의한 학습 성능 비교 (Comparison of Learning Performance by Reinforcement Learning Agent Visibility Information Difference)

  • 김찬섭;장시환;양성일;강신진
    • 한국게임학회 논문지
    • /
    • 제21권5호
    • /
    • pp.17-28
    • /
    • 2021
  • 인공지능 스스로가 자신을 발전시켜 최적의 문제 해결 방법을 찾는 강화학습은 여러 분야에서 활용 가치가 높은 기술이다. 특히 게임 분야는 강화학습 인공지능에 문제 해결을 위한 가상환경을 제공할 수 있다는 장점이 있으며 강화학습 에이전트는 주어진 환경에 대한 정보인 관측변수를 사용하여 자신의 상황과 환경에 대한 정보를 파악하여 환경에 대한 문제를 해결한다. 본 실험에서는 롤플레잉 게임의 인스턴트 던전 환경을 간략화하여 제작하고 에이전트에게 관측변수 중 시야에 관련된 관측변수를 다양하게 설정하였다. 실험 결과 각 설정된 변수들이 학습속도에 얼마나 영향을 주는지를 파악할 수 있었고, 이러한 결과는 롤플레잉 게임 강화학습 연구에 참고할 수 있다.

무선 애드혹 네트워크에서 노드분리 경로문제를 위한 강화학습 (Reinforcement Learning for Node-disjoint Path Problem in Wireless Ad-hoc Networks)

  • 장길웅
    • 한국정보통신학회논문지
    • /
    • 제23권8호
    • /
    • pp.1011-1017
    • /
    • 2019
  • 본 논문은 무선 애드혹 네트워크에서 신뢰성이 보장되는 데이터 전송을 위해 다중 경로를 설정하는 노드분리 경로문제를 해결하기 위한 강화학습을 제안한다. 노드분리 경로문제는 소스와 목적지사이에 중간 노드가 중복되지 않게 다수의 경로를 결정하는 문제이다. 본 논문에서는 기계학습 중 하나인 강화학습에서 Q-러닝을 사용하여 노드의 수가 많은 대규모의 무선 애드혹 네트워크에서 전송거리를 고려한 최적화 방법을 제안한다. 특히 대규모의 무선 애드혹 네트워크에서 노드분리 경로 문제를 해결하기 위해서는 많은 계산량이 요구되지만 제안된 강화학습은 효율적으로 경로를 학습함으로써 적절한 결과를 도출한다. 제안된 강화학습의 성능은 2개의 노드분리경로를 설정하기 위한 전송거리 관점에서 평가되었으며, 평가 결과에서 기존에 제안된 시뮬레이티드 어널링과 비교평가하여 전송거리면에서 더 좋은 성능을 보였다.

상호작용 강화 협동학습이 초등과학영재 학생의 과학 창의성 발현에 미치는 영향 (Effect of Cooperative Learning Emphasizing Interaction on Science-Gifted Elementary Students' Scientific Creativity)

  • 김현주;김민주;임채성
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제43권1호
    • /
    • pp.1-17
    • /
    • 2024
  • 본 연구는 초등과학영재 학생의 과학 창의성을 증진하는데 상호작용 강화 협동학습이 효과적일 것으로 보고, 정량적 자료와 정성적 자료를 통해 그 효과를 분석하였다. 이를 위해 초등과학영재 학생 34명을 상호작용 강화 협동학습에 참여한 실험 집단과 대집단 상호작용에만 참여한 비교 집단으로 나누어 생성한 창의적 산출물의 창의성 점수를 비교하였다. 정성적 분석을 위해서는 실험 집단에 속한 학생들이 협동하는 과정에서 나눈 대화를 분석하여 상호작용 양상을 탐색하였으며, 설문조사를 통해 협동학습에 대한 인식의 변화를 확인하였다. 연구 결과는 다음과 같다. 첫째, 상호작용 강화 협동학습은 과학 창의성 요소 중 유용성 향상에 긍정적인 영향을 주었다. 둘째, 상호작용 강화 협동학습에 참여한 학생들의 상호작용 양상이 협동학습 실시 후반으로 갈수록 질적으로 향상하였다. 셋째, 상호작용 강화 협동학습의 효과를 저해시키는 요인에는 소집단 구성원의 부정적인 과제 무관 진술과 이에 따른 운영 진술이 있었다. 이러한 연구 결과를 바탕으로, 본 연구에서는 효과적인 상호작용 강화 협동학습을 위한 교수학습 방안에 대해 논의하였다.

개미 집단 시스템에서 TD-오류를 이용한 강화학습 기법 (A Reinforcement Loaming Method using TD-Error in Ant Colony System)

  • 이승관;정태충
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.77-82
    • /
    • 2004
  • 강화학습에서 temporal-credit 할당 문제 즉, 에이전트가 현재 상태에서 어떤 행동을 선택하여 상태전이를 하였을 때 에이전트가 선택한 행동에 대해 어떻게 보상(reward)할 것인가는 강화학습에서 중요한 과제라 할 수 있다. 본 논문에서는 조합최적화(hard combinational optimization) 문제를 해결하기 위한 새로운 메타 휴리스틱(meta heuristic) 방법으로, greedy search뿐만 아니라 긍정적 반응의 탐색을 사용한 모집단에 근거한 접근법으로 Traveling Salesman Problem(TSP)를 풀기 위해 제안된 Ant Colony System(ACS) Algorithms에 Q-학습을 적용한 기존의 Ant-Q 학습방범을 살펴보고 이 학습 기법에 다양화 전략을 통한 상태전이와 TD-오류를 적용한 학습방법인 Ant-TD 강화학습 방법을 제안한다. 제안한 강화학습은 기존의 ACS, Ant-Q학습보다 최적해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

카트-폴 균형 문제를 위한 실시간 강화 학습 (On-line Reinforcement Learning for Cart-pole Balancing Problem)

  • 김병천;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.157-162
    • /
    • 2010
  • Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다. 본 논문의 목적은 cart-pole 균형 문제에서 OREL 학습 시스템의 학습 방법을 분석하는데 있다. 실험을 통해, 본 논문에서 제안한 OREL 학습 방법은 Q-학습보다 최적 값 함수에 더 빠르게 접근함을 알 수 있었다.

강화학습 기반 사용자 프로파일 학습 (Learning User Profile with Reinforcement Learning)

  • 김영란;한현구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.325-327
    • /
    • 2002
  • 정보검색 태스크에서 사용자 모델링의 목적은 관련정보 검색을 용이하게 해주기 위하여 사용자의 관심도 또는 필요정보의 모델을 학습하는 것으로 시간적인 속성(temporal characteristics)을 가지며 관심 이동을 적절하게 반영하여야 한다. 강화학습은 정답이 주어지지 않고 사용자의 평가만이 수치적으로 주어지는 환경에서 평가를 최대화 한다는 목표를 가지므로 사용자 프로파일 학습에 적용할 수 있다. 본 논문에서는 사용자가 문서에 대해 행하는 일련의 행위를 평가값으로 하여 사용자가 선호하는 용어를 추출한 후, 사용자 프로파일을 강화학습 알고리즘으로 학습하는 방법을 제안한다. 사용자의 선호도에 적응하는 능력을 유지하기 위하여 지역 최대값들을 피할 수 있고, 가장 좋은 장기간 최적정책에 수렴하는 R-Learning을 적용한다. R-learning은 할인된 보상값의 최적화보다 평균 보상값을 최적화하기 때문에 장기적인 사용자 모델링에 적합하다는 것을 제시한다.

  • PDF

사이버가정학습 사용자 만족도 향상 방안 연구 (A Study of Plans to Enhance the User Satisfaction of the Cyber Home Learning System)

  • 구덕회
    • 정보교육학회논문지
    • /
    • 제13권3호
    • /
    • pp.281-290
    • /
    • 2009
  • 본 연구는 사이버가정학습에 대하여 사용자 실태를 조사하고 사용자 만족도 향상 방안을 도출하고자 실시하였다. 이를 위해 D지역 지방 교육청 산하의 사이버가정학습에서 학습하고 있는 학습자 7,911명, 사이버가정학습에 참여하는 교사 582명을 대상으로 온라인 설문조사를 실시하고 이를 기반으로 사이버가정 학습 사용자 만족도 향상 방안을 도출하였다. 연구 결과 사이버학습과 학교교육의 접목, 다양한 학습 형태 개발, 단위학교 학습 확대 실시, 콘텐츠의 질적 향상, 사이버가정학습 기능 개선, 다양한 서비스 강화, 사용자에 대한 인센티브 강화, 교사 연수 강화, 학부모에게 다양한 정보 제공을 사이버가정학습 사용자 만족도 향상 방안으로 제시하였다.

  • PDF

근골격 모델과 참조 모션을 이용한 이족보행 강화학습 (Reinforcement Learning of Bipedal Walking with Musculoskeletal Models and Reference Motions)

  • 전지웅;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제29권1호
    • /
    • pp.23-29
    • /
    • 2023
  • 본 논문은 강화학습을 통해 이족보행에 대한 모션 캡처를 통해 참조 모션의 데이터들을 기반으로 근골격 캐릭터의 시뮬레이션을 적은 비용으로 높은 품질의 결과를 얻을 방법을 소개한다. 우리는 참조 모션 데이터를 캐릭터 모델이 수행할 수 있게끔 재설정을 한 후, 강화학습을 통해 해당 모션을 학습하도록 훈련시킨다. 참조 모션 모방과 근육에 대한 최소한의 메타볼릭 에너지를 결합하여 원하는 방향으로 근골격 모델이 이족보행을 수행하게끔 학습한다. 이러한 방법으로 근골격 모델은 기존의 수동으로 설계된 컨트롤러보다 적은 비용으로 학습할 수 있으며 높은 품질의 이족보행을 수행할 수 있게 된다.