• 제목/요약/키워드: Learning state

검색결과 1,629건 처리시간 0.033초

목표상태 값 전파를 이용한 강화 학습 (Reinforcement Learning using Propagation of Goal-State-Value)

  • 김병천;윤병주
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1303-1311
    • /
    • 1999
  • In order to learn in dynamic environments, reinforcement learning algorithms like Q-learning, TD(0)-learning, TD(λ)-learning have been proposed. however, most of them have a drawback of very slow learning because the reinforcement value is given when they reach their goal state. In this thesis, we have proposed a reinforcement learning method that can approximate fast to the goal state in maze environments. The proposed reinforcement learning method is separated into global learning and local learning, and then it executes learning. Global learning is a learning that uses the replacing eligibility trace method to search the goal state. In local learning, it propagates the goal state value that has been searched through global learning to neighboring sates, and then searches goal state in neighboring states. we can show through experiments that the reinforcement learning method proposed in this thesis can find out an optimal solution faster than other reinforcement learning methods like Q-learning, TD(o)learning and TD(λ)-learning.

  • PDF

Exploring the Relationships Between Emotions and State Motivation in a Video-based Learning Environment

  • YU, Jihyun;SHIN, Yunmi;KIM, Dasom;JO, Il-Hyun
    • Educational Technology International
    • /
    • 제18권2호
    • /
    • pp.101-129
    • /
    • 2017
  • This study attempted to collect learners' emotion and state motivation, analyze their inner states, and measure state motivation using a non-self-reported survey. Emotions were measured by learning segment in detailed learning situations, and they were used to indicate total state motivation with prediction power. Emotion was also used to explain state motivation by learning segment. The purpose of this study was to overcome the limitations of video-based learning environments by verifying whether the emotions measured during individual learning segments can be used to indicate the learner's state motivation. Sixty-eight students participated in a 90-minute to measure their emotions and state motivation, and emotions showed a statistically significant relationship between total state motivation and motivation by learning segment. Although this result is not clear because this was an exploratory study, it is meaningful that this study showed the possibility that emotions during different learning segments can indicate state motivation.

Dynamic Action Space Handling Method for Reinforcement Learning Models

  • Woo, Sangchul;Sung, Yunsick
    • Journal of Information Processing Systems
    • /
    • 제16권5호
    • /
    • pp.1223-1230
    • /
    • 2020
  • Recently, extensive studies have been conducted to apply deep learning to reinforcement learning to solve the state-space problem. If the state-space problem was solved, reinforcement learning would become applicable in various fields. For example, users can utilize dance-tutorial systems to learn how to dance by watching and imitating a virtual instructor. The instructor can perform the optimal dance to the music, to which reinforcement learning is applied. In this study, we propose a method of reinforcement learning in which the action space is dynamically adjusted. Because actions that are not performed or are unlikely to be optimal are not learned, and the state space is not allocated, the learning time can be shortened, and the state space can be reduced. In an experiment, the proposed method shows results similar to those of traditional Q-learning even when the state space of the proposed method is reduced to approximately 0.33% of that of Q-learning. Consequently, the proposed method reduces the cost and time required for learning. Traditional Q-learning requires 6 million state spaces for learning 100,000 times. In contrast, the proposed method requires only 20,000 state spaces. A higher winning rate can be achieved in a shorter period of time by retrieving 20,000 state spaces instead of 6 million.

자율 이동 로봇의 주행을 위한 영역 기반 Q-learning (Region-based Q- learning For Autonomous Mobile Robot Navigation)

  • 차종환;공성학;서일홍
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.174-174
    • /
    • 2000
  • Q-learning, based on discrete state and action space, is a most widely used reinforcement Learning. However, this requires a lot of memory and much time for learning all actions of each state when it is applied to a real mobile robot navigation using continuous state and action space Region-based Q-learning is a reinforcement learning method that estimates action values of real state by using triangular-type action distribution model and relationship with its neighboring state which was defined and learned before. This paper proposes a new Region-based Q-learning which uses a reward assigned only when the agent reached the target, and get out of the Local optimal path with adjustment of random action rate. If this is applied to mobile robot navigation, less memory can be used and robot can move smoothly, and optimal solution can be learned fast. To show the validity of our method, computer simulations are illusrated.

  • PDF

과학 학습에서 유발되는 과학상태호기심 및 과학상태불안 수준에 따른 학습효과 (Learning Effects According to the Level of Science State Curiosity and Science State Anxiety Evoked in Science Learning)

  • 강지훈;김지나
    • 한국과학교육학회지
    • /
    • 제41권3호
    • /
    • pp.221-235
    • /
    • 2021
  • 본 연구는 초등학교 5~6 학년 학생을 대상으로 과학 학습 상황에서 과학상태호기심(Science State Curiosity; SSC) 및 과학상태불안(Science State Anxeity; SSA) 수준에 따른 학습효과를 구명하는데 목적이 있다. 이를 위해 과학 학습을 과학 문제 대면(I), 결과 확인(II), 과학 개념 학습(III)의 세 가지 상황으로 구분하여 각 학습 상황에서 SSC 및 SSA를 측정하여 분석하였다. SSC 및 SSA가 학습효과에 미치는 순 영향을 파악하기 위해 학습효과에 영향을 줄 것으로 예상되는 과학호기심, 인지욕구, 과학자아개념, 과학불안, 흥미를 통제하였다. 과학 문제 대면 상황에서의 SSC 및 SSA를 'SSCI' 및 'SSAI'으로, 결과 확인 상황에서의 SSC 및 SSA를 'SSCII' 및 'SSAII'로, 과학 개념 학습 상황에서의 SSC 및 SSA를 'SSCIII' 및 'SSAIII'로 정의하였다. 그리고 학습효과를 직후학습효과와 지연학습효과로 구분하여 사전검사 점수에 비하여 직후검사 또는 지연검사 점수가 향상된 정도를 산출하여 분석하였다. 분석결과, 직후학습효과는 SSCI·SSCII가 높을수록, SSAI·SSAII·SSAIII가 낮을수록 높았으며, 지연학습효과는 SSCI·SSCII가 높을수록, SSAIII가 낮을수록 높았다. SSC가 SSA보다 학습효과에 미치는 영향이 컸으며, 직후학습효과에는 SSCII가, 지연학습효과에는 SSCI이 가장 많은 영향을 미쳤다. 또한 SSCIII가 높을수록 추가적인 자발적 학습을 하는 경향이 나타났다. 본 연구의 결과는 과학 학습에서 학생의 정서적 상태에 대한 이해의 폭을 넓히고, 상태호기심 및 상태불안 연구에 대한 이론적 토대를 마련할 것으로 기대된다.

Q-value Initialization을 이용한 Reinforcement Learning Speedup Method (Reinforcement learning Speedup method using Q-value Initialization)

  • 최정환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.13-16
    • /
    • 2001
  • In reinforcement teaming, Q-learning converges quite slowly to a good policy. Its because searching for the goal state takes very long time in a large stochastic domain. So I propose the speedup method using the Q-value initialization for model-free reinforcement learning. In the speedup method, it learns a naive model of a domain and makes boundaries around the goal state. By using these boundaries, it assigns the initial Q-values to the state-action pairs and does Q-learning with the initial Q-values. The initial Q-values guide the agent to the goal state in the early states of learning, so that Q-teaming updates Q-values efficiently. Therefore it saves exploration time to search for the goal state and has better performance than Q-learning. 1 present Speedup Q-learning algorithm to implement the speedup method. This algorithm is evaluated. in a grid-world domain and compared to Q-teaming.

  • PDF

How Does Cognitive Conflict Affect Conceptual Change Process in High School Physics Classrooms?

  • Lee, Gyoung-Ho;Kwon, Jae-Sool
    • 한국과학교육학회지
    • /
    • 제24권1호
    • /
    • pp.1-16
    • /
    • 2004
  • The purpose of this study was to examine the role of cognitive conflict in the conceptual change process. Ninety-seven high school students in Korea participated in this study. Before instruction, we conducted pretests to measure learning motivation and learning strategies. During instruction, we tested the students' preconceptions about Newton's 3rd Law and presented demonstrations. After this, we tested the students' cognitive conflict levels and provided students learning sessions in which we explained the results of the demonstrations. After these learning sessions, we tested the students' state learning motivation and state learning strategy. Posttests and delayed posttests were conducted with individual interviews. The result shows that cognitive conflict has direct/indirect effects on the conceptual change process. However, the effects of cognitive conflict are mediated by other variables in class, such as state learning motivation and state learning strategy. In addition, we found that there was an optimal level of cognitive conflict in the conceptual change process. We discuss the complex role of cognitive conflict in conceptual change, and the educational implications of these findings.

영향력 분포도를 이용한 Q-학습 (Q-learning Using Influence Map)

  • 성연식;조경은
    • 한국멀티미디어학회논문지
    • /
    • 제9권5호
    • /
    • pp.649-657
    • /
    • 2006
  • 강화학습이란 환경에 대한 정보가 주어지지 않았을 때 현재의 상태에서 가능한 행동들을 취한 후 얻어지는 보상값이 가장 큰 행동을 최적의 행동 전략으로 학습하는 것이다. 강화학습에서 가장 많이 사용하는 Q-학습은 환경의 특정 상태에서 가능한 행동 중에 하나를 선택해서 취한 행동으로 얻어지는 보상값으로 구성되는데 실세계 상태를 이산값으로 표현하기에는 많은 어려움이 있다. 상태를 많이 정의하면 그만큼 학습에 필요한 시간이 많아지게 되고 반대로 상태 공간을 줄이면 다양한 환경상태를 한 개의 환경상태로 인지를 하고 그 환경에 맞는 한 가지의 행동만 취하도록 학습하기 때문에 행동이 단순해진다. 본 논문에서는 학습 시간을 단축하기 위해 상태 공간을 줄이는 데서 발생하는 행동의 단순화의 단점을 보완하기 위한 방법으로 영향력 분포도를 이용한 Q-학습 방법을 제안한다. 즉, 영향력 분포도와 인접한 학습 결과를 이용해서 학습하지 못한 중간 상태에 적합한 행동을 취하게 하여 동일한 상태 개수에 대해서 학습 시간을 단축하는 것이다. 동일한 학습 시간 동안에 일반적인 강화학습 방법으로 학습한 에이전트와 영향력 분포도와 강화학습을 이용해서 학습한 에이전트의 성능을 비교해 보았을 때 영향력 분포도와 강화학습을 이용해서 학습한 에이전트가 단지 일반적인 강화학습에 필요한 상태공간의 4.6%만 정의를 하고도 성능 면에서는 거의 비슷한 효과를 볼 수가 있음을 확인하였다. 이는 영향력 분포도와 강화학습을 이용한 학습이 일반적인 강화학습에 비해서 학습 속도가 2.77배정도 빨리 이루어지고 실제 학습해야 할 상태 공간의 개수가 적어져서 발생되는 문제를 영향력 분포도를 이용해서 보완을 하기 때문이다.

  • PDF

융복합시대 간호대학생의 협동학습수업 몰입상태에 영향을 미치는 요인 (Factors influencing flow state of cooperative learning among nursing students: in convergence era)

  • 김민숙;윤순영
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.397-403
    • /
    • 2015
  • 본 연구는 융복합시대의 간호대학생에게 협동학습수업 몰입상태에 영향을 미치는 요인을 파악하고자 시도되었다. 자료는 2015년 4월부터 6월까지 총 6주간 간호학과 신입생 2개 학급 93명으로부터 수집되었다. 수집된 자료는 SPSS 18.0을 이용하여 기술통계, Pearson's correlation coefficient를 실시하였으며 몰입상태에 영향을 미치는 요인은 다중회귀분석을 이용하였다. 연구결과, 협동학습수업 몰입상태는 전공만족도, 협동학습수업 만족도와 상관관계가 있었다. 전공만족도와 협동학습수업 만족도가 협동학습수업 몰입상태의 예측요인으로 설명력은 65.4%이었으며 협동학습 수업만족도가 몰입상태에 영향을 미치는 요인으로 확인되었다. 이는 몰입상태를 최대화시키기 위한 교수법 적용의 근거를 제시해주고 있다.

상태 표현 방식에 따른 심층 강화 학습 기반 캐릭터 제어기의 학습 성능 비교 (Comparison of learning performance of character controller based on deep reinforcement learning according to state representation)

  • 손채준;권태수;이윤상
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.55-61
    • /
    • 2021
  • 물리 시뮬레이션 기반의 캐릭터 동작 제어 문제를 강화학습을 이용하여 해결해나가는 연구들이 계속해서 진행되고 있다. 강화학습을 사용하여 문제를 풀기 위해서는 네트워크 구조, 하이퍼파라미터 튜닝, 상태(state), 행동(action), 보상(reward)이 문제에 맞게 적절히 설정이 되어야 한다. 많은 연구들에서 다양한 조합으로 상태, 행동, 보상을 정의하였고, 성공적으로 문제에 적용하였다. 상태, 행동, 보상을 정의함에 다양한 조합이 있다보니 학습 성능을 향상시키는 최적의 조합을 찾기 위해서 각각의 요소들이 미치는 영향을 분석하는 연구도 진행되고 있다. 우리는 지금까지 이뤄지지 않았던 상태 표현 방식에 따른 강화학습성능에 미치는 영향을 분석하였다. 첫째로, root attached frame, root aligned frame, projected aligned frame 3가지로 좌표계를 정의하였고, 이에 대해 표현된 상태를 이용하여 강화학습에 미치는 영향을 분석하였다. 둘째로, 상태를 정의 할 때, 관절의 위치, 각도로 다양하게 조합하는 경우에 학습성능에 어떠한 영향을 미치는지 분석하였다.