• 제목/요약/키워드: Learning state

검색결과 1,629건 처리시간 0.041초

분포 기여도를 이용한 퍼지 Q-learning (Fuzzy Q-learning using Distributed Eligibility)

  • 정석일;이연정
    • 한국지능시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.388-394
    • /
    • 2001
  • 강화학습은 에이전트가 환경과의 상호작용을 통해 획득한 경험으로부터 제어 규칙을 학습하는 방법이다. 강화학습의 중요한 문제 중의 하나인 신뢰 할당 문제를 해결하기 위해 기여도가 사용되는데, 누적 기여도나 대체 기여도와 같은 기존의 기여도를 이용한 방법은 방문한 상태에서 수행된 행위만을 학습시키기 때문에 학습 자정에서 획득된 보답 신호를 효과적으로 사용하지 못한다. 본 논문에서는 방문한 상태에서 수행된 행위뿐만 아니라 인접 행위들도 학습될 수 있도록 하는 새로운 기여도로써 분포 기여도를 제안한다. 제안된 기여도를 이용한 퍼지 Q-learning 알고리즘을 역진자 시스템에 적용하여 학습 속도면에서 기존의 방법에 비해 우수함을 보인다.

  • PDF

과학 학습에서 불일치 현상 대면 여부에 따른 상태호기심 및 상태불안의 변화 (Changes in State Curiosity and State Anxiety in Science Learning Depending on Confronting Violation of Expectation)

  • 강지훈;김지나
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권3호
    • /
    • pp.521-537
    • /
    • 2022
  • 과학 학습 과정에서 유발되는 상태호기심과 상태불안은 학업 수행 및 성취에 많은 영향을 미친다. 상태호기심과 상태불안은 매 순간마다 그 수준이 변할 수 있기 때문에 학습의 전 과정에서 학생의 상태호기심과 상태불안 수준을 파악하여 지도할 필요가 있다. 이러한 맥락에서 본 연구에서는 과학 학습을 과학 문제 대면, 결과 확인, 과학 개념 학습의 세 상황으로 구분하여 초등학교 5~6학년 학생을 대상으로 자신의 예상과 결과의 일치 여부에 따른 학생들의 상태호기심 및 상태불안 수준의 변화를 분석하였다. 분석 결과, 문제 대면 후 결과를 확인하는 과정에서 자신의 예상과 일치한 결과에 직면한 nVOE 집단의 상태호기심 수준은 유의한 차이가 없었지만, 자신의 예상과 일치하지 않은 결과에 직면한 VOE 집단의 상태호기심은 증가하였다. VOE 집단 중 결과에 대한 이유를 바르게 추론한 VOE-R 집단의 상태호기심 수준은 유의한 변화가 없었지만 결과에 대한 이유를 바르게 추론하지 못한 VOE-FR 집단의 상태호기심은 증가하였다. 한편 문제의 결과를 확인한 후 VOE 집단과 nVOE 집단의 상태불안은 감소하였으며 VOE-R 집단 역시 상태불안이 감소하였다. 반면 VOE-FR 집단의 상태불안은 유의한 변화가 나타나지 않았다. 문제의 결과를 확인한 후 결과에 대한 과학 개념을 학습하는 과정에서 VOE 집단, nVOE 집단, VOE-FR 집단의 상태호기심은 모두 감소하였다. 한편 nVOE 집단의 상태불안 수준은 유의한 변화가 없었지만, VOE 집단, VOE-R 집단, VOE-FR 집단의 상태불안 수준은 감소하였다. 이러한 연구 결과의 교육적 함의에 대하여 논의하였다. 본 연구의 결과는 과학 학습에서 유발되는 학생의 정서적 상태에 대한 이해의 폭을 넓힐 수 있을 것으로 기대된다.

적응 학습 제어 기법을 이용한 BLDC 모터의 비선형 동력학 제어 (The nonlinear dynamic control of BLDC motors : an adaptive learning control approach)

  • 박정동;국태용
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.333-336
    • /
    • 1997
  • In this paper, we present a nonlinear dynamic controller for position tracking of brushless dc motors. In constructing the controller, a backstepping-type approach is used under the condition of full state information, while an adaptive controller is adopted for parameter uncertainty throughout the entire electromechanical system. The nonlinear dynamic controller using the adaptive learning technique approach is shown to drive the state variables of system to the desired ones asymptotically and whose effectiveness is also sown via computer simulation.

  • PDF

Labeling Q-learning with SOM

  • Lee, Haeyeon;Kenichi Abe;Hiroyuki Kamaya
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.35.3-35
    • /
    • 2002
  • Reinforcement Learning (RL) is one of machine learning methods and an RL agent autonomously learns the action selection policy by interactions with its environment. At the beginning of RL research, it was limited to problems in environments assumed to be Markovian Decision Process (MDP). However in practical problems, the agent suffers from the incomplete perception, i.e., the agent observes the state of the environments, but these observations include incomplete information of the state. This problem is formally modeled by Partially Observable MDP (POMDP). One of the possible approaches to POMDPS is to use historical nformation to estimate states. The problem of these approaches is how t..

  • PDF

Decentralized learning automata for control of unknown markov chains

  • Hara, Motoshi;Abe, Kenichi
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1990년도 한국자동제어학술회의논문집(국제학술편); KOEX, Seoul; 26-27 Oct. 1990
    • /
    • pp.1234-1239
    • /
    • 1990
  • In this paper, we propose a new type of decentralized learning automata for the control finite state Markov chains with unknown transition probabilities and rewards. In our scheme a .betha.-type learning automaton is associated with each state in which two or more actions(desisions) are available. In this decentralized learning automata system, each learning automaton operates, requiring only local information, to improve its performance under local environment. From simulation results, it is shown that the decentralized learning automata will converge to the optimal policy that produces the most highly total expected reward with discounting in all initiall states.

  • PDF

주기적 외란의 제거를 위한 빠른 오프라인 학습 제어 (A Fast Off-line Learning Approach to the Rejection of Periodic Disturbances)

  • 장정국;김남국;이호성
    • 정보저장시스템학회논문집
    • /
    • 제3권4호
    • /
    • pp.167-172
    • /
    • 2007
  • The recently-developed off-line learning control approaches for the rejection of periodic disturbances utilize the specific property that the learning system tends to oscillate in steady state. Unfortunately, the prior works have not clarified how closely the learning system should approach the steady state to achieve the rejection of periodic disturbances to satisfactory level. In this paper, we address this issue extensively for the class of linear systems. We also attempt to remove the effect of other aperiodic disturbances on the rejection of the periodic disturbances effectively. In fact, the proposed learning control algorithm can provide very fast convergence performance in the presence of aperiodic disturbance. The effectiveness and practicality of our work is demonstrated through mathematical performance analysis as well as various simulation results.

  • PDF

Comparative Characteristics Of Information Technologies And Technologies Of Distance Learning Of Higher Education Institutions

  • Dibrova, Valentyna;Sovhira, Svitlana;Liakhovska, Yuliia;Burdun, Victor;Boichuk, Nelia;Saikivska, Liliia
    • International Journal of Computer Science & Network Security
    • /
    • 제21권5호
    • /
    • pp.69-72
    • /
    • 2021
  • The article discusses the features of the use of distance technologies to intensify the learning process of students. The advantages and disadvantages of distance learning are shown. The role and functions of the teacher in distance learning have been adjusted. Information and methodological support for distance learning of students is proposed. Analyzed pedagogical, psychological, methodological and philosophical literature, educational standards, charters of higher educational institutions and other documents. Studied foreign experience in conducting classes using information technology.

멀티에이전트 강화학습에서 견고한 지식 전이를 위한 확률적 초기 상태 랜덤화 기법 연구 (Stochastic Initial States Randomization Method for Robust Knowledge Transfer in Multi-Agent Reinforcement Learning)

  • 김도현;배정호
    • 한국군사과학기술학회지
    • /
    • 제27권4호
    • /
    • pp.474-484
    • /
    • 2024
  • Reinforcement learning, which are also studied in the field of defense, face the problem of sample efficiency, which requires a large amount of data to train. Transfer learning has been introduced to address this problem, but its effectiveness is sometimes marginal because the model does not effectively leverage prior knowledge. In this study, we propose a stochastic initial state randomization(SISR) method to enable robust knowledge transfer that promote generalized and sufficient knowledge transfer. We developed a simulation environment involving a cooperative robot transportation task. Experimental results show that successful tasks are achieved when SISR is applied, while tasks fail when SISR is not applied. We also analyzed how the amount of state information collected by the agents changes with the application of SISR.

여대생의 이러닝 학습태도 변화에 따른 뇌파 분석 (EEG Analysis of Learning Attitude Change of Female College Student on e-Learning)

  • 장재경;김호성
    • 한국콘텐츠학회논문지
    • /
    • 제11권4호
    • /
    • pp.42-50
    • /
    • 2011
  • 생체신호인 뇌파를 이용하여 이러닝 학습자의 학습태도를 파악하고 그에 따른 적절한 피드백을 제공하여 학습자의 학습효율을 극대화하려는 연구의 일환으로 여대생을 대상으로 학습자의 학습태도와 뇌파를 분석하여 이들의 상관관계를 밝혀보고자 한다. 학습자가 학습에 집중하는 태도와 그렇지 않은 태도에 대해 뇌파의 파워 스펙트럼을 추출하여 학습자의 뇌파가 어떻게 반응하는지에 중점을 두어 연구하였다. 학습에 집중하는 태도의 대조군으로 산만한 태도와 눈감은 태도를 설정하여 실험을 진행하였다. 학습에 집중하는 태도에서는 집중도가 산만한 태도에 비하여 높게 나타나고 이완지표는 낮게 나타나며, 클릭과 눈굴림과 같은 산만한 태도에서는 주의지표와 잡파 비율이 높게 나왔다. 특히, 눈을 감았을 때는 알파 세타 비율이 1이하로 나타나 눈을 뜬 다른 상태와 뚜렷이 구분되었다.

과학 상태호기심 및 과학 상태불안 측정도구 개발 (The Development of Instruments for the Measuring Science State Curiosity and Anxiety in Science Learning)

  • 강지훈;유병길;김지나
    • 한국과학교육학회지
    • /
    • 제40권5호
    • /
    • pp.485-502
    • /
    • 2020
  • 본 연구의 목적은 과학 학습 상황을 과학 문제 대면, 결과 확인, 과학 개념 학습의 세 단계로 구분하여 학생들의 상태호기심 및 상태불안을 측정할 수 있는 도구를 개발하고, 개발한 측정도구의 타당도와 신뢰도를 검증하는 것이다. 이를 위해 여러 선행연구의 이론적 배경을 바탕으로 과학 상태호기심과 과학 상태불안을 세 단계의 학습 상황에 맞게 정의하였고, 이 정의에 맞게 예비 문항을 개발하였다. 예비 문항은 상태호기심 및 상태불안의 변화도 파악할 수 있도록 단계별로 문항 수와 기본틀이 동일하게 개발하였다. 안면타당도와 내용 타당도 검증과정에서 일부 예비 문항을 수정하였다. 탐색적 및 확인적 요인분석 결과 본 측정도구는 각 단계별로 상태호기심 5 문항과 상태불안 5 문항(2 요인 10 문항)으로 구성되었고, 본 측정도구의 구인타당도를 확보하였다. 크론바흐 알파값은 요인별, 전체문항별 모두 0.8 이상이 나왔다. 본 측정도구는 세 단계의 과학 학습 상황에 맞게 상태호기심 및 상태불안을 측정하고 그 변화를 파악할 수 있다는 점에서 의미있다.