• 제목/요약/키워드: Reinforcement value

검색결과 461건 처리시간 0.023초

CNN 기반 기보학습 및 강화학습을 이용한 인공지능 게임 에이전트 (An Artificial Intelligence Game Agent Using CNN Based Records Learning and Reinforcement Learning)

  • 전영진;조영완
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1187-1194
    • /
    • 2019
  • 본 논문에서는 인공지능 오델로 게임 에이전트를 구현하기 위해 실제 프로기사들의 기보를 CNN으로 학습시키고 이를 상태의 형세 판단을 위한 근거로 삼아 최소최대탐색을 이용해 현 상태에서 최적의 수를 찾는 의사결정구조를 사용하고 이를 발전시키고자 강화학습 이론을 이용한 자가대국 학습방법을 제안하여 적용하였다. 본 논문에서 제안하는 구현 방법은 기보학습의 성능 평가 차원에서 가치평가를 위한 네트워크로서 기존의 ANN을 사용한 방법과 대국을 통한 방법으로 비교하였으며, 대국 결과 흑일 때 69.7%, 백일 때 72.1%의 승률을 나타내었다. 또한 본 논문에서 제안하는 강화학습 적용 결과 네크워크의 성능을 강화학습을 적용하지 않은 ANN 및 CNN 가치평가 네트워크 기반 에이전트와 비교한 결과 각각 100%, 78% 승률을 나타내어 성능이 개선됨을 확인할 수 있었다.

목표지향적 강화학습 시스템 (Goal-Directed Reinforcement Learning System)

  • 이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.265-270
    • /
    • 2010
  • 강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.

Experimental study on flexural strength of reinforced modular composite profiled beams

  • Ahn, Hyung-Joon;Ryu, Soo-Hyun
    • Steel and Composite Structures
    • /
    • 제8권4호
    • /
    • pp.313-328
    • /
    • 2008
  • This study attempts to suggest bending reinforcement method by applying bending reinforcement to composite profile beam in which the concept of prefabrication is introduced. Profile use can be in place of framework and is effective in improvement of shear and bending strength and advantageous in long-term deflection. As a result of experiment, MPB-CB2 with improved module had higher strength and ductility than the previously published MPB-CB and MPB-LB. In case of bending reinforcement with deformed bar and built-up T-shape section based on MPB-CB2, the MPB-RB series reinforced with deformed bar were found to have higher initial stiffness, bending strength and ductility than the MPB-RT series. The less reinforcement effect of the MPB-RT series might be caused by poor concrete filling at the bottom of the built-up T-shape. In comparison between theoretical values and experimental values using minimum yield strength, the ratio between experimental value and theoretical value was shown to be 0.9 or higher except for MPB-RB16 and MPB-RT16 that have more reinforcement compared to the section, thus it is deemed that the reinforced modular composite profiled beam is highly applicable on the basis of minimum yield strength.

카트-폴 균형 문제를 위한 실시간 강화 학습 (On-line Reinforcement Learning for Cart-pole Balancing Problem)

  • 김병천;이창훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.157-162
    • /
    • 2010
  • Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다. 본 논문의 목적은 cart-pole 균형 문제에서 OREL 학습 시스템의 학습 방법을 분석하는데 있다. 실험을 통해, 본 논문에서 제안한 OREL 학습 방법은 Q-학습보다 최적 값 함수에 더 빠르게 접근함을 알 수 있었다.

Performance Enhancement of CSMA/CA MAC Protocol Based on Reinforcement Learning

  • Kim, Tae-Wook;Hwang, Gyung-Ho
    • Journal of information and communication convergence engineering
    • /
    • 제19권1호
    • /
    • pp.1-7
    • /
    • 2021
  • Reinforcement learning is an area of machine learning that studies how an intelligent agent takes actions in a given environment to maximize the cumulative reward. In this paper, we propose a new MAC protocol based on the Q-learning technique of reinforcement learning to improve the performance of the IEEE 802.11 wireless LAN CSMA/CA MAC protocol. Furthermore, the operation of each access point (AP) and station is proposed. The AP adjusts the value of the contention window (CW), which is the range for determining the backoff number of the station, according to the wireless traffic load. The station improves the performance by selecting an optimal backoff number with the lowest packet collision rate and the highest transmission success rate through Q-learning within the CW value transmitted from the AP. The result of the performance evaluation through computer simulations showed that the proposed scheme has a higher throughput than that of the existing CSMA/CA scheme.

상태 공간 압축을 이용한 강화학습 (Reinforcement Learning Using State Space Compression)

  • 김병천;윤병주
    • 한국정보처리학회논문지
    • /
    • 제6권3호
    • /
    • pp.633-640
    • /
    • 1999
  • Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like Q-learning and TD(Temporal Difference)-learning are faster in learning than the conventional stochastic learning method. However, because many of the proposed reinforcement learning algorithms are given the reinforcement value only when the learning agent has reached its goal state, most of the reinforcement algorithms converge to the optimal solution too slowly. In this paper, we present COMREL(COMpressed REinforcement Learning) algorithm for finding the shortest path fast in a maze environment, select the candidate states that can guide the shortest path in compressed maze environment, and learn only the candidate states to find the shortest path. After comparing COMREL algorithm with the already existing Q-learning and Priortized Sweeping algorithm, we could see that the learning time shortened very much.

  • PDF

Fault-tolerant control system for once-through steam generator based on reinforcement learning algorithm

  • Li, Cheng;Yu, Ren;Yu, Wenmin;Wang, Tianshu
    • Nuclear Engineering and Technology
    • /
    • 제54권9호
    • /
    • pp.3283-3292
    • /
    • 2022
  • Based on the Deep Q-Network(DQN) algorithm of reinforcement learning, an active fault-tolerance method with incremental action is proposed for the control system with sensor faults of the once-through steam generator(OTSG). In this paper, we first establish the OTSG model as the interaction environment for the agent of reinforcement learning. The reinforcement learning agent chooses an action according to the system state obtained by the pressure sensor, the incremental action can gradually approach the optimal strategy for the current fault, and then the agent updates the network by different rewards obtained in the interaction process. In this way, we can transform the active fault tolerant control process of the OTSG to the reinforcement learning agent's decision-making process. The comparison experiments compared with the traditional reinforcement learning algorithm(RL) with fixed strategies show that the active fault-tolerant controller designed in this paper can accurately and rapidly control under sensor faults so that the pressure of the OTSG can be stabilized near the set-point value, and the OTSG can run normally and stably.

철근콘크리트 휨부재의 최소철근비에 대한 고찰 (An Examination of the Minimum Reinforcement Ratio for Reinforced Concrete Flexural Members)

  • 최승원
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제21권6호
    • /
    • pp.35-43
    • /
    • 2017
  • 철근콘크리트 휨부재의 최소철근비는 부재의 취성 파괴를 방지하기 중요한 설계 인자이다. 콘크리트구조기준과 도로교설계기준에서 사용되는 최소철근비는 단면의 유효 깊이 및 모멘트 팔길이에 대한 가정을 통해 산정되었다. 따라서 이 연구에서는 재료 모델과 힘의 평형 관계를 통해 합리적으로 최소철근비를 산정할 수 있는 방법을 제안하였다. 연구 결과 도로교설계기준의 포물-사각형 곡선을 통해 산정된 최소 철근비는 현재 설계 기준에 의한 최소철근비의 약 52~80% 수준으로 산정되어 경제적인 설계가 가능한 것으로 나타났다. 또한, 재료 모델을 통한 최소철근량이 배치된 부재의 연성 능력은 현재 설계 기준에 의한 값의 약 89% 수준으로 평가되었으나, 부재의 연성도는 7 이상으로 충분한 연성능력을 보였다. 따라서 제안된 포물-사각형 곡선을 통한 최소철근비는 휨부재 설계의 이론적 합리성 뿐만 아니라 안전성 및 경제성을 확보할 수 있는 것으로 나타났다.

섬유시트 보강 구조체의 거동에 관한 해석적 연구 (Analytical Study of Behavior on Structure Reinforced Fiber Sheet)

  • 서성탁
    • 한국산업융합학회 논문집
    • /
    • 제12권2호
    • /
    • pp.107-112
    • /
    • 2009
  • The effective reinforcement methods of structure is required to improve the durability of existing structures. Recently, the continuous fiber sheets to the concrete structures are widely used in the earthquake-proof reinforcement method. This study examines suitability and effect to concrete structure of fiber by FEM analysis. The result of analysis is as follows; All specimens occurred bending tensile failure at the middle span. Ultimate strength of specimen in the RC and reinforced RC specimen were 53.9 kN, 56.3 kN respectively and it was some low by degree 0.89, 0.82 to compare with calculated result. The deflection of specimen at the middle span occurred in approximately 0.2 mm, and did linear behavior in load 20 kN by seat reinforcement. Stiffness did not decrease by occurrence in the finer crack and reinforcement beam's flexure stiffness was increased until reach in failure. To compare calculated value and analysis value, it almost equal behavior in the elastic reign and can confirm effectiveness of analysis. Crack was distributed uniformly by reinforcement of fiber seat at failure and it do not occurred stiffness decreases.

  • PDF

미로 환경에서 최단 경로 탐색을 위한 실시간 강화 학습 (Online Reinforcement Learning to Search the Shortest Path in Maze Environments)

  • 김병천;김삼근;윤병주
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.155-162
    • /
    • 2002
  • 강화 학습(reinforcement teaming)은 시행-착오(trial-and-er개r)를 통해 동적 환경과 상호작용하면서 학습을 수행하는 학습 방법으로, 실시간 강화 학습(online reinforcement learning)과 지연 강화 학습(delayed reinforcement teaming)으로 분류된다. 본 논문에서는 미로 환경에서 최단 경로를 빠르게 탐색할 수 있는 실시간 강화 학습 시스템(ONRELS : Outline REinforcement Learning System)을 제안한다. ONRELS는 현재 상태에서 상태전이를 하기 전에 선택 가능한 모든 (상태-행동) 쌍에 대한 평가 값을 갱신하고 나서 상태전이를 한다. ONRELS는 미로 환경의 상태 공간을 압축(compression)하고 나서 압축된 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 실험을 통해 미로 환경에서 ONRELS는 TD -오류를 이용한 Q-학습과 $TD(\lambda{)}$를 이용한 $Q(\lambda{)}$-학습보다 최단 경로를 빠르게 탐색할 수 있음을 알 수 있었다.