• 제목/요약/키워드: reward function

검색결과 93건 처리시간 0.029초

공유 데이터베이스 시스템의 신뢰도 모델링 (Reliability Modeling of Shared Database System)

  • 노철우;김티나;강지형
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.189-192
    • /
    • 2005
  • 본 논문에서는 병렬 데이터베이스 아키텍처로 널리 사용되고 있는 공유 데이터베이스 시스템에 대하여 각 구성요소에 대한 고장을 고려한 신뢰도 모델을 모델링 한다. 각 구성요소인 데이터베이스, 메모리, 프로세서, 버스는 개별적으로 고장이 날 수 있으며, 복구 모델을 이용하여 복구 될 수 있다. 시스템이 동작하는 한 복구가 가능하며, 데이터베이스가 고장 나거나, 시스템 구성요소인 프로세서, 메모리, 버스가 하나라도 고장 나면 전체 시스템이 다운되는 것으로 가정한다. 이러한 고장 및 복구조건을 고려한 시스템의 신뢰도 분석을 페트리 네트의 확장 모델이며 모델링 기능이 풍부한 마르코프 reward 모델을 이용하여 수행한다. Stochastic Reward Net(SRN)이 갖고 있는 variable cardinality, enabling 함수, 시간천이 우선순위 등의 기능을 이용하여 신뢰도 모델을 개발한다.

  • PDF

RENEWAL AND RENEWAL REWARD THEORIES FOR T-INDEPENDENT FUZZY RANDOM VARIABLES

  • KIM, JAE DUCK;HONG, DUG HUN
    • Journal of applied mathematics & informatics
    • /
    • 제33권5_6호
    • /
    • pp.607-625
    • /
    • 2015
  • Recently, Wang et al. [Computers and Mathematics with Ap-plications 57 (2009) 1232-1248.] and Wang and Watada [Information Sci-ences 179 (2009) 4057-4069.] studied the renewal process and renewal reward process with fuzzy random inter-arrival times and rewards under the T-independence associated with any continuous Archimedean t-norm. But, their main results do not cover the classical theory of the random elementary renewal theorem and random renewal reward theorem when fuzzy random variables degenerate to random variables, and some given assumptions relate to the membership function of the fuzzy variable and the Archimedean t-norm of the results are restrictive. This paper improves the results of Wang and Watada and Wang et al. from a mathematical per-spective. We release some assumptions of the results of Wang and Watada and Wang et al. and completely generalize the classical stochastic renewal theorem and renewal rewards theorem.

보틀플리핑의 로봇 강화학습을 위한 효과적인 보상 함수의 설계 (Designing an Efficient Reward Function for Robot Reinforcement Learning of The Water Bottle Flipping Task)

  • 양영하;이상혁;이철수
    • 로봇학회논문지
    • /
    • 제14권2호
    • /
    • pp.81-86
    • /
    • 2019
  • Robots are used in various industrial sites, but traditional methods of operating a robot are limited at some kind of tasks. In order for a robot to accomplish a task, it is needed to find and solve accurate formula between a robot and environment and that is complicated work. Accordingly, reinforcement learning of robots is actively studied to overcome this difficulties. This study describes the process and results of learning and solving which applied reinforcement learning. The mission that the robot is going to learn is bottle flipping. Bottle flipping is an activity that involves throwing a plastic bottle in an attempt to land it upright on its bottom. Complexity of movement of liquid in the bottle when it thrown in the air, makes this task difficult to solve in traditional ways. Reinforcement learning process makes it easier. After 3-DOF robotic arm being instructed how to throwing the bottle, the robot find the better motion that make successful with the task. Two reward functions are designed and compared the result of learning. Finite difference method is used to obtain policy gradient. This paper focuses on the process of designing an efficient reward function to improve bottle flipping motion.

고속도로 자율주행 시 보상을 최대화하기 위한 강화 학습 활성화 함수 비교 (Comparison of Reinforcement Learning Activation Functions to Maximize Rewards in Autonomous Highway Driving)

  • 이동철
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.63-68
    • /
    • 2022
  • 자율주행 기술은 최근 심층 강화학습의 도입으로 큰 발전을 이루고 있다. 심층 강화 학습을 효과적으로 사용하기 위해서는 적절한 활성화 함수를 선택하는 것이 중요하다. 그 동안 많은 활성화 함수가 제시되었으나 적용할 환경에 따라 다른 성능을 보여주었다. 본 논문은 고속도로에서 자율주행을 학습하기 위해 강화 학습을 사용할 때 어떤 활성화 함수를 사용하는 것이 효과적인지 12개의 활성화 함수 성능을 비교 평가한다. 이를 위한 성능 평가 방법을 제시하였고 각 활성화 함수의 평균 보상 값을 비교하였다. 그 결과 GELU를 사용할 경우 가장 높은 평균 보상을 얻을 수 있었으며 SiLU는 가장 낮은 성능을 보여주었다. 두 활성화 함수의 평균 보상 차이는 20%였다.

하이퍼레저 패브릭을 이용한 화물차 디지털 운행기록 단말기의 안전운행 보상시스템 구현 (Development of The Safe Driving Reward System for Truck Digital Tachograph using Hyperledger Fabric)

  • 김용배;백주용;김종원
    • 인터넷정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.47-56
    • /
    • 2022
  • 본 논문의 안전운행 보상시스템은 안전운전을 수행한 차량운전자에게 직접적인 보상을 제공하여 안전운전의 동기를 부여하고 적극적 참여를 유도함으로써 사고의 발생을 줄여 생명과 재산의 손실을 줄이는데 목표가 있다. 기존의 디지털 운행기록계의 경우 차량의 운전상태를 기록만 하였으나, 안전운전보상시스템은 사고예방 효과를 높이기 위한 지원책으로서 안전운전을 수행한 경우 금전적 보상을 통해 위험운전을 피하고 안전운전을 하도록 유도하였다. 즉, 과속으로 인한 사고 발생 빈도가 높은 지역에서는 속도 준수, 또는 차 간 거리 유지, 지정차로 운행 등의 안전운행 지시를 수행한 경우 직접적인 보상을 제공함으로써 안전운전 동기를 부여하여 교통사고를 예방하고자 한다. 이러한 안전운행 데이터와 보상내용은 투명하고 안전하게 관리되어야 하므로 보상근거와 보상내용을 폐쇄형 블록체인 하이퍼레저 패브릭을 이용하여 구축하였다. 그러나 블록체인 시스템은 투명성과 안전성이 보장되는 반면에 낮은 데이터 처리속도가 문제가 되므로 이를 개선하고자 블록생성 가속 기능을 구현하였다. 본 연구에서는 순차적으로 블록을 생성하는 속도가 10TPS(Transaction per second) 내외의 낮은 속도를 나타내어, 블록의 생성속도를 높이기 위해 가속 기능을 적용한 결과 1,000TPS 이상의 고성능 네트워크를 구현하였다.

시각-언어 이동 에이전트를 위한 복합 학습 (Hybrid Learning for Vision-and-Language Navigation Agents)

  • 오선택;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권9호
    • /
    • pp.281-290
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이터에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델에서는 기존의 목표 기반 보상 함수들의 문제점을 해결하기 위해 설계된 새로운 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 제안 모델의 높은 성능을 입증하였다.

Affective Decision-Making among Preschool Children in Diverse Cultural Contexts

  • Qu, Li;Shan, Gao;Yip, Cindy;Li, Hong;Zelazo, Philip David
    • Child Studies in Asia-Pacific Contexts
    • /
    • 제2권2호
    • /
    • pp.123-132
    • /
    • 2012
  • The current study examined 3- and 4-year-olds' affective decision-making in a variety of cultural contexts by comparing European Canadian children to Chinese Canadian, Hong Kong Chinese, and mainland Chinese children (N = 245). All children were tested with a delay of gratification task in which children chose between an immediate reward of lower value and a delayed reward of higher value. Results showed that Chinese Canadian and Hong Kong Chinese children chose more delayed rewards than European Canadian children, with mainland Chinese children showing a trend toward more delayed rewards. Across cultures, 4-year-olds chose more delayed rewards than 3-year-olds; and among 4-year-olds, girls made more such choices than boys. The findings are consistent with previous findings that exposure to Chinese culture is associated with better cool executive function, but they also highlight the importance of examining development across diverse cultural contexts.

공 던지기 로봇의 정책 예측 심층 강화학습 (Deep Reinforcement Learning of Ball Throwing Robot's Policy Prediction)

  • 강영균;이철수
    • 로봇학회논문지
    • /
    • 제15권4호
    • /
    • pp.398-403
    • /
    • 2020
  • Robot's throwing control is difficult to accurately calculate because of air resistance and rotational inertia, etc. This complexity can be solved by using machine learning. Reinforcement learning using reward function puts limit on adapting to new environment for robots. Therefore, this paper applied deep reinforcement learning using neural network without reward function. Throwing is evaluated as a success or failure. AI network learns by taking the target position and control policy as input and yielding the evaluation as output. Then, the task is carried out by predicting the success probability according to the target location and control policy and searching the policy with the highest probability. Repeating this task can result in performance improvements as data accumulates. And this model can even predict tasks that were not previously attempted which means it is an universally applicable learning model for any new environment. According to the data results from 520 experiments, this learning model guarantees 75% success rate.

자율주행 자동차의 주차를 위한 강화학습 활성화 함수 비교 분석 (A Comparative Analysis of Reinforcement Learning Activation Functions for Parking of Autonomous Vehicles)

  • 이동철
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권6호
    • /
    • pp.75-81
    • /
    • 2022
  • 주차 공간의 부족함을 획기적으로 해결할 수 있는 자율주행 자동차는 심층 강화 학습을 통해 큰 발전을 이루고 있다. 심층 강화 학습에는 활성화 함수가 사용되는데, 그동안 다양한 활성화 함수가 제안되어 왔으나 적용 환경에 따라 그 성능 편차가 심했다. 따라서 환경에 따라 최적의 활성화 함수를 찾는 것이 효과적인 학습을 위해 중요하다. 본 논문은 자율주행 자동차가 주차를 학습하기 위해 심층 강화 학습을 사용할 때 어떤 활성화 함수를 사용하는 것이 가장 효과적인지 비교 평가하기 위해 강화 학습에 주로 사용되는 12개의 함수를 분석하였다. 이를 위해 성능 평가 환경을 구축하고 각 활성화 함수의 평균 보상을 성공률, 에피소드 길이, 자동차 속도와 비교하였다. 그 결과 가장 높은 보상은 GELU를 사용한 경우였고, ELU는 가장 낮았다. 두 활성화 함수의 보상 차이는 35.2%였다.

데이터베이스 시스템 신뢰도를 위한 페트리 네트 모델링 (Petri Net Modeling of Database System Reliability)

  • 노철우;김경민;김티나
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.315-319
    • /
    • 2005
  • 컴퓨터 시스템의 성능분석을 위하여 페트리 네트 기반 모델이 널리 사용되어 왔으나, 신뢰도와 가용도 분석을 위한 페트리 네트 모델링은 폭넓은 관심을 갖지 못했다. 본 논문에서는 페트리 네트를 이용한 데이터베이스 시스템의 신뢰도 분석과 모델링 기법에 대하여 논의한다. 공유 메모리(Shared Memory), 프로세서, 버스, 데이터베이스(디스크)의 구성요소를 갖는 고장감내형(fault-tolerant) 데이터 베이스 시스템의 신뢰도 분석을 위한 페트리 네트 모델을 개발한다. 각 구성요소에 대한 고장을 고려하며, 데이터베이스 시스템이 동작중일 조건은 데이터베이스가 동작하고 컴퓨터 구성요소인 프로세서, 메모리, 버스가 동작중인 경우로 한다. 각 구성요소는 개별적으로 고장이 날 수 있으며, 시스템이 동작하는 한 복구할 수 있다. 이러한 고장 및 복구 조건을 고려한 시스템의 신뢰도 분석을 페트리 네트의 확장 모델이며 모델링 기능이 풍부한 마르코프 reward 모델을 이용하여 수행한다. Stochastic Reward Net(SRN)이 갖고 있는 variable cardinality, enabling 함수, 시간천이 우선순위 등의 기능을 이용하여 신뢰도 모델을 개발하는 기법을 제시한다.

  • PDF