• 제목/요약/키워드: reward function

검색결과 93건 처리시간 0.028초

Matching Matrix를 사용하여 운전자와 승객의 관계를 반영한 강화학습 기반 유동적인 가격 책정 체계 (Dynamic Pricing Based on Reinforcement Learning Reflecting the Relationship between Driver and Passenger Using Matching Matrix)

  • 박준형;이찬재;윤영
    • 한국ITS학회 논문지
    • /
    • 제19권6호
    • /
    • pp.118-133
    • /
    • 2020
  • 최근 통합교통서비스(Mobility-as-a-Service)의 개념을 도입하여 이용자들의 이동성과 접근성을 향상시키고자 하는 연구가 진행되고 있다. 특히 카셰어링, 택시 등 에 대해 수요와 공급에 따라 지역을 구분하여 가격을 책정하는 유동적인 가격 책정 전략을 도입하여 단일 요금제가 가지는 서비스 기피 등의 문제를 해결함과 동시에 기업과 운전자들의 수익성에 긍정적인 영향을 줄 수 있을 것으로 기대되고 있다. 본 연구에서는 승객과 운전자간의 배차거리, 승객의 운행거리, 승객의 목적지에 대한 HDBSCAN 알고리즘을 통해서 정밀하게 인식된 수요 밀집지역, 승객과 운전자가 생각하는 선호가격을 고려하여 승객과 운전자의 입장에서 Matching Matrix를 생성한다. 이를 조합하고 보상에 반영하여, 강화학습이 더욱더 현실적인 유동적인 가격 책정전략을 도출할 수 있는 새로운 방법론을 제안한다.

PGA: An Efficient Adaptive Traffic Signal Timing Optimization Scheme Using Actor-Critic Reinforcement Learning Algorithm

  • Shen, Si;Shen, Guojiang;Shen, Yang;Liu, Duanyang;Yang, Xi;Kong, Xiangjie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권11호
    • /
    • pp.4268-4289
    • /
    • 2020
  • Advanced traffic signal timing method plays very important role in reducing road congestion and air pollution. Reinforcement learning is considered as superior approach to build traffic light timing scheme by many recent studies. It fulfills real adaptive control by the means of taking real-time traffic information as state, and adjusting traffic light scheme as action. However, existing works behave inefficient in complex intersections and they are lack of feasibility because most of them adopt traffic light scheme whose phase sequence is flexible. To address these issues, a novel adaptive traffic signal timing scheme is proposed. It's based on actor-critic reinforcement learning algorithm, and advanced techniques proximal policy optimization and generalized advantage estimation are integrated. In particular, a new kind of reward function and a simplified form of state representation are carefully defined, and they facilitate to improve the learning efficiency and reduce the computational complexity, respectively. Meanwhile, a fixed phase sequence signal scheme is derived, and constraint on the variations of successive phase durations is introduced, which enhances its feasibility and robustness in field applications. The proposed scheme is verified through field-data-based experiments in both medium and high traffic density scenarios. Simulation results exhibit remarkable improvement in traffic performance as well as the learning efficiency comparing with the existing reinforcement learning-based methods such as 3DQN and DDQN.

태평양전쟁 말기의 수인(囚人) 동원 연구(1943~1945) -형무소 보국대를 중심으로- (A Study on the Mobilization of Prisoners in the Late Wartime Period (1943~1945) -with a focus on the National Protection Corps of Prisoners-)

  • 이종민
    • 한일민족문제연구
    • /
    • 제33호
    • /
    • pp.67-111
    • /
    • 2017
  • This article aims to shed light on the wartime labor mobilization of prisoners on a large scale in/across colonial Korea and beyond during the late wartime period. More specifically, this article reveals the logic and mode of mobilization, and sorts out nationwide mobilization cases in colonial Korea. To this end, this article draws on documents and magazines published by the criminal administration of the Japanese Government-General of Korea, as well as the memoirs of prisoners and prison staff including prison administrators and prison chaplains. With the onset of the wartime system, the labor work in prisons centered on the production of military supplies. In 1943, the labor mobilization began to organize the National Protection Corps and dispatch them to remote workplaces. For example, at the requests of the military, prisoners were selected and sent to Hainan Island, while others were sent to military factories and mining fields in the northern part of the country. The authorities specified and adjusted the criteria for imprisonment based on education, physical strength, and other physical and mental conditions. Unconverted ideological offenders were excluded from the mobilization, and instead put under separate control. In preparation for mobilization, the prisoners trained in military drills, received Japanese language education, and underwent assimilation as imperial subjects through the preaching in prison. In order to induce prisoners to volunteer, a legislation system based on the shortening of the prison terms, including the parole system, was also promoted under the wartime system. As a result, prisoners were forced to work harder and faster even under the lowest of wages, poor food and poor housing conditions, and they also filled vacancies in managerial positions by serving as supervisory assistants. The reward system for them, however, did not function properly towards the end of the war, and the number of escapes and infectious outbreaks, as well as mortality rates rapidly increased under the harsh conditions.

데이터 기반 확률론적 최적제어와 근사적 추론 기반 강화 학습 방법론에 관한 고찰 (Investigations on data-driven stochastic optimal control and approximate-inference-based reinforcement learning methods)

  • 박주영;지승현;성기훈;허성만;박경욱
    • 한국지능시스템학회논문지
    • /
    • 제25권4호
    • /
    • pp.319-326
    • /
    • 2015
  • 최근들어, 확률론적 최적제어(stochastic optimal control) 및 강화학습(reinforcement learning) 분야에서는 데이터를 활용하여 준최적 제어 전략을 찾는 문제를 위한 많은 연구 노력이 있어 왔다. 가치함수(value function) 기반 동적 계획법(dynamic programming)으로 최적제어기를 구하는 고전적인 이론은 확률론적 최적 제어 문제를 풀기위해 확고한 이론적 근거 아래 확립된바 있다. 하지만, 이러한 고전적 이론은 매우 간단한 경우에만 성공적으로 적용될 수 있다. 그러므로, 엄밀한 수학적 분석 대신에 상태 전이 및 보상 신호 값 등의 관련 데이터를 활용하여 준최적해를 구하고자 하는 데이터 기반 현대적 접근 방법들은 실용적인 응용분야에서 특히 매력적이다. 본 논문에서는 확률론적 최적제어 전략과 근사적 추론 및 기계학습 기반 데이터 처리 방법을 접목하는 방법론들을 고려한다. 그리고 이러한 고려를 통하여 얻어진 방법론들을 금융공학을 포함한 다양한 응용 분야에 적용하고 그들의 성능을 관찰해보도록 한다.

무선 네트워크 환경에서의 효과적인 Quality of Protection(QoP) 평가 (Effective Evaluation of Quality of Protection(QoP) in Wireless Network Environments)

  • 김현승;임선희;윤승환;이옥연;임종인
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.97-106
    • /
    • 2008
  • Quality of Protection(QoP)은 보안을 제공해야 하는 네트워크들을 평가할 수 있는 기준을 제공하고, 해당 네트워크의 보안 정책에 대한 보안의 강도를 정량화하여 해당 네트워크 시스템의 안정성을 판단할 수 있도록 해준다. 현실적으로, 네트워크에서 적용되는 보안 메커니즘의 안전성과 시스템에서 지원되어야 하는 성능이 반드시 비례하는 것은 아니다. 그렇기 때문에 보안은 적절한 수준에서 적용되는 환경에 맞게 정의되어야 하며, 네트워크의 사용 목적에 맞는 보안 정책을 택하여 사용해야 한다. 무선 네트워크들이 발전함에 따라 안전한 무선네트워크 서비스를 제공하기 위해 다양한 보안 서비스들이 정의되고 있다. 본 논문에서는 무선 네트워크 환경에서의 적절한 보안 정책을 선택할 수 있도록 기존에 연구된 QoP모델의 효용함수 구성에 흐름 기반의 비정상 트래픽 탐지 알고리즘을 통해 객관적으로 구성한 HVM을 도입하고, 총 이익함수의 구성에 상대적 가중치를 도입함으로써 기존에 연구된 QoP모델의 취약점을 보완한다.

요양시설의 조직구성원의 임파워먼트가 직무만족에 미치는 영향에 관한 연구 (Study the impact on job satisfaction in the care facility of the empowerment of the members of the organization)

  • 김창태;곽경자
    • 경영과정보연구
    • /
    • 제31권4호
    • /
    • pp.57-82
    • /
    • 2012
  • 최근 우리나라 의료복지 분야는 인구의 고령화, 만성질환의 증가, 교통사고, 각종 산업재해, 약물 오 남용, 의학의 발달, 국가복지재정의 악화 등 다양한 환경변화에 둘러싸여 있으며, 새로운 형태의 의료복지와 관련된 새롭고 다양한 서비스 개발의 필요성이 부각되고 있다(조만복, 2010). 국가의 경제적 수준이 높아질수록 사회복지에 대한 사회적 관심은 증가하는 추세이나 복지에 대한 국가의 역할 축소와 사회복지정책에 민간참여의 확대 등 사회복지 여건의 변화는 요양시설 사회복지사들에게 시설서비스의 효과성과 효율성 제고를 위해 다양한 새로운 지식과 기술 습득, 그리고 스스로 최고의 성과를 달성하고자 노력하는 정신자세의 정립을 요구하고 있다. 요양시설에서 서비스 제공자인 사회복지사는 시설클라이언트의 삶의 질에 직접적인 영향을 미치며 서비스의 효과성에 매우 중요한 영향을 미치게 된다. 그러나 양질의 서비스 제공이라는 중요한 책무성을 지니는 장애인 및 노인요양시설은 조직 및 직무환경에 있어서 직원개발 기회의 부족, 조직보상체계의 미흡, 조직의 폐쇄성, 직원자율성의 결여, 전문성의 부족 등의 다양한 문제를 경험하고 있다(이문휘, 2007; 신현석, 2006; 박정양, 2003; 김철용, 2009). 본 연구는 실천현장에서 요양시설조직 내에서 요양시설 사회복지사의 임파워먼트 영향요인인 직무의 특성, 조직의 특성 요인에 대한 인식과 임파워먼트 수준 그리고 직무만족도에 관해서 알아보고 이러한 변인들이 사회인구학적 특성 변인별로 차이가 있는가에 대해서 살펴보고자 한다. 또한 요양시설 사회복지사의 임파워먼트에 미치는 영향력을 분석하고, 직무의 특성, 조직의 특성 그리고 임파워먼트 수준이 직무만족에 미치는 영향을 분석하는데 연구 목적이 있다.

  • PDF

농구 선수와 야구 선수의 기질 및 인지 기능의 비교 (Comparison of Temperament and Cognitive Function Between Basketball and Baseball Players)

  • 김건중;한덕현;김선미;오명진;유주형;이동민;민경준
    • 정신신체의학
    • /
    • 제31권2호
    • /
    • pp.134-141
    • /
    • 2023
  • 연구목적 과거 스포츠 선수의 신체, 기술적인 능력에 초점이 맞추어 훈련하던 경향과 더불어 최근 선수의 기질, 성격 그리고 인지 능력과 같은 심리적인 요소의 중요성에도 초점이 집중되고 있다. 본 연구에서는 성격 및 기질과 인지기능에 따라 선수들 및 일반인들 사이에서 차이가 있을 것으로 생각하였다. 더불어 차례가 정해져 있고 느린 템포의 경기를 하는 야구 선수와 빠른 템포의 경기를 하며 순간적인 판단을 자주하는 농구 선수 간의 기질과 인지 기능에도 차이가 있을 거라 예상했다. 방법 2023년 한해 동안 프로 농구팀에 소속되어 있는 선수 57명, 프로 야구팀에 소속되어 있는 선수 51명, 선수 생활을 해본 적 없는 일반인 44명을 대상으로 기질 및 성격 검사, 컴퓨터화된 신경인지 평가를 실시하였다. 세 군의 인구 특성, 기질 및 성격 특성, 인지 기능의 평균 차이를 일원분산분석을 사용하여 분석하였고 Bonferroni 사후검증을 실시하였다. 주전과 비주전 선수들간의 기질 및 성격, 인지 기능의 비교는 Mann-Whitney U test 를 사용하여 분석하였다. 결과 세 군간의 기질 비교에서, 보상의존, 지속성은 농구 선수와 야구 선수 그룹이 대조군에 비해서 높았다. 성격 검사에서는 자기지향성과 연대감은 농구 선수와 야구 선수 그룹에서 대조군보다 높았던 반면 자기초월은 농구와 야구 선수 그룹에서 대조군에 비해 낮았다. 농구 선수 그룹에서 주전 선수들은 비 주전 선수들에 비해서 자기지향성과 연대감의 점수가 높았다. 인지 능력 검사인, 감정지각 검사에서, 야구 선수와 농구 선수가 대조 군에 비하여 correction rate가 높았다. 심적회전 검사에서 농구 선수 그룹이 가장 correction rate가 높았고, 카드정렬 검사에서는 야구 선수와 농구 선수 그룹의 움직인 카드 횟수가 대조군에 비해 낮았다. 야구 선수와 농구 선수 그룹에서 주전 선수의 감정지각 검사 correction rate가 비 주전 선수에 비하여 높았다. 농구 선수 그룹에서 주전 선수의 심적회전 검사 correction rate가 비주전 선수에 비하여 높았다. 결론 이번 연구를 통해 프로 농구 및 야구 선수들과 일반인 간의 성격, 기질 그리고 인지 능력 차이를 비교하였다. 프로 선수들의 기질은 일반인과 비교하여 높은 보상의존과 지속성 경향성을 보였다. 성격에선 프로 선수가 일반인과 비교하여 자기지향성과 연대감 경향성이 높았지만 자기초월성 점수는 낮았다. 인지 능력 검사에서 감정지각 검사, 심적회전 검사, 카드정렬 검사 모두 운동 선수가 일반인보다 능력이 뛰어남을 알 수 있었다. 이러한 결과들은 프로 선수들이 성격, 기질 및 인지 능력 면에서 일반인과 차이가 있으며 이는 선수 육성과 지도 목표에 대해 중요한 정보를 제공하고 있다.

L-CAA : 행위 기반 강화학습 에이전트 구조 (L-CAA : An Architecture for Behavior-Based Reinforcement Learning)

  • 황종근;김인철
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.59-76
    • /
    • 2008
  • 본 논문에서는 실시간 동적 환경에 효과적인 L-CAA 에이전트 구조를 제안한다. L-CAA 에이전트 구조는 변화하는 환경에 대한 적응성을 높이기 위해, 선행 연구를 통해 개발된 행위기반 에이전트 구조인 CAA에 강화학습 기능을 추가하여 확장한 것이다. 안정적인 성능을 위해 L-CAA 구조에서는 행위 선택과 실행을 학습에 전적으로 의존하지 않고 학습을 보조적으로 이용한다. L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 적용 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화학습의 도움을 받아 이들 중에서 실행 할 하나의 행위를 선택한다. 즉, 강화학습을 통해 갱신된 각 행위들의 Q 함수값을 서로 비교함으로써, 가장 큰 기대 보상값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 본 논문에서는 L-CAA 구조의 효과를 분석하기 위해, 대표적인 동적 가상환경인 Unreal Tournament 게임에서 자율적으로 동작하는 L-CAA 기반의 에이전트를 구현하고, 이를 이용한 성능 실험을 전개해본다.

  • PDF

주거지 주변가로 Zone 30 구역 선정기준 및 운영방안 연구 (The Study on Choice Standard and Operation Method on Zone 30 in the Outskirts Street of Residential Area)

  • 심관보;고명수;조성근
    • 대한교통학회지
    • /
    • 제27권5호
    • /
    • pp.39-49
    • /
    • 2009
  • 본 연구는 현재의 보행자 보호구역 선정기준 문제점을 분석하여 현실에 맞는 기준 재정립에 관해 기술하였다. 구체적인 사항으로는 보행자 교통사고의 문제점에 대하여 통계자료를 기본으로 보행자 교통사고의 추이, 사고의 발생 유형, 행동유형 등을 종합적으로 분석하고 보행자 교통사고의 감소를 위한 대책으로 보행자 보호구역을 지정 운영하고 있는 국내 외의 사례를 활용하여 국내의 Zone30 구역 선정 기준을 도출하였다. 또한, 현장조사를 통해 교통량과 속도가 보행자 사고에 미치는 영향을 분석하여 정량적인 기준을 제시하였으며, 정량적 기준 외에 사고유형, 도로기능, 사고위치 등 보행자 교통사고 발생건수 등의 사고특성을 분석하여 기준을 제시하였다. 특히 교통사고의 통계자료를 활용하여 보행자 안전성에 역점을 두었다. 또한, Zone30 구역의 안전시설 설치에 관한 설치기준 및 운영방안의 체계적인 정립이 이루어지지 않아 각 지방 단위별로 일관성이 없고 혼란이 발생하여 Zone30 구역에 설치될 시설설치 표준지침 수립과 운영방안을 제시하였으며, Zone30 구역 교통운영별 시설물 배치도를 제시하여 설치기준을 제시하였다.

국내 공공 연구기관들의 기술이전 효율성 분석 (Measuring the Performance of Technology Transfer Activities of the Public Research Institutes in Korea)

  • 옥주영;김병근
    • 기술혁신연구
    • /
    • 제17권2호
    • /
    • pp.131-158
    • /
    • 2009
  • 각 의사결정단위(decision making unit: DMU)의 효율성을 추정하는 기법의 하나인 '확률적 프론티어 분석'(Stochastic Frontier Analysis)을 사용하여 국내 공공 연구기관에 소속된 기술이전조직의 기술이전 관련 활동들의 성과에 영향을 미치는 요인들의 효과를 분석하였다. 확률 프론티어 분석에서 독립변수들은 효율적 생산기술('생산 프론티어')에 직접 영향을 미치거나 생산 프론티어와 관측치의 거리로 표현되는 DMU의 효율성에 영향을 미치는 것으로 가정된다. 해외의 선행 연구에서는 인력, 연구개발비 등의 투입변수들은 생산 프론티어에 영향을 미치고, 그 밖의 환경 또는 조직 관련 변수들은 효율성에 영향을 미치는 것으로 가정되었다. 본 연구에서는 환경 및 조직변수들이 선행 연구의 영향 경로와 다른 방식으로 성과에 영향을 미치는지 여부를 밝히기 위해 여러 형태의 모형을 추정하였다. 본 연구에서 도출된 주요 결과는 다음과 같다. 첫째, 투입 요소 가운데 연구개발비가 성과의 증가에 가장 확실한 영향을 미치는 것으로 나타났다. 둘째, 기관유형, 기관의 소재 지역 등의 환경변수들이 성과에 영향을 미치는 것으로 나타났나. 셋째, 기술이전과 관련된 보상시스템 등의 일부 조직변수들이 성과에 영향을 미치는 것으로 나타났다. 넷째, 환경변수와 조직변수들은 DMU의 효율성에 영향을 주기 보다는 생산 프론티어에 직접 영향을 미치는 것으로 나타났다. 다섯째, 일부 모형에서는 거의 모든 DMU의 효율성이 1에 가까운 것으로 나타났는데 이는 효율성을 기준으로 공공 연구기관의 기술이전 활동성과를 평가하는 것은 효과적이지 못하다는 것을 시사한다. 본 연구의 결과는 추가적인 자료를 통해 보완되어야 한다. 또한 더욱 일반적인 생산함수 형태를 고려할 필요가 있으며 산출 거리함수 등의 개념을 이용하여 복수산출물의 경우까지 분석 범위를 확장할 필요가 있다.

  • PDF