• 제목/요약/키워드: Bandit problem

검색결과 8건 처리시간 0.015초

확률적 보상과 유효성을 갖는 Sleeping Bandits의 다수의 전략을 융합하는 기법 (Combining Multiple Strategies for Sleeping Bandits with Stochastic Rewards and Availability)

  • 최상희;장형수
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.63-70
    • /
    • 2017
  • 본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 ${\Phi}$가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(${\Phi}$)를 제안한다. 제안된 알고리즘인 sleepComb(${\Phi}$)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ${\epsilon}_t$-greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {${\epsilon}_t$}와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(${\Phi}$)는 sleeping bandit 문제에 대해 적절히 정의된 "best" 전략으로 수렴한다. 실험을 통해 이 알고리즘이 "best" 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 "best" 전략으로 더 빠르게 수렴함과 "best" 전략을 선택하는 비율이 더 높음을 보인다.

A Note on the Two Dependent Bernoulli Arms

  • 김달호;차영준;이재만
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권2호
    • /
    • pp.195-200
    • /
    • 2002
  • We consider the Bernoulli two-armed bandit problem. It is well known that the my optic strategy is optimal when the prior distribution is concentrated at two points in the unit square. We investigate several cases in the unit square whether the my optic strategy is optimal or not. In general, the my optic strategy is not optimal when the prior distribution is not concentrated at two points in the unit square.

  • PDF

Opportunistic Spectrum Access Based on a Constrained Multi-Armed Bandit Formulation

  • Ai, Jing;Abouzeid, Alhussein A.
    • Journal of Communications and Networks
    • /
    • 제11권2호
    • /
    • pp.134-147
    • /
    • 2009
  • Tracking and exploiting instantaneous spectrum opportunities are fundamental challenges in opportunistic spectrum access (OSA) in presence of the bursty traffic of primary users and the limited spectrum sensing capability of secondary users. In order to take advantage of the history of spectrum sensing and access decisions, a sequential decision framework is widely used to design optimal policies. However, many existing schemes, based on a partially observed Markov decision process (POMDP) framework, reveal that optimal policies are non-stationary in nature which renders them difficult to calculate and implement. Therefore, this work pursues stationary OSA policies, which are thereby efficient yet low-complexity, while still incorporating many practical factors, such as spectrum sensing errors and a priori unknown statistical spectrum knowledge. First, with an approximation on channel evolution, OSA is formulated in a multi-armed bandit (MAB) framework. As a result, the optimal policy is specified by the wellknown Gittins index rule, where the channel with the largest Gittins index is always selected. Then, closed-form formulas are derived for the Gittins indices with tunable approximation, and the design of a reinforcement learning algorithm is presented for calculating the Gittins indices, depending on whether the Markovian channel parameters are available a priori or not. Finally, the superiority of the scheme is presented via extensive experiments compared to other existing schemes in terms of the quality of policies and optimality.

강화학습 기반 빌딩의 방별 조명 시스템 조도값 설정 기법 (Reinforcement Learning-Based Illuminance Control Method for Building Lighting System)

  • 김종민;김선용
    • 전기전자학회논문지
    • /
    • 제26권1호
    • /
    • pp.56-61
    • /
    • 2022
  • 전 세계적으로 에너지 사용량이 증가함에 따라 지구온난화와 같은 환경문제가 초래되었으며, 이에 각국은 협정·협약을 통한 에너지 산업의 탈탄소화와 함께 화석 에너지를 신재생에너지로 빠르게 전환 중이다. 발전량이 급변하는 신재생에너지 보급 확대에 따라 효율적인 에너지 관리의 필요성이 대두되는 한편, AI 기술이 발전함에 따라 에너지 관리 분야와 결합한 AI 기반 빌딩 에너지 관리 시스템(Building Energy Management System, BEMS)의 연구 및 개발이 활발히 이루어지고 있다. 본 논문에서는 강화학습 기법중 Multi-Armed Bandit(MAB) 알고리즘을 활용하여 빌딩 각 방의 조명시스템 전력사용량을 효율적으로 관리함과 동시에 사용자들의 불쾌지수를 최소화할 수 있는 알고리즘을 제안하고, 시뮬레이션을 통해 성능을 검증한다.

A Heuristic Time Sharing Policy for Backup Resources in Cloud System

  • Li, Xinyi;Qi, Yong;Chen, Pengfei;Zhang, Xiaohui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3026-3049
    • /
    • 2016
  • Cloud computing promises high performance and cost-efficiency. However, most cloud infrastructures operate at a low utilization, which greatly adheres cost effectiveness. Previous works focus on seeking efficient virtual machine (VM) consolidation strategies to increase the utilization of virtual resources in production environment, but overlook the under-utilization of backup virtual resources. We propose a heuristic time sharing policy of backup VMs derived from the restless multi-armed bandit problem. The proposed policy achieves increasing backup virtual resources utilization and providing high availability. Both the results in simulation and prototype system experiments show that the traditional 1:1 backup provision can be extended to 1:M (M≫1) between the backup VMs and the service VMs, and the utilization of backup VMs can be enhanced significantly.

Trust-based Relay Selection in Relay-based Networks

  • Wu, Di;Zhu, Gang;Zhu, Li;Ai, Bo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권10호
    • /
    • pp.2587-2600
    • /
    • 2012
  • It has been demonstrated that choosing an appropriate relay node can improve the transmission rate for the system. However, such system improvement brought by the relay selection may be degraded with the presence of the malicious relay nodes, which are selected but refuse to cooperate for transmissions deliberately. In this paper, we formulate the relay selection issue as a restless bandit problem with the objective to maximize the average rate, while considering the credibility of each relay node, which may be different at each time instant. Then the optimization problem is solved by using the priority-index heuristic method effectively. Furthermore, a low complexity algorithm is offered in order to facilitate the practical implementations. Simulation results are conducted to demonstrate the effectiveness of the proposed trust-based relay selection scheme.

삼목 게임에서 최상의 첫 수를 구하기 위해 적용된 신뢰상한트리 알고리즘 (The UCT algorithm applied to find the best first move in the game of Tic-Tac-Toe)

  • 이병두;박동수;최영욱
    • 한국게임학회 논문지
    • /
    • 제15권5호
    • /
    • pp.109-118
    • /
    • 2015
  • 고대 중국에서 기원된 바둑은 인공지능 분야에서 가장 어려운 도전 중의 하나로 간주된다. 지난 수년에 걸쳐 MCTS를 기반으로 하는 정상급 컴퓨터바둑 프로그램이 놀랍게도 접바둑에서 프로기사를 물리쳤다. MCTS는 게임이 끝날 때까지 일련의 무작위 유효착수를 시뮬레이션 하는 접근법이며, 기존의 지식기반 접근법을 대체했다. 저자는 MCTS의 변형인 UCT 알고리즘을 삼목 게임에 적용하여 최선의 첫 수를 찾고자 했으며, 순수 MCTS의 결과와 비교를 했다. 아울러 UCB 이해를 위한 다중슬롯머신 문제를 풀기 위해 엡실론-탐욕 알고리즘과 UCB 알고리즘을 소개 및 성능을 비교하였다.

온라인 배너 광고 강화학습의 최적 탐색-활용 전략: 구전효과의 영향 (Optimal Exploration-Exploitation Strategies in Reinforcement Learning for Online Banner Advertising: The Impact of Word-of-Mouth Effects)

  • 김범수;유건재;이준겸
    • 서비스연구
    • /
    • 제14권2호
    • /
    • pp.1-17
    • /
    • 2024
  • 온라인 배너 광고 산업에서는 일반적으로 복수의 배너 대안이 제작된다. 이때 중요한 의사결정은 어떤 광고 배너 대안을 선택해서 고객에게 노출하느냐 하는 것이다. 각 배너 대안을 고객이 클릭할 확률을 미리 알 수 없기 때문에 경영자는 실험적으로 여러 대안을 노출한 후, 고객의 클릭 여부에 따라 각 대안의 클릭 확률을 추정하며 최적의 대안을 찾아야 하고 이것은 온라인 광고와 관련된 강화학습 프로세스이다. 이 과정에서의 주요 의사결정 문제는 축적된 추정 클릭 확률 지식을 이용해서 최적의 대안을 노출하는 활용 전략과, 잠재적으로 더 우수한 대안을 찾기 위해 새로운 대안을 시도해보는 탐색 전략의 최적 균형점을 찾는 것이다. 본 연구는 구전효과와 대안의 수가 이러한 최적 탐색-활용 전략에 미치는 영향을 분석하였다. 이는 고객이 노출된 배너를 클릭하는 경우 관련 제품을 주위에 홍보하는 과정을 통해 광고 배너의 클릭률이 높아지는 구전효과를 온라인 광고 관련 강화학습에 추가하여 구현한 것이다. 분석을 위해 Multi-Armed Bandit 모형을 이용한 시뮬레이션 기법을 사용하였다. 분석 결과, 구전효과의 크기가 커지고 배너 대안의 수가 적을수록 광고 강화학습의 최적 탐색 수준이 높아지는 것이 관측되었다. 이는 구전효과에 의해 고객이 광고 배너를 클릭할 확률이 증가함에 따라 기존에 축적했던 추정 클릭률 지식의 가치가 낮아지고, 따라서 새로운 대안을 탐색하는 것의 가치가 증가하기 때문으로 분석되었다. 또한 광고 대안의 수가 작을 경우에는 구전효과 크기가 커질 때 최적 탐색 수준이 더 큰 폭으로 증가하는 경향을 발견하였다. 최근 온라인 구전으로 인해 구전효과의 영향이 커지는 시점에서 본 연구는 의미 있는 시사점을 제공한다.