• 제목/요약/키워드: Multi-Armed Bandit(MAB)

검색결과 3건 처리시간 0.017초

Opportunistic Spectrum Access Based on a Constrained Multi-Armed Bandit Formulation

  • Ai, Jing;Abouzeid, Alhussein A.
    • Journal of Communications and Networks
    • /
    • 제11권2호
    • /
    • pp.134-147
    • /
    • 2009
  • Tracking and exploiting instantaneous spectrum opportunities are fundamental challenges in opportunistic spectrum access (OSA) in presence of the bursty traffic of primary users and the limited spectrum sensing capability of secondary users. In order to take advantage of the history of spectrum sensing and access decisions, a sequential decision framework is widely used to design optimal policies. However, many existing schemes, based on a partially observed Markov decision process (POMDP) framework, reveal that optimal policies are non-stationary in nature which renders them difficult to calculate and implement. Therefore, this work pursues stationary OSA policies, which are thereby efficient yet low-complexity, while still incorporating many practical factors, such as spectrum sensing errors and a priori unknown statistical spectrum knowledge. First, with an approximation on channel evolution, OSA is formulated in a multi-armed bandit (MAB) framework. As a result, the optimal policy is specified by the wellknown Gittins index rule, where the channel with the largest Gittins index is always selected. Then, closed-form formulas are derived for the Gittins indices with tunable approximation, and the design of a reinforcement learning algorithm is presented for calculating the Gittins indices, depending on whether the Markovian channel parameters are available a priori or not. Finally, the superiority of the scheme is presented via extensive experiments compared to other existing schemes in terms of the quality of policies and optimality.

강화학습 기반 빌딩의 방별 조명 시스템 조도값 설정 기법 (Reinforcement Learning-Based Illuminance Control Method for Building Lighting System)

  • 김종민;김선용
    • 전기전자학회논문지
    • /
    • 제26권1호
    • /
    • pp.56-61
    • /
    • 2022
  • 전 세계적으로 에너지 사용량이 증가함에 따라 지구온난화와 같은 환경문제가 초래되었으며, 이에 각국은 협정·협약을 통한 에너지 산업의 탈탄소화와 함께 화석 에너지를 신재생에너지로 빠르게 전환 중이다. 발전량이 급변하는 신재생에너지 보급 확대에 따라 효율적인 에너지 관리의 필요성이 대두되는 한편, AI 기술이 발전함에 따라 에너지 관리 분야와 결합한 AI 기반 빌딩 에너지 관리 시스템(Building Energy Management System, BEMS)의 연구 및 개발이 활발히 이루어지고 있다. 본 논문에서는 강화학습 기법중 Multi-Armed Bandit(MAB) 알고리즘을 활용하여 빌딩 각 방의 조명시스템 전력사용량을 효율적으로 관리함과 동시에 사용자들의 불쾌지수를 최소화할 수 있는 알고리즘을 제안하고, 시뮬레이션을 통해 성능을 검증한다.

MEC 산업용 IoT 환경에서 경매 이론과 강화 학습 기반의 하이브리드 오프로딩 기법 (Hybrid Offloading Technique Based on Auction Theory and Reinforcement Learning in MEC Industrial IoT Environment)

  • 배현지;김승욱
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권9호
    • /
    • pp.263-272
    • /
    • 2023
  • 산업용 IoT는 대규모 연결을 통해 데이터 수집, 교환, 분석과 함께 산업 분야의 생산 효율성 개선에 중요한 요소이다. 그러나 최근 산업용 IoT의 확산으로 인해 트래픽이 폭발적으로 증가함에 따라 트래픽을 효율적으로 처리해줄 할당 기법이 필요하다. 본 논문에서는 산업용 IoT 환경에서 성공적인 태스크 처리율을 높이기 위한 2단계 태스크 오프로딩 결정 기법을 제안한다. 또한, 컴퓨팅 집약적인 태스크를 셀룰러 링크를 통해 이동 엣지 컴퓨팅(Mobile Edge Computing: MEC) 서버로 오프로드 하거나 D2D(Device to Device) 링크를 통해 근처의 산업용 IoT 장치로 오프로드 할 수 있는 하이브리드 오프로딩(Hybrid-offloading) 시스템을 고려한다. 먼저 1단계는 태스크 오프로딩에 참여하는 기기들이 이기적으로 행동하여 태스크 처리율 향상에 어려움을 주는 것을 방지하기 위해 인센티브 메커니즘을 설계한다. 메커니즘 디자인 중 McAfee's 메커니즘을 사용하여 태스크를 처리해주는 기기들의 이기적인 행동을 제어하고 전체 시스템 처리율을 높일 수 있도록 한다. 그 후 2단계에서는 산업용 IoT 장치의 불규칙한 움직임을 고려하여 비정상성(Non-stationary) 환경에서 멀티 암드 밴딧(Multi-Armed Bandit: MAB) 기반 태스크 오프로딩 결정 기법을 제안한다. 실험 결과로 제안된 기법이 기존의 다른 기법에 비해 전체 시스템 처리율, 통신 실패율, 후회 측면에서 더 나은 성능을 달성할 수 있음을 보인다.