통합 검색 | Korea Science

김민경;황범석
- 응용통계연구
- /
- 제37권5호
- /
- pp.663-673
- /
- 2024
MAB (multi-armed bandits) 문제는 순차적 의사 결정 상황에서 나타나며, 동적인 환경 내에서 가능한 여러 행동 중 보상을 최대화할 수 있는 최적의 행동을 선택하는 데 중점을 둔다. 통계적 학습 이론의 맥락에서 MAB 문제를 해결하는 대표적인 알고리즘 중 하나인 톰슨 샘플링은 근사 기법을 적용하면 복잡한 상황에서도 유연하게 적용될 수 있다고 알려져 있다. 그러나 실제 상용 서비스 데이터를 이용한 연구는 부족한 상황이다. 본 연구에서는 대중적인 추천 시스템 환경 중 하나인 배너 클릭 데이터를 활용하여 여러 조건의 모의실험 환경에서 톰슨 샘플링에 다양한 근사 기법 적용 여부에 따른 성능을 평가하였다. 실험 결과, 랑주뱅 몬테 카를로 근사 기법을 적용한 톰슨 샘플링의 성능이 빅데이터 환경에서 기존 톰슨 샘플링과 유사한 성능을 보임을 확인하였다. 본 연구는 근사 기법을 적용한 톰슨 샘플링이 근사 기법의 고유한 장점을 가지면서도 기존 모형과 유사한 성능을 낼 수 있음을 실증 확인하였다는 점에 그 의의가 있다고 볼 수 있다.
https://doi.org/10.5351/KJAS.2024.37.5.663 인용 PDF

최상희;장형수
- 정보과학회 논문지
- /
- 제44권1호
- /
- pp.63-70
- /
- 2017
본 논문에서는 확률적 보상과 유효성을 갖고, 매 시간 유효한 arm들의 집합이 변하는 sleeping bandit 문제를 해결하는 다수의 전략들의 집합 ${\Phi}$가 주어졌을 때, 이들을 융합하는 문제를 고려하고, 이 문제를 해결하기 위한 융합 알고리즘 sleepComb(${\Phi}$)를 제안한다. 제안된 알고리즘인 sleepComb(${\Phi}$)는 확률적(stochastic) multi-armed bandit 문제를 해결하는 매개변수 기반 휴리스틱으로 잘 알려진 ${\epsilon}_t$-greedy의 확률적 스위칭 기법을 바탕으로 매 시간 적절한 전략을 선택하는 알고리즘이다. 시퀀스 {${\epsilon}_t$}와 전략들에 대한 적절한 조건이 주어졌을 때, 알고리즘 sleepComb(${\Phi}$)는 sleeping bandit 문제에 대해 적절히 정의된 "best" 전략으로 수렴한다. 실험을 통해 이 알고리즘이 "best" 전략으로 수렴한다는 사실을 확인하고, 기존의 다른 융합 알고리즘보다 "best" 전략으로 더 빠르게 수렴함과 "best" 전략을 선택하는 비율이 더 높음을 보인다.
https://doi.org/10.5626/JOK.2017.44.1.63 인용 KSCI