• 제목/요약/키워드: 다중 슬롯머신

검색결과 2건 처리시간 0.02초

빅데이터 환경에서 다중 슬롯머신 문제에 대한 톰슨 샘플링 방법 (Thompson sampling for multi-armed bandits in big data environments)

  • 김민경;황범석
    • 응용통계연구
    • /
    • 제37권5호
    • /
    • pp.663-673
    • /
    • 2024
  • MAB (multi-armed bandits) 문제는 순차적 의사 결정 상황에서 나타나며, 동적인 환경 내에서 가능한 여러 행동 중 보상을 최대화할 수 있는 최적의 행동을 선택하는 데 중점을 둔다. 통계적 학습 이론의 맥락에서 MAB 문제를 해결하는 대표적인 알고리즘 중 하나인 톰슨 샘플링은 근사 기법을 적용하면 복잡한 상황에서도 유연하게 적용될 수 있다고 알려져 있다. 그러나 실제 상용 서비스 데이터를 이용한 연구는 부족한 상황이다. 본 연구에서는 대중적인 추천 시스템 환경 중 하나인 배너 클릭 데이터를 활용하여 여러 조건의 모의실험 환경에서 톰슨 샘플링에 다양한 근사 기법 적용 여부에 따른 성능을 평가하였다. 실험 결과, 랑주뱅 몬테 카를로 근사 기법을 적용한 톰슨 샘플링의 성능이 빅데이터 환경에서 기존 톰슨 샘플링과 유사한 성능을 보임을 확인하였다. 본 연구는 근사 기법을 적용한 톰슨 샘플링이 근사 기법의 고유한 장점을 가지면서도 기존 모형과 유사한 성능을 낼 수 있음을 실증 확인하였다는 점에 그 의의가 있다고 볼 수 있다.

삼목 게임에서 최상의 첫 수를 구하기 위해 적용된 신뢰상한트리 알고리즘 (The UCT algorithm applied to find the best first move in the game of Tic-Tac-Toe)

  • 이병두;박동수;최영욱
    • 한국게임학회 논문지
    • /
    • 제15권5호
    • /
    • pp.109-118
    • /
    • 2015
  • 고대 중국에서 기원된 바둑은 인공지능 분야에서 가장 어려운 도전 중의 하나로 간주된다. 지난 수년에 걸쳐 MCTS를 기반으로 하는 정상급 컴퓨터바둑 프로그램이 놀랍게도 접바둑에서 프로기사를 물리쳤다. MCTS는 게임이 끝날 때까지 일련의 무작위 유효착수를 시뮬레이션 하는 접근법이며, 기존의 지식기반 접근법을 대체했다. 저자는 MCTS의 변형인 UCT 알고리즘을 삼목 게임에 적용하여 최선의 첫 수를 찾고자 했으며, 순수 MCTS의 결과와 비교를 했다. 아울러 UCB 이해를 위한 다중슬롯머신 문제를 풀기 위해 엡실론-탐욕 알고리즘과 UCB 알고리즘을 소개 및 성능을 비교하였다.