Point-Based Value Iteration for Constrained POMDPs

Kim, Dong-Ho;Lee, Jae-Song;Kim, Kee-Eung;Poupart, Pascal;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2011.06a
/
Pages.286-289
/
2011
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Point-Based Value Iteration for Constrained POMDPs

제약을 갖는 POMDP를 위한 점-기반 가치 반복 알고리즘

Kim, Dong-Ho (School of CS, Univ. of Waterloo) ;
Lee, Jae-Song (School of CS, Univ. of Waterloo) ;
Kim, Kee-Eung (School of CS, Univ. of Waterloo) ;
Poupart, Pascal (School of Computer Science University of Waterloo)

김동호 (한국과학기술원 전산학과) ;
이재송 (한국과학기술원 전산학과) ;
김기응 (한국과학기술원 전산학과) ;

Published : 2011.06.29

⟨ Previous Next ⟩

Abstract

제약을 갖는 부분 관찰 의사결정 과정(Constrained Partially Observable Markov Decision Process; CPOMDP)는 정책이 제약(constraint)를 만족하면서 가치 함수를 최적화하도록 일반적인 부분 관찰 의사결정과정(POMDP)을 확장한 모델이다. CPOMDP는 제한된 자원을 가지거나 여러 개의 목적 함수를 가지는 문제를 자연스럽게 모델링할 수 있기 때문에 일반적인 POMDP에 비해 더 실용적인 장점을 가진다. 본 논문에서는 CPOMDP의 확률적 최적 정책 및 근사 최적 정책을 계산할 수 있는 최적 및 근사 동적 프로그래밍 알고리즘을 제안한다. 최적 알고리즘은 동적 프로그래밍의 각 단계마다 미니맥스 이차 제약 계획 문제를 계산해야 하는 반면에 근사 알고리즘은 선형 계획 문제만을 필요로 하는 점-기반(point-based) 가치 업데이트를 이용한다. 실험 결과, 확률적 정책이 결정적(deterministic) 정책보다 더 나은 성능을 보이며, 근사 알고리즘을 통해 계산 시간을 줄일 수 있음을 보였다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Point-Based Value Iteration for Constrained POMDPs

제약을 갖는 POMDP를 위한 점-기반 가치 반복 알고리즘

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)