POMDP와 Exploration Bonus를 이용한 지역적이고 적응적인 QoS 라우팅 기법

A Localized Adaptive QoS Routing Scheme Using POMDP and Exploration Bonus Techniques

  • 한정수 (신구대학 인터넷정보과)
  • 발행 : 2006.03.01

초록

본 논문에서는 Localized Aptive QoS 라우팅을 위해 POMDP(Partially Observable Markov Decision Processes)와 Exploration Bonus 기법을 사용하는 방법을 제안하였다. 또한, POMDP 문제를 해결하기 위해 Dynamic Programming을 사용하여 최적의 행동을 찾는 연산이 매우 복잡하고 어렵기 때문에 CEA(Certainty Equivalency Approximation) 기법을 통한 기댓값 사용으로 문제를 단순하였으며, Exploration Bonus 방식을 사용해 현재 경로보다 나은 경로를 탐색하고자 하였다. 이를 위해 다중 경로 탐색 알고리즘(SEMA)을 제안했다. 더욱이 탐색의 횟수와 간격을 정의하기 위해 $\phi$와 k 성능 파라미터들을 사용하여 이들을 통해 탐색의 횟수 변화를 통한 서비스 성공률과 성공 시 사용된 평균 홉 수에 대한 성능을 살펴보았다. 결과적으로 $\phi$ 값이 증가함에 따라 현재의 경로보다 더 나은 경로를 찾게 되며, k 값이 증가할수록 탐색이 증가함을 볼 수 있다.

In this paper, we propose a Localized Adaptive QoS Routing Scheme using POMDP and Exploration Bonus Techniques. Also, this paper shows that CEA technique using expectation values can be simply POMDP problem, because performing dynamic programming to solve a POMDP is highly computationally expensive. And we use Exploration Bonus to search detour path better than current path. For this, we proposed the algorithm(SEMA) to search multiple path. Expecially, we evaluate performances of service success rate and average hop count with $\phi$ and k performance parameters, which is defined as exploration count and intervals. As result, we knew that the larger $\phi$, the better detour path search. And increasing n increased the amount of exploration.

키워드

참고문헌

  1. XYuan and A.Saifee, 'Path Selection Methods for Localized Quality of Service Routing', Technical Report, TR-010801, Dept of Computer Science, Florida State University, July, 2001
  2. Srihari Nelakuditi, Zhi-Li Zhang and Rose P.Tsang, 'Adaptive Proportional Routing: A Localized QoS Routing Approach', In IEEE Infocom, April 2000
  3. Srihari Nelakuditi, Zhi-Li Zhang, 'A Localized Adaptive Proportioning Approach to QoS Routing', IEEE Communications Magazine, June 2002
  4. Y.Liu, C.K. Tham and TCK. Hui, 'MAPS: A Localized and Distributed Adaptive Path Selection in MPLS Networks' in Proceedings of 2003 IEEE Workshop on High Performance Switching and Routing, Torino, Italy, June 2003, pp. 24-28
  5. Sutton, R.S. 'Learning to predict by the method of temporal differences' Machine Learning 3. 1988, pp. 9-44
  6. 한정수, 'TD($\lambda$)기법을 사용한 지역적이며 적응적인 QoS 라우팅 기법' 한국통신학회 제30권 제5B호 2005, pp304-9309
  7. Gregory Z. Grudic, Vijay Kumar, 'Using Policy Gradient Reinforcement Learning on Automous Robot Controllers', IROS03, Las Vagas, US, October, 2003
  8. Richard S. Sutton etc, 'Policy Gradient Methods for Reinforcement Learning with Function Approximation', Advances in Neural Information Processing System, pp. 10571063, MIT Press 2000
  9. S.Banerjee, R.K. Ghosh and A.P.K Reddy, 'Parallel algorithm for shortest pairs of edge-disjoint paths'