Chapter 3 : Bellman Equation


앞서 배운 MDP의 value function들 사이에는 어떠한 연관성이 있는데 그것을 식으로 나타낼 수 있습니다. 그것을 Bellman Equation이라 하며 다음 챕터의 Dynamic Programming의 기반이 됩니다.


1. Bellman Expectation Equation

2. Bellman Optimality Equation

results matching ""

    No results matching ""