mdp
POMDP
YeeKal
•
•
"#mdp"
----------------------------------------------------------------
不考虑动作 考虑动作
-----------------------------------------------------------------
状态可见 马尔科夫链(MC) 马尔可夫决策过程(MDP)
状态不完全可见 隐马尔可夫模型(HMM) 不完全可观察马尔可夫决策过程(POMDP)
-----------------------------------------------------------------
Partially Observable System
MDP中是寻找状态到动作的映射,而POMDP是寻找状态的的概率分布(probability distribution over states)到动作的映射。这一概率分布被成为belief state
. 首先belief是关于状态的概率分布,如果采取一个动作之后,会转移到下一个belief,这个转移也是一个关于动作和belief的概率分布,转移的结果belief-next又是新一轮的概率分布。
- 值函数 $V(b)$
决策规划求解:
- offline
- 基于点的值迭代
- PBVI
- FBVI
- Perseus
- 策略迭代
- 基于点的值迭代
- online
- POMCP
- DESPOT
ref
- project
- blog