登录  注册

首页->继续教育在线学习

在强化学习中,可以通过如下操作得到一个最优的策略( )

答:在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。
继续答题:下一题
微考学堂微考学社

更多继续教育在线学习试题