登录  注册

首页->公需课继续教育

直接策略的RL直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。()

(A)正确

(B)错误

参考答案
继续答题:下一题
微考学堂微考学社

更多公需课继续教育试题

考试