国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
强化学习 - ★★综合大作 成人学历 业(占比40%)
课程名称:强化学习 发布教师:卢艳君 作业来源:课程总结 作业满分:100.0分 发布时间:2025-07-06 作业要求:本次大作业占比40%,请根据本课程的学习内容认真答题。题型包括单选,多选,简答,以及实践编程。本次大作业着重考核大家对利用强化学习解决问题的方法掌握程度,从理论到实践进行全面考核。
单选题
1. Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报() (分值:5.0分)
A. 总和
B. 最大值
C. 最小值
D. 期望值
2. Q-learning算法中,Q函数是()。 (分值:5.0分)
A. 状态-动作值函数
国家开放大学 B. 状态函数
C. 估值函数
D. 奖励函数
3. 在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励。 (分值:5.0分)
A. 利用,探索
B. 探索,利用
C. 利用,输出
D. 探索,输出
4. 在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越() (分值:5.0分)
渝粤文库 A. 大,小
B. 大,大
C. 小,大
D. 小,小
5. 在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越(),采 广东开放大学 用当前Q函数最大动作的概率越()。 (分值:5.0分)
A. 小,小
B. 大,小
C. 大,大
D. 小,大
多选题
1. 强化学习包含的元素有()。 (分值:5.0分)
A. Reward
B. Agent
C. State
D. Action
简答题/计算题
渝粤教育1. Actor-Critic框架中的Cri 渝粤题库 tic起了什么作用? (分值:10.0分)
2. 请问DQN(Deep Q-Network)是什么?其两个关键性的技巧分别是什么?(每个问题5分) (分值:10.0分)
3. 请利用DDPG算法实现钟摆游戏Pendulum-v1,需要在答案区附上训练和测试曲线,包括训练时的奖励曲线图(20分)和测试时的奖励曲线区图(20分),并进行结果分析(10分)。 (分值:50.0分)
