开大题库网

国家开放大学历年真题库|作业答案|复习资料一站式下载平台

2025秋江苏开放大学强化学习★★综合大作业(占比40%)

分类: 上海开放大学 时间:2025-09-10 15:28:30 浏览:47次 评论:0
摘要:强化学习 - ★★综合大作业(占比40%) 课程名称:强化学习 发布教师:卢艳君 作业来源:课程总结 作业满分:100.0分 发布时间:2025-07-06 作业要求:本次大作业占比40%,请根据本课程的学习内容认真答题。题型包括单选,多选,简答,以及实践编程。本次大作业着重考核大家对利用强化学习解决问题的方法掌握程度,从理论到实践进行全面考核。
国家开放大学作业考试答案

想要快速找到正确答案?

立即关注 国开搜题微信公众号,轻松解决学习难题!

国家开放大学
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

强化学习 - ★★综合大作 成人学历 业(占比40%)

课程名称:强化学习 发布教师:卢艳君 作业来源:课程总结 作业满分:100.0分 发布时间:2025-07-06 作业要求:本次大作业占比40%,请根据本课程的学习内容认真答题。题型包括单选,多选,简答,以及实践编程。本次大作业着重考核大家对利用强化学习解决问题的方法掌握程度,从理论到实践进行全面考核。

单选题

1. Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报() (分值:5.0分)

A. 总和

B. 最大值

C. 最小值

D. 期望值

2. Q-learning算法中,Q函数是()。 (分值:5.0分)

A. 状态-动作值函数

国家开放大学 B. 状态函数

C. 估值函数

D. 奖励函数

3. 在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励。 (分值:5.0分)

A. 利用,探索

B. 探索,利用

C. 利用,输出

D. 探索,输出

4. 在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越() (分值:5.0分)

渝粤文库 A. 大,小

B. 大,大

C. 小,大

D. 小,小

5. 在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越(),采 广东开放大学 用当前Q函数最大动作的概率越()。 (分值:5.0分)

A. 小,小

B. 大,小

C. 大,大

D. 小,大

多选题

1. 强化学习包含的元素有()。 (分值:5.0分)

A. Reward

B. Agent

C. State

D. Action

简答题/计算题

渝粤教育

1. Actor-Critic框架中的Cri 渝粤题库 tic起了什么作用? (分值:10.0分)

2. 请问DQN(Deep Q-Network)是什么?其两个关键性的技巧分别是什么?(每个问题5分) (分值:10.0分)

3. 请利用DDPG算法实现钟摆游戏Pendulum-v1,需要在答案区附上训练和测试曲线,包括训练时的奖励曲线图(20分)和测试时的奖励曲线区图(20分),并进行结果分析(10分)。 (分值:50.0分)

文章目录


    相关文章
    评论留言请发表您的神机妙论……

    昵称

    邮箱

    地址

    私密评论
    评论列表(共有0条评论)