iso file download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211353517.X (22)申请日 2022.11.01 (71)申请人 南京杰智易科技有限公司 地址 210001 江苏省南京市秦淮区永智路6 号南京白下高新技术产业开发区四号 楼A栋1101-28室 申请人 三明学院 (72)发明人 邱思杰 黄忠虎 贾鹏 马豪 伍坪 谢华 刘春明 纪联南 (74)专利代理 机构 成都睿道专利代理事务所 (普通合伙) 51217 专利代理师 廖敏 (51)Int.Cl. G08G 1/14(2006.01) G08G 1/0967(2006.01)G08G 1/0968(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 20/56(2022.01) (54)发明名称 一种基于深度强化学习的自动泊车方法和 系统 (57)摘要 本发明提供了一种基于深度强化学习的自 动泊车方法和系统, 包括构建初始评价者网络和 初始执行者网络; 基于状态的状态价值基线, 对 所述初始评价者网络和所述初始执行者网络进 行训练得到执行者网络; 获取车辆的当前图像; 获取当前车辆位置和车位位置; 将所述当前图 像、 所述当前车辆位置和所述车位位置输入所述 执行者网络, 所述执行者网络输出当前动作执行 策略; 车辆基于所述当前动作执行策略执行动 作, 并基于执行后的下一图像、 下一车辆位置和 所述车位位置获取下一动作执行策略, 直到车辆 完成自动泊车任务; 使用深度神经网络生成车辆 的控制指令, 通过评价者执行者算法完成对深度 神经网络的训练, 使得能更好 地实现自动泊车。 权利要求书3页 说明书10页 附图3页 CN 115472038 A 2022.12.13 CN 115472038 A 1.一种基于深度强化学习的自动泊车 方法, 其特 征在于, 包括: 构建初始评价 者网络和初始执 行者网络; 基于状态的状态价值基线, 对所述初始评价者网络和所述初始执行者网络进行训练得 到执行者网络; 其中, 训练得到执 行者网络, 包括: 基于动作执行策略的价值和所述状态价值基线, 构建所述初始执行者网络的收益梯 度; 其中, 构建所述收益梯度的公式为: 其中, 表示所述收益梯度; 表示累计收益; 表示动作奖励; 表示动 作奖励的折扣率; 表示车辆在t+1 时刻的状态价值基线; 表示车辆在 t时刻的状态价值基线; 表示在状态 的情况下执行动作 的样本动作执行 策略; 基于所述收益梯度, 更新所述初始执行者网络的网络参数, 直到所述收益梯度达到最 大值; 将得到最大值收益梯度时的初始执 行者网络作为训练好的执 行者网络; 获取车辆的当前图像; 所述当前图像包括车辆处于当前环境下的状态; 获取当前 车辆位置和车位 位置; 将所述当前图像、 所述当前车辆位置和所述车位位置输入所述执行者网络, 所述执行 者网络输出当前动作执 行策略; 车辆基于所述当前动作执行策略执行动作, 并基于执行后的下一图像、 下一车辆位置 和所述车位 位置获取 下一动作执 行策略, 直到车辆 完成自动泊车任务。 2.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 通过构建多 层数据结构, 得到所述初始评价 者网络和所述初始执 行者网络, 包括: 所述数据结构的第一层采用7*7的卷积 操作和最大池化操作; 所述数据结构的第二层采用残差模块进行 特征提取; 所述数据结构的第三层采用残差模块进行 特征提取; 所述数据结构的第四层采用残差模块进行 特征提取; 所述数据结构的第五层采用残差模块进行 特征提取; 所述数据结构的第六层采用平均池化操作。 3.根据权利要求1所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述训练得 到执行者网络, 包括: 将样本图像、 样本车辆位置和样本车位位置输入所述初始执行者网络, 所述初始执行 者网络输出样本动作执 行策略; 车辆基于所述样本动作执 行策略执行动作; 获取执行所述样本动作执 行策略的动作奖励;权 利 要 求 书 1/3 页 2 CN 115472038 A 2将所述样本 图像、 所述执行动作、 所述动作奖励和下一样本 图像作为训练样本并存入 经验池; 所述下一样本图像为执 行动作后得到的车辆环境的图像; 从所述经验 池中随机抽取训练样本; 将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络, 得到动 作执行策略的价 值和所述状态价 值基线; 基于所述动作 执行策略的价值和所述状态价值基线, 更新所述初始执行者网络和所述 初始评价 者网络的网络参数; 当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时, 得到训 练好的所述执 行者网络和评价 者网络。 4.根根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 更新所述 初始执行者网络的网络参数的公式为: 其中, 表示更新后的所述初始执行者网络的网络参数; 表示所述初始执行者网 络的网络参数; 表示所述初始执行者网络的学习率; 表示动作奖励的折扣率; 表示 所述动作执行策略 的价值; 表示所述状态价值基线; 表示所述被抽取的 训练样本的样本动作执 行策略; 更新所述初始评价 者网络的网络参数的公式为: 其中, 表示更新后的所述初始评价者网络的网络参数; 表示所述初始评 价者网 络的网络参数; 表示所述初始评价者网络的学习率; 表示所述动作执行策略的价值; 表示所述状态价 值基线; 表示所述被选取的训练样本的状态价 值基线。 5.根据权利要求3所述的基于深度强化学习的自动泊车方法, 其特征在于, 所述评价者 网络训练完成, 包括: 基于所述状态价 值基线, 构建所述初始评价 者网络的损失函数; 基于所述损 失函数, 更新所述初始评价者网络的网络参数, 直到所述损 失函数达到最 小值; 将得到最小值损失函数时的初始评价 者网络作为训练好的评价 者网络。 6.根据权利要求5所述的基于深度强化学习的自动泊车方法, 其特征在于, 构建所述损 失函数的公式为: 其中, 表示所述初始评价者网络在网络参数为 时的损失函数; 表示动 作奖励; 表示动作奖励的折扣率; 表示车辆在t+1时刻的状态价值基线; 表权 利 要 求 书 2/3 页 3 CN 115472038 A 3
专利 一种基于深度强化学习的自动泊车方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-02-18 22:24:44
上传分享
举报
下载
原文档
(781.4 KB)
分享
友情链接
GB-T 26765-2023 机动车安全技术检验业务信息系统及联网规范.pdf
CISSP AIO-9 中文.pdf
GB-T 42573-2023 信息安全技术 网络身份服务安全技术要求.pdf
GB-T 29673-2013 化妆品中六氯酚的测定 高效液相色谱法.pdf
GB-T 36561-2018 清洁节能热处理装备技术要求及评价体系.pdf
OWASP 软件保障成熟度模型 SAMM 2.0中文版.pdf
T-CMAX 116-01—2020 自动驾驶车辆道路测试能力评估内容与方法.pdf
GB-T 32917-2016 信息安全技术 WEB应用防火墙安全技术要求与测试评价方法.pdf
SY-T 7657.4-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第4部分:燃料电池法测定氢含量.pdf
GB-T 21052-2007 信息安全技术 信息系统物理安全技术要求.pdf
GB 17167-2006 用能单位能源计量器具配备和管理通则.pdf
GB 3096-2008_声环境质量标准.pdf
GB 50016-2012 建筑设计防火规范.pdf
等保三级-安全技术-应用系统.doc
GB-T 18337.3-2001 生态公益林建设 技术规程.pdf
AQ 2003-2018 轧钢安全规程.pdf
DB41-T 1047-2015 锅炉风机节能潜力评估导则 河南省.pdf
GB-T 3462-2017 钼条和钼板坯.pdf
DB22-T 3541-2023 日间手术中心护理质量安全管理规范 吉林省.pdf
民航 MH-T 0046-2014 民航重要信息系统灾难备份与恢复实施规范.pdf
1
/
17
评价文档
赞助3元 点击下载(781.4 KB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。