专利 一种基于强化学习的云服务高可用决策方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211402148.9 (22)申请日 2022.11.10 (71)申请人军事科学院系统工程研究院网络信息研究所地址 100141 北京市丰台区大成路13号院 (72)发明人谢永强　李忠博　齐锦　李少南　霍启正　 (74)专利代理机构中国和平利用军工技术协会专利中心 1 1215 专利代理师周玄 (51)Int.Cl. H04L 67/1008(2022.01) H04L 67/10(2022.01) G06N 3/08(2006.01) (54)发明名称一种基于强化学习的云服务高可用决策方法 (57)摘要本公开提出一种基于强化学习的云服务高可用决策方法，涉及云服务技术领域。本公开利用智能体对云服务系统的工作状态进行检测并能在云服务器异常时自主做出相应的动作以恢复服务状态；解决了云服务器中高可用机制不能动态适用网络状态的问题，突破了云服务器智能化维护高可用的能力。权利要求书2页说明书6页附图2页 CN 115460217 A 2022.12.09 CN 115460217 A 1.一种基于强化学习的云服务高可用决策方法，其特征在于，所述方法包括：步骤S1、从当前时刻的云环境中获取云服务器的第一状态空间，所述第一状态空间包括所述当前时刻的云环境下所述云服务器的物理参数向量；步骤S2、通过将所述第一状态空间输入至智能体确定所述云服务器的第一动作空间，所述第一动作空间包括基于所述当前时刻的云环境确定的所述云服务器的调整策略；步骤S3、在下一时刻基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态后，从所述下一时刻的云环境中获取所述云服务器的第二状态空间；步骤S4、将所述第二状态空间输入至智能体，所述智能体基于所述第二状态空间对所述第一动作空间限定的调整策略进行评分，利用评分结果和所述第二状态空间确定所述云服务器的第二动作空间。 2.根据权利要求1所述的一种基于强化学习的云服务高可用决策方法，其特征在于：所述云环境包括若干网络设备、若干云终端、云服务器、若干云服务以及存储的历史数据，所述云环境变化时，所述云服务器的物理参数随之发生变化；所述第一状态空间包括所述云服务器在所述当前时刻的带宽占用率、 CPU占用率、系统延迟、内存占用量和网络质量评分；所述第二状态空间包括所述云服务器在所述下一时刻的带宽占用率、 CPU占用率、系统延迟、内存占用量和网络质量评分。 3.根据权利要求1所述的一种基于强化学习的云服务高可用决策方法，其特征在于，在所述步骤S2和/或所述步骤S4中，所述智能体在确定动作空间时，从若干调整策略中选择至少一个调整策略，并将选择的调整策略对应的向量位的值置1，其他调整策略对应的向量位的值置0，从而获取由所述智能体确定的动作空间，其中所述若干调整策略包括无操作、服务迁移、启动容灾、改变心跳和异地备份。 4.根据权利要求3所述的一种基于强化学习的云服务高可用决策方法，其特征在于，所述智能体包括决策模块、评分模块和由Q表和卷积网络构成的记忆模块；在所述步骤S2中：所述第一状态空间被输入至所述卷积网络，所述卷积网络基于所述第一状态空间输出对所述云服务器在所述当前时刻的工作状态的判别结果，所述决策模块基于所述判别结果确定对应的调整策略，以形成所述第一动作空间。 5.根据权利要求4所述的一种基于强化学习的云服务高可用决策方法，其特征在于，在所述步骤S3中：当所述第一动作空间限定的调整策略为所述无操作时，表征所述云服务器在所述当前时刻的工作状态良好，直接在所述下一时刻获取所述第二状态空间；当所述第一动作空间限定的调整策略不为所述无操作时，表征所述云服务器在所述当前时刻的工作状态异常，则基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态，随后在所述下一时刻获取所述第二状态空间。 6.根据权利要求5所述的一种基于强化学习的云服务高可用决策方法，其特征在于，在所述步骤S4中：所述评分模块判断所述第二状态空间中所述下一时刻的带宽占用率、 CPU占用率、系统延迟、内存占用量和网络质量评分是否在期望范围内，并根据判断结果对所述第一动作空间限定的调整策略进行评分，所述评分结果和所述第二状态空间均被输入至所述卷积网权　利　要　求　书 1/2 页 2 CN 115460217 A 2络；所述卷积网络基于所述评分结果和所述第二状态空间输出对所述云服务器在所述下一时刻的工作状态的判别结果，所述决策模块基于所述下一时刻的工作状态的判别结果确定对应的调整策略，以形成所述第二动作空间。 7.根据权利要求6所述的一种基于强化学习的云服务高可用决策方法，其特征在于：当所述第二动作空间限定的调整策略为所述无操作时，表征所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态良好，则无需进一步调整所述云服务器的工作状态；当所述第二动作空间限定的调整策略不为所述无操作时，所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态仍为异常，则基于所述第二动作空间限定的调整策略调整所述云服务器的工作状态；通过不断获取状态空间、确定动作空间、调整所述云服务器的工作状态，使得所述云服务器的工作状态从异常恢复为良好，且每隔固定时间间隔重新获取所述云服务器的状态空间，以检测所述云服务器是否需要调整工作状态。 8.根据权利要求7所述的一种基于强化学习的云服务高可用决策方法，其特征在于，所述判断结果和所述评分结果被存储在所述Q表中，以用于实时或每隔所述固定时间间隔训练所述卷积网络，通过不断调整所述调整策略，形成不同的动作空间，获取不同的判断结果，来确定最优的评分结果，以不断优化所述卷积网络。权　利　要　求　书 2/2 页 3 CN 115460217 A 3

专利 一种基于强化学习的云服务高可用决策方法

专利一种基于强化学习的云服务高可用决策方法