(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211014856.5
(22)申请日 2022.08.23
(71)申请人 太原科技大 学
地址 030000 山西省太原市万柏林区瓦流
路66号
(72)发明人 荀亚玲 王林青 宋婷 史静
(74)专利代理 机构 太原高欣科创专利代理事务
所(普通合伙) 14109
专利代理师 孟肖阳 冷锦超
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/23(2019.01)
G06F 16/2455(2019.01)
G06F 9/50(2006.01)
(54)发明名称
基于Spar k平台的工业时序数据相关性分析
方法
(57)摘要
本发明提供了基于Spark平台的工业时序数
据相关性分析方法, 属于大数据挖掘技术领域;
所要解决的技术问题为: 提供基于Spark平台的
工业时序数据相关性分析方法的改进; 解决该技
术问题采用的技术方案为: 包括如下步骤: 将原
始数据集转化为RDD并分到不同组中; 每个组采
用MS‑Ecalt算法得到该组的频繁部分周期模式
集, 将不同的挖掘结果合并得到增量结果
incrementalResult (<m,itemsets,ps,sup,
weight,dr,apr>) 并通过PW ‑MinLSH计算各模式
间的相关性, 得到更新后的相关部分周期模式集
RDD, 通过所设定的阈值筛选出满足要求的相关
部分周期模式集, 挖掘过程结束; 本发明应用于
工业时序数据 挖掘。
权利要求书2页 说明书7页 附图3页
CN 115455075 A
2022.12.09
CN 115455075 A
1.基于Spark平台的工业时序数据相关性分析 方法, 其特 征在于: 包括如下步骤:
S1: 将原始数据集 转化为RDD并分到不同组中;
S2: 对不同的分组分别使用MS ‑Ecalt算法得到各组的频繁 部分周期模式集RD D;
S3: 将不同分组的频繁部分周期模式集合并产生候选集信息RDD, 得到原始数据集频繁
部分周期模 式集RDD, 再使用PW ‑MinLSH计算出各模 式件的相关性以及各Hash Bucket的标
签并获得 各Hash Bucket内相关部分周期模式集, 记为原结果;
S4: 将新增数据集 转换为RD D并分到不同的组;
S5: 使用MS ‑Ecalt算法得到新增各组的频繁部分周期模式集RDD并使用PW ‑MinLSH计算
出各Hash Bucket的标签并获得各Hash Bucket内相关部分周期模 式集, 记为增量结果, 通
过Hash Bucket标签, 将原结果与增量结果按照增量更新策略合并, 得到更新后的相关部 分
周期模式集RDD, 通过所设定的阈值筛选出满足要求的相关部分周期模式集, 实现增量挖
掘。
2.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 所述S1具体包括:
S1.1: 基于Spark平台并行设置多个工序, 每个工序包含一个传感器组, 每个传感器组
包含n个传感器来 实时反馈工序中各项 数据, 将每个传感器看成一个节点, 在工作 站中配置
n个计算节点, 分别记为C M1, CM2,…, CMn, 产生数据记为初始数据集;
S1.2: 通过textFile读取各初始数据集 并转化为RDD, 并划分到不同组中, 在Spark作业
运行过程中, 通过RD D申请流程和RDD驱逐制度进行初始数据集 不同组的实时划分。
3.根据权利要求2所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 所述步骤S1.2中RD D申请流程的步骤如下:
申请堆上Storage内存, 判断申请内存是否大于可用内存, 当申请内存小于可用内存
时, 则申请成功, 分配内存;
当申请内存大于可用内存时, 先驱逐堆上块, 释放足够内存, 然后判断堆下空间是否大
于释放内存, 当堆下 空间大于释放内存时, 则修改堆上对象, 数据存入堆下, 释放内存空间,
并更新可用内存, 当堆下空间小于释放内存时, 先判断useDisk的值是否为True, 当useDisk
的值为True时, 序列化存入磁盘, 删除堆上对象, 释放内存空间, 更新可用内存, 当useDisk
的值不为True时, 删除堆上对象, 释放内存空间, 更新可用内存。
4.根据权利要求2所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 所述步骤S1.2中RD D驱逐制度如下:
通过确定当前检查点以及任务的完成情况来决定是否缓存到本地内存, 对于检查点以
前的RDD和任务成功提交的情况不进行缓存;
检查点判断: 在逻辑上位于检查点前的RDD不再具有缓存价值, 通过RDD的依赖关系, 来
确定缓存的数据块与检查 点RDD的传代关系, 确定当前RD D是否拥有子检查 点;
所属Task判断: 当一个RDD的所有分区都属于已完成的任务时, 确定这个RDD已经不需
要再被缓存;
空间不足时的策略: 由于未使用持久化函数来修改存储等级, 在非堆空间不足时会优
先清除这部分缓存RD D。
5.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在权 利 要 求 书 1/2 页
2
CN 115455075 A
2于: 所述步骤S2中对每个组采用MS ‑Ecalt算法得到该组的频繁部分周 期模式集的挖掘结
果, 其中MS ‑Ecalt算法的挖掘步骤如下:
S2.1: 遍历一次数据库, 将水平数据格式转换为垂直数据格式, 根据模式X出现位置的
时间戳, 得到相应的周期出现集合, 记为
, 通过比较集合内的各个元素, 若有 元素值超
过所设定 的
, 该元素为无效的周期出现, 从集合内删除, 重复上述步骤, 直至
中所有元 素均不超过
, 最终获得的集 合记为
;
S2.2: 计算
集合的模长, 模长即为模式对应的周期值, 记为
, 若
的值超过所设定的
, 则称模式X为频繁的部分周期模式, 模式X的长度为k, 称
为频繁k模式;
S2.3: 通过取频繁k模式 的TID集的交集, 计算对应的k+1项集, 根据步骤S2.1 ‑S2.2判断
是否为频繁 部分周期模式;
S2.4: 重复步骤S2.1 ‑S2.3, 直至挖掘出 各工序内所有的频繁 部分周期模式。
6.根据权利要求5所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 所述步骤S3具体步骤如下:
S3.1: 利用挖掘出频繁部分周期模式 的部分周期值 (PS) 、 支持度 (sup) 、 权重 (weight) 、
稠密率 (dr) 和 平均周期率 (apr) 建初始矩阵Input Matrix (IM) 将IM进行t次随即置换后得
到的矩阵称为Signature Matrix (SM) ;
S3.2: 将SM水平分割成一些区块, 记为band, 每 个band包 含了SM中的r行;
S3.3: 对于每个band, 计算hash值并处理, 使hash值成为事先设定好的Hash Bucket的
tag, 然后把每 个band与Hash Bucket进行匹配;
S3.4: 计算两个band所对应的模式映射到同一Hash Bucket中的概率, 从而得到相关
部分周期模式 (Relevant Partial Periodic Pattern) 。
7.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 所述步骤S5中的增量更新策略为:
当增量数据到来时, 将增量数据集转换为RDD并分到对应组中, 利用步骤S1 ‑S4挖掘出
增量数据中的相关部分周期模式, 算得增量数据中各模式所对应得Hash Bucket, 将原始数
据和增量数据根据所对应Hash Bucket值相同的桶进行合并, 获得最终更新后的结果, 实现
增量挖掘。
8.根据权利要求7所述的基于Spark平台的工业时序数据相关性分析方法, 其特征在
于: 原始数据和增量数据根据所对应Hash Bucket值相同的桶进行合并中会出现以下两种
情况:
模式相同, 对于模式相同这种结果, 只需要将各参数信息更新即可, 无需其 他操作;
模式不同, 对于模式不同这种结果, 只需将其看成新的模式, 无需更新 参数信息 。权 利 要 求 书 2/2 页
3
CN 115455075 A
3
专利 基于Spark平台的工业时序数据相关性分析方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:16上传分享