专利 基于Spark平台的工业时序数据相关性分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211014856.5 (22)申请日 2022.08.23 (71)申请人太原科技大学地址 030000 山西省太原市万柏林区瓦流路66号 (72)发明人荀亚玲　王林青　宋婷　史静　 (74)专利代理机构太原高欣科创专利代理事务所(普通合伙) 14109 专利代理师孟肖阳　冷锦超 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/23(2019.01) G06F 16/2455(2019.01) G06F 9/50(2006.01) (54)发明名称基于Spar k平台的工业时序数据相关性分析方法 (57)摘要本发明提供了基于Spark平台的工业时序数据相关性分析方法，属于大数据挖掘技术领域；所要解决的技术问题为：提供基于Spark平台的工业时序数据相关性分析方法的改进；解决该技术问题采用的技术方案为：包括如下步骤：将原始数据集转化为RDD并分到不同组中；每个组采用MS‑Ecalt算法得到该组的频繁部分周期模式集，将不同的挖掘结果合并得到增量结果 incrementalResult （<m,itemsets,ps,sup, weight,dr,apr>）并通过PW ‑MinLSH计算各模式间的相关性，得到更新后的相关部分周期模式集 RDD，通过所设定的阈值筛选出满足要求的相关部分周期模式集，挖掘过程结束；本发明应用于工业时序数据挖掘。权利要求书2页说明书7页附图3页 CN 115455075 A 2022.12.09 CN 115455075 A 1.基于Spark平台的工业时序数据相关性分析方法，其特征在于：包括如下步骤： S1：将原始数据集转化为RDD并分到不同组中； S2：对不同的分组分别使用MS ‑Ecalt算法得到各组的频繁部分周期模式集RD D； S3：将不同分组的频繁部分周期模式集合并产生候选集信息RDD，得到原始数据集频繁部分周期模式集RDD，再使用PW ‑MinLSH计算出各模式件的相关性以及各Hash Bucket的标签并获得各Hash Bucket内相关部分周期模式集，记为原结果； S4：将新增数据集转换为RD D并分到不同的组； S5：使用MS ‑Ecalt算法得到新增各组的频繁部分周期模式集RDD并使用PW ‑MinLSH计算出各Hash Bucket的标签并获得各Hash Bucket内相关部分周期模式集，记为增量结果，通过Hash Bucket标签，将原结果与增量结果按照增量更新策略合并，得到更新后的相关部分周期模式集RDD，通过所设定的阈值筛选出满足要求的相关部分周期模式集，实现增量挖掘。 2.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：所述S1具体包括： S1.1：基于Spark平台并行设置多个工序，每个工序包含一个传感器组，每个传感器组包含n个传感器来实时反馈工序中各项数据，将每个传感器看成一个节点，在工作站中配置 n个计算节点，分别记为C M1， CM2，…， CMn，产生数据记为初始数据集； S1.2：通过textFile读取各初始数据集并转化为RDD，并划分到不同组中，在Spark作业运行过程中，通过RD D申请流程和RDD驱逐制度进行初始数据集不同组的实时划分。 3.根据权利要求2所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：所述步骤S1.2中RD D申请流程的步骤如下：申请堆上Storage内存，判断申请内存是否大于可用内存，当申请内存小于可用内存时，则申请成功，分配内存；当申请内存大于可用内存时，先驱逐堆上块，释放足够内存，然后判断堆下空间是否大于释放内存，当堆下空间大于释放内存时，则修改堆上对象，数据存入堆下，释放内存空间，并更新可用内存，当堆下空间小于释放内存时，先判断useDisk的值是否为True，当useDisk 的值为True时，序列化存入磁盘，删除堆上对象，释放内存空间，更新可用内存，当useDisk 的值不为True时，删除堆上对象，释放内存空间，更新可用内存。 4.根据权利要求2所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：所述步骤S1.2中RD D驱逐制度如下：通过确定当前检查点以及任务的完成情况来决定是否缓存到本地内存，对于检查点以前的RDD和任务成功提交的情况不进行缓存；检查点判断：在逻辑上位于检查点前的RDD不再具有缓存价值，通过RDD的依赖关系，来确定缓存的数据块与检查点RDD的传代关系，确定当前RD D是否拥有子检查点；所属Task判断：当一个RDD的所有分区都属于已完成的任务时，确定这个RDD已经不需要再被缓存；空间不足时的策略：由于未使用持久化函数来修改存储等级，在非堆空间不足时会优先清除这部分缓存RD D。 5.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法，其特征在权　利　要　求　书 1/2 页 2 CN 115455075 A 2于：所述步骤S2中对每个组采用MS ‑Ecalt算法得到该组的频繁部分周期模式集的挖掘结果，其中MS ‑Ecalt算法的挖掘步骤如下： S2.1：遍历一次数据库，将水平数据格式转换为垂直数据格式，根据模式X出现位置的时间戳，得到相应的周期出现集合，记为，通过比较集合内的各个元素，若有元素值超过所设定的，该元素为无效的周期出现，从集合内删除，重复上述步骤，直至中所有元素均不超过，最终获得的集合记为； S2.2：计算集合的模长，模长即为模式对应的周期值，记为，若的值超过所设定的，则称模式X为频繁的部分周期模式，模式X的长度为k，称为频繁k模式； S2.3：通过取频繁k模式的TID集的交集，计算对应的k+1项集，根据步骤S2.1 ‑S2.2判断是否为频繁部分周期模式； S2.4：重复步骤S2.1 ‑S2.3，直至挖掘出各工序内所有的频繁部分周期模式。 6.根据权利要求5所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：所述步骤S3具体步骤如下： S3.1：利用挖掘出频繁部分周期模式的部分周期值（PS）、支持度（sup）、权重（weight）、稠密率（dr）和平均周期率（apr）建初始矩阵Input Matrix （IM）将IM进行t次随即置换后得到的矩阵称为Signature Matrix （SM）； S3.2：将SM水平分割成一些区块，记为band，每个band包含了SM中的r行； S3.3：对于每个band，计算hash值并处理，使hash值成为事先设定好的Hash Bucket的 tag，然后把每个band与Hash Bucket进行匹配； S3.4：计算两个band所对应的模式映射到同一Hash Bucket中的概率，从而得到相关部分周期模式（Relevant Partial Periodic Pattern）。 7.根据权利要求1所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：所述步骤S5中的增量更新策略为：当增量数据到来时，将增量数据集转换为RDD并分到对应组中，利用步骤S1 ‑S4挖掘出增量数据中的相关部分周期模式，算得增量数据中各模式所对应得Hash Bucket，将原始数据和增量数据根据所对应Hash Bucket值相同的桶进行合并，获得最终更新后的结果，实现增量挖掘。 8.根据权利要求7所述的基于Spark平台的工业时序数据相关性分析方法，其特征在于：原始数据和增量数据根据所对应Hash Bucket值相同的桶进行合并中会出现以下两种情况：模式相同，对于模式相同这种结果，只需要将各参数信息更新即可，无需其他操作；模式不同，对于模式不同这种结果，只需将其看成新的模式，无需更新参数信息。权　利　要　求　书 2/2 页 3 CN 115455075 A 3

专利 基于Spark平台的工业时序数据相关性分析方法

专利基于Spark平台的工业时序数据相关性分析方法