iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211124805.8 (22)申请日 2022.09.15 (71)申请人 苏州赛美科基因科技有限公司 地址 215100 江苏省苏州市相城区高铁新 城青龙港 路58号天成时代商务广场17 层 (72)发明人 张鑫 谢欣 余伟师 梁萌萌  (74)专利代理 机构 南京九致知识产权代理事务 所(普通合伙) 32307 专利代理师 严巧巧 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/215(2019.01) G06F 16/23(2019.01) G06F 16/22(2019.01) (54)发明名称 基于ClickHouse数据库的纯新增式拉链实 现方法及系统 (57)摘要 本发明属于数据处理技术领域, 公开了基于 ClickHouse数据库的纯新增式拉链实现方法及 系统。 所述方法包括: 引入去重引 擎并设定其去 重规则及分区字段; 对比当前拉链表与新来源表 以确定变化数据; 基于变化数据分别创建适用于 拉链表的记录; 其中, 基于变更类数据创建第一 变更记录及第二变更记录; 基于删除类数据创建 删除记录; 基于新增类数据创建新增记录; 将上 述创建的记录均插入所述当前拉链表的对应分 区内, 并基于所述去重引擎进行去重合并以得到 新拉链表。 所述系统基于所述方法搭建。 本发明 过程简单, 可有效改善传统拉链 算法复杂 度高的 缺陷, 且纯新增的更新方式还可有效保证数据的 一致性和完整性。 权利要求书2页 说明书8页 附图3页 CN 115481107 A 2022.12.16 CN 115481107 A 1.基于ClickHouse数据库的纯新增式拉链实现方法, 拉链表的更新基于来源表进行, 其特征在于, 包括: 引入去重引擎并设定其去重规则及 分区字段; 其中, 所述去重规则包括: 基于所有条记 录的业务主键及开始时间进行查重, 并基于查重结果删除创建时间与本轮创建时间相 邻的 记录; 对比当前拉链表与新来源表以确定变化数据; 其中, 所述变化数据包括: 变更类数据, 删除类数据及新增类数据; 基于各所述变化数据分别创建适用于当前拉链 表的记录; 其中, 基于所述变更类数据创建第 一变更记录及第 二变更记录; 所述第 一变更记录的结束时 间为当前时间点, 其余项信息与所述当前拉链表中相 应条记录的对应项信息分别一致; 所 述第二变更记录的开始时间为当前时间点, 除变更项外的其余项信息与所述当前拉链表中 相应条记录的对应项信息分别一 致; 基于所述删除类数据创建删除记录; 所述删除记录的结束时间为当前时间点, 其余项 信息与所述当前拉链 表中相应条记录的对应项信息分别一 致; 基于所述新增类数据创建新增记录; 所述新增记录的各项信 息与所述新来源表中对应 信息相一 致; 将上述创建的各记录均插入所述当前拉链表的对应分区内, 基于所述去重引擎进行去 重, 并在合并后得到新拉链 表。 2.根据权利要求1所述的基于ClickHouse数据库的纯新增式拉链实现方法, 其特征在 于, 所述对比当前拉链 表与新来源表以确定变化数据, 包括: 基于当前拉链 表获取当前时间点的有效数据并存 入第一临时表; 基于新来源表获取当前时间点的全量数据并存 入第二临时表; 对比所述第一临时表及所述第二临时表以确定变化数据。 3.根据权利要求1所述的基于ClickHouse数据库的纯新增式拉链实现方法, 其特征在 于, 所述对比当前拉链 表与新来源表以确定变化数据之后, 包括: 创建第三临时表及第四临时表; 其中, 所述第三临时表用于存储所述变化数据中的关 链数据, 所述第四临时表用于存 储所述变化数据中的开链数据。 4.根据权利要求3所述的基于ClickHouse数据库的纯新增式拉链实现方法, 其特征在 于, 所述基于各 所述变化数据分别创建适用于当前拉链 表的记录, 包括: 将所述第一变更记录及所述删除记录存 入所述第三临时表; 将所述第二变更记录及所述 新增记录存 入所述第四临时表。 5.根据权利要求1所述的基于ClickHouse数据库的纯新增式拉链实现方法, 其特征在 于, 所述基于所述去重引擎进行去重, 并在合并后得到新拉链 表, 包括: 基于所述去重引擎进行去重, 并对去重后的各记录进行手动强制合并以得到新拉链 表。 6.根据权利要求1所述的基于ClickHouse数据库的纯新增式拉链实现方法, 其特征在 于, 所述去重引擎的分区字段的分区规则包括: 使拉链表中同一 业务主键下的所有条记录被存 储在同一分区内。 7.基于ClickHouse 数据库的纯新增式拉链实现系统, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115481107 A 2预指定模块, 用于引入去重引擎并设定其去重规则及 分区字段; 其中, 所述去重规则包 括: 基于所有条记录的业务主键及开始 时间进行查重, 并基于查重结果删除创建时间与本 轮创建时间相邻的记录; 数据对比模块, 用于对比当前拉链表与新来源表以确定变化数据; 其中, 所述变化数据 包括: 变更类数据, 删除类数据及新增类数据; 记录新增模块, 用于基于各 所述变化数据分别创建适用于拉链 表的记录; 其中, 基于所述变更类数据创建第 一变更记录及第 二变更记录; 所述第 一变更记录的结束时 间为当前时间点, 其余项信息与所述当前拉链表中相 应条记录的对应项信息分别一致; 所 述第二变更记录的开始时间为当前时间点, 除变更项外的其余项信息与所述当前拉链表中 相应条记录的对应项信息分别一 致; 基于所述删除类数据创建删除记录; 所述删除记录的结束时间为当前时间点, 其余项 信息与所述当前拉链 表中相应条记录的对应项信息分别一 致; 基于所述新增类数据创建新增记录; 所述新增记录的各项信 息与所述新来源表中对应 信息相一 致; 去重合并模块, 用于将上述创建的记录均插入所述当前拉链表的对应分区内; 基于所 述去重引擎进行去重, 并在合并后得到新拉链 表。 8.根据权利要求7所述的基于ClickHouse数据库的纯新增式拉链实现系统, 其特征在 于, 包括: 第一缓存 模块, 用于基于当前拉链 表获取当前时间点的有效数据并存 入第一临时表; 第二缓存 模块, 基于新 来源表获取当前时间点的全量数据并存 入第二临时表; 缓存对比模块, 用于对比所述第一临时表及所述第二临时表以确定变化数据。 9.根据权利要求7所述的基于ClickHouse数据库的纯新增式拉链实现系统, 其特征在 于, 包括: 第三缓存 模块, 用于将所述第一变更记录及所述删除记录存 入第三临时表; 第四缓存 模块, 用于将所述第二变更记录及所述 新增记录存 入第四临时表。 10.根据权利 要求7所述的基于ClickHouse数据库的纯新增式拉链实现系统, 其特征在 于, 包括: 强制合并模块, 用于对去重后的各记录进行手动强制合并以得到新拉链 表。权 利 要 求 书 2/2 页 3 CN 115481107 A 3

.PDF文档 专利 基于ClickHouse数据库的纯新增式拉链实现方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于ClickHouse数据库的纯新增式拉链实现方法及系统 第 1 页 专利 基于ClickHouse数据库的纯新增式拉链实现方法及系统 第 2 页 专利 基于ClickHouse数据库的纯新增式拉链实现方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:38:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。