iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210364602.X (22)申请日 2022.04.07 (71)申请人 平安资产管理有限责任公司 地址 200120 上海市浦东 新区中国(上海) 自由贸易试验区陆家嘴环路1333号 29-31楼 (72)发明人 卢鑫凯  (74)专利代理 机构 北京英特普罗知识产权代理 有限公司 1 1015 专利代理师 黄胜波 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06Q 20/38(2012.01) G06Q 20/40(2012.01) G06Q 40/02(2012.01) (54)发明名称 秘密文本脱敏方法、 装置、 计算机设备及可 读存储介质 (57)摘要 本发明涉及人工智能领域, 公开了一种秘密 文本脱敏方法、 装置、 计算机设备及可读存储介 质, 包括: 获取一个秘密文本, 调用预置的脱敏模 型识别秘密文本中的至少一个敏感信息; 识别一 个敏感信息中的一个关键字, 及识别敏感信息中 相应于关键字的一个敏 感数据; 根据敏感数据的 词性类别生成或获取一个脱 敏数据, 将敏感信息 中的敏感数据替换为脱 敏数据, 使敏感信息转为 脱敏信息; 将秘密文本中所有敏感信息转为脱 敏 信息, 使秘密文本转为脱敏文本。 本发明不仅避 免了敏感信息识别效率低下的问题发生, 还避免 了当前脱敏处理导致的涉及到敏感信息的语句 缺乏语法要素, 而造成阅读不畅, 甚至产生歧义 的问题。 权利要求书2页 说明书13页 附图3页 CN 114840872 A 2022.08.02 CN 114840872 A 1.一种秘密文本脱敏 方法, 其特 征在于, 包括: 获取一个秘密文本, 调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息; 识别一个所述敏感信 息中的一个关键字, 及识别所述敏感信 息中相应于所述关键字的 一个敏感数据; 根据所述敏感数据的词性类别生成或获取一个脱敏数据, 将所述敏感信 息中的所述敏 感数据替换为所述脱敏 数据, 使所述敏感信息转 为脱敏信息; 将所述秘密文本中所有敏感信息转 为脱敏信息, 使所述秘密文本转 为脱敏文本 。 2.根据权利要求1所述的秘密文本脱敏方法, 其特征在于, 所述获取一个秘密文本之 前, 所述方法还 包括: 接收开发端发送 的一个属性信息, 根据所述属性信息获取多个目标文件, 通过所述多 个目标文件训练预置的初始网络模型以得到脱敏模型。 3.根据权利要求2所述的秘密文本脱敏方法, 其特征在于, 所述根据所述属性信 息获取 多个目标文件, 包括: 提取所述属性信息的产品信息, 以及具有至少一个关键字的关键集合, 从预置的数据 库中获取相应于所述产品信息的多个产品文件, 将具有所述关键集合中任一关键字的产品 文件设为文本文件; 其中, 所述关键字是由所述开发端定义的, 用于敏感信息进 行概括的字 词; 根据所述文本文件中出现的所述关键集合中关键字的数量, 从多个所述文本文件中筛 选出多个目标文件。 4.根据权利要求2所述的秘密文本脱敏方法, 其特征在于, 所述通过所述多个目标文件 训练预置的初始网络模型以得到脱敏模型, 包括: 将所述多个目标文件划分为训练组和验证组, 对所述训练组的目标文件中的敏感信 息 进行标注, 使所述训练组中的目标文件转为训练文件, 及对所述验证组的目标文件中的敏 感信息进行 标注, 使所述验证组中的目标文件转 为验证文件; 循环通过所述训练组对预置的初始网络模型进行训练, 及通过所述验证组对训练后的 初始网络模型的敏感信息识别率进行验证, 直至所述训练后的初始网络模 型的敏感信息识 别率达到预置的验证区间为止; 将所述训练后的初始网络模型设为脱敏模型。 5.根据权利要求4所述的秘密文本脱敏方法, 其特征在于, 所述循环通过所述训练组对 预置的初始网络模型进行训练, 及通过所述验证组对训练后的初始网络模 型的敏感信息识 别率进行验证, 直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为 止; 将所述训练后的初始网络模型设为脱敏模型, 包括: 通过所述训练组中的多个训练文件依次对所述初始网络模型进行第 一次训练操作, 得 到中间网络模型; 通过所述验证组中的多个验证文件依次对所述中间网络模型进行第 一次验证操作, 以 得到具有 多个运算结果的运 算集合; 计算所述运算集合中一个运算结果中的敏感信 息, 与相应于所述运算结果的验证文件 中标注的敏感信息之间一 致的数量, 并将所述数量作为相应于所述验证文件的运 算值; 将验证组中所有验证文件中标注的敏感信 息的数量设为验证总值, 对所述运算集合中 各验证文件的运算值进行第一次求和运算得到运算总值, 将所述运算总值与所述验证总值权 利 要 求 书 1/2 页 2 CN 114840872 A 2进行第一次相除运 算得到敏感信息识别率; 判断所述敏感信息识别率是否属于预置的验证数值区间内; 若是, 则判定所述中间 网络模型为成熟网络模型; 若否, 则重复执行第i次所述训练操作、 第i次所述验证操作、 第i次所述求和运算以及 第i次所述相除运算, 直至所述敏感信息识别率属于所述验证区间内为止, 其中, i是初始 值 为2的正整数。 6.根据权利要求1所述的秘密文本脱敏方法, 其特征在于, 所述识别一个所述敏感信 息 中的一个关键 字, 及识别所述敏感信息中相应于所述关键 字的一个敏感数据, 包括: 通过预置的正则表达式提取所述敏感信息中的关键字, 其中, 所述正则表达式中具有 相应于所述关键 字的字词; 对所述敏感信息进行分词, 得到具有所述关键字以及至少一个敏感字词, 并标注所述 关键字以及所述敏感字词的词性得到所述敏感信息的词性信息; 根据所述词性信 息识别所述敏感信 息中被所述关键字描述的一个敏感字词, 并将所述 敏感字词作为所述敏感数据。 7.根据权利要求1所述的秘密文本脱敏方法, 其特征在于, 所述根据所述敏感数据的词 性类别生成 或获取一个脱敏 数据, 包括: 获取所述敏感信息的词性信息, 提取所述词性信息中相应于所述敏感数据的词性类 别; 判断所述词性类别是否包括数词; 若是, 则将所述敏感数据中相应于所述数词的敏感字词替换为预置的初始值, 以生成 所述脱敏 数据; 若否, 则从所述 替换库中获取相应于所述词性类别的脱敏 数据; 所述根据所述敏感数据的词性类别生成 或获取一个脱敏 数据之后, 所述方法还 包括: 将所述敏感数据上传至区块链中。 8.一种秘密文本脱敏装置, 其特 征在于, 包括: 敏感识别模块, 用于获取一个秘密文本, 调用预置的脱敏模型识别所述秘密文本中的 至少一个敏感信息; 数据识别模块, 用于识别一个所述敏感信息中的一个关键字, 及识别所述敏感信息中 相应于所述关键 字的一个敏感数据; 脱敏处理模块, 用于根据所述敏感数据的词性类别生成或获取一个脱敏数据, 将所述 敏感信息中的所述敏感数据替换为所述脱敏 数据, 使所述敏感信息转 为脱敏信息; 文本转换模块, 用于将所述秘密文本中所有敏感信息转为脱敏信息, 使所述秘密文本 转为脱敏文本 。 9.一种计算机设备, 其包括存储器、 处理器以及存储在存储器上并可在处理器上运行 的计算机程序, 其特征在于, 所述计算机设备 的处理器执行所述计算机程序时实现权利要 求1至7任一项所述秘密文本脱敏 方法的步骤。 10.一种计算机可读存储介质, 所述可读存储介质上存储有计算机程序, 其特征在于, 所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述 秘密文本脱敏 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114840872 A 3

.PDF文档 专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质 第 1 页 专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质 第 2 页 专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:38:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。