专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210364602.X (22)申请日 2022.04.07 (71)申请人平安资产管理有限责任公司地址 200120 上海市浦东新区中国(上海) 自由贸易试验区陆家嘴环路1333号 29-31楼 (72)发明人卢鑫凯　 (74)专利代理机构北京英特普罗知识产权代理有限公司 1 1015 专利代理师黄胜波 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/33(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06Q 20/38(2012.01) G06Q 20/40(2012.01) G06Q 40/02(2012.01) (54)发明名称秘密文本脱敏方法、装置、计算机设备及可读存储介质 (57)摘要本发明涉及人工智能领域，公开了一种秘密文本脱敏方法、装置、计算机设备及可读存储介质，包括：获取一个秘密文本，调用预置的脱敏模型识别秘密文本中的至少一个敏感信息；识别一个敏感信息中的一个关键字，及识别敏感信息中相应于关键字的一个敏感数据；根据敏感数据的词性类别生成或获取一个脱敏数据，将敏感信息中的敏感数据替换为脱敏数据，使敏感信息转为脱敏信息；将秘密文本中所有敏感信息转为脱敏信息，使秘密文本转为脱敏文本。本发明不仅避免了敏感信息识别效率低下的问题发生，还避免了当前脱敏处理导致的涉及到敏感信息的语句缺乏语法要素，而造成阅读不畅，甚至产生歧义的问题。权利要求书2页说明书13页附图3页 CN 114840872 A 2022.08.02 CN 114840872 A 1.一种秘密文本脱敏方法，其特征在于，包括：获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。 2.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述获取一个秘密文本之前，所述方法还包括：接收开发端发送的一个属性信息，根据所述属性信息获取多个目标文件，通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型。 3.根据权利要求2所述的秘密文本脱敏方法，其特征在于，所述根据所述属性信息获取多个目标文件，包括：提取所述属性信息的产品信息，以及具有至少一个关键字的关键集合，从预置的数据库中获取相应于所述产品信息的多个产品文件，将具有所述关键集合中任一关键字的产品文件设为文本文件；其中，所述关键字是由所述开发端定义的，用于敏感信息进行概括的字词；根据所述文本文件中出现的所述关键集合中关键字的数量，从多个所述文本文件中筛选出多个目标文件。 4.根据权利要求2所述的秘密文本脱敏方法，其特征在于，所述通过所述多个目标文件训练预置的初始网络模型以得到脱敏模型，包括：将所述多个目标文件划分为训练组和验证组，对所述训练组的目标文件中的敏感信息进行标注，使所述训练组中的目标文件转为训练文件，及对所述验证组的目标文件中的敏感信息进行标注，使所述验证组中的目标文件转为验证文件；循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型。 5.根据权利要求4所述的秘密文本脱敏方法，其特征在于，所述循环通过所述训练组对预置的初始网络模型进行训练，及通过所述验证组对训练后的初始网络模型的敏感信息识别率进行验证，直至所述训练后的初始网络模型的敏感信息识别率达到预置的验证区间为止；将所述训练后的初始网络模型设为脱敏模型，包括：通过所述训练组中的多个训练文件依次对所述初始网络模型进行第一次训练操作，得到中间网络模型；通过所述验证组中的多个验证文件依次对所述中间网络模型进行第一次验证操作，以得到具有多个运算结果的运算集合；计算所述运算集合中一个运算结果中的敏感信息，与相应于所述运算结果的验证文件中标注的敏感信息之间一致的数量，并将所述数量作为相应于所述验证文件的运算值；将验证组中所有验证文件中标注的敏感信息的数量设为验证总值，对所述运算集合中各验证文件的运算值进行第一次求和运算得到运算总值，将所述运算总值与所述验证总值权　利　要　求　书 1/2 页 2 CN 114840872 A 2进行第一次相除运算得到敏感信息识别率；判断所述敏感信息识别率是否属于预置的验证数值区间内；若是，则判定所述中间网络模型为成熟网络模型；若否，则重复执行第i次所述训练操作、第i次所述验证操作、第i次所述求和运算以及第i次所述相除运算，直至所述敏感信息识别率属于所述验证区间内为止，其中， i是初始值为2的正整数。 6.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据，包括：通过预置的正则表达式提取所述敏感信息中的关键字，其中，所述正则表达式中具有相应于所述关键字的字词；对所述敏感信息进行分词，得到具有所述关键字以及至少一个敏感字词，并标注所述关键字以及所述敏感字词的词性得到所述敏感信息的词性信息；根据所述词性信息识别所述敏感信息中被所述关键字描述的一个敏感字词，并将所述敏感字词作为所述敏感数据。 7.根据权利要求1所述的秘密文本脱敏方法，其特征在于，所述根据所述敏感数据的词性类别生成或获取一个脱敏数据，包括：获取所述敏感信息的词性信息，提取所述词性信息中相应于所述敏感数据的词性类别；判断所述词性类别是否包括数词；若是，则将所述敏感数据中相应于所述数词的敏感字词替换为预置的初始值，以生成所述脱敏数据；若否，则从所述替换库中获取相应于所述词性类别的脱敏数据；所述根据所述敏感数据的词性类别生成或获取一个脱敏数据之后，所述方法还包括：将所述敏感数据上传至区块链中。 8.一种秘密文本脱敏装置，其特征在于，包括：敏感识别模块，用于获取一个秘密文本，调用预置的脱敏模型识别所述秘密文本中的至少一个敏感信息；数据识别模块，用于识别一个所述敏感信息中的一个关键字，及识别所述敏感信息中相应于所述关键字的一个敏感数据；脱敏处理模块，用于根据所述敏感数据的词性类别生成或获取一个脱敏数据，将所述敏感信息中的所述敏感数据替换为所述脱敏数据，使所述敏感信息转为脱敏信息；文本转换模块，用于将所述秘密文本中所有敏感信息转为脱敏信息，使所述秘密文本转为脱敏文本。 9.一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述秘密文本脱敏方法的步骤。 10.一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，其特征在于，所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述秘密文本脱敏方法的步骤。权　利　要　求　书 2/2 页 3 CN 114840872 A 3

专利 秘密文本脱敏方法、装置、计算机设备及可读存储介质

专利秘密文本脱敏方法、装置、计算机设备及可读存储介质