专利 基于邻域影响函数的深度学习输入集优先级测试方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211211624.9 (22)申请日 2022.09.30 (71)申请人浙江工业大学地址 310014 浙江省杭州市下城区潮王路 18号 (72)发明人陈晋音　金海波　陈若曦　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师邱启旺 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称基于邻域影响函数的深度学习输入集优先级测试方法和装置 (57)摘要本发明公开了一种基于邻域影响函数的深度学习输入集优先级测试方法和装置，本发明采集干净测试图像样本集并训练深度学习模型；构建每一张对抗测试图像样本的隐藏层特征，并计算邻域影响函数，得到特征分布差异；构建并训练二元分类器，将对抗测试图像样本的特征分布差异输入训练后的二元分类器，输出相对应的置信度，并计算优先级值，实现对对抗测试图像样本集的有限级从小到大的排序。本发明在有限时间内，仅需要对排序靠前的样本进行定标，实现缩短测试时间的功能。该方法具有良好的适用性，能够有效的对测试级进行优先排序，在最短的时间内筛选出最可能导致模型出现潜在错误的样本。权利要求书4页说明书11页附图1页 CN 115546545 A 2022.12.30 CN 115546545 A 1.一种基于邻域影响函数的深度学习输入集优先级测试方法，其特征在于，包括以下步骤： (1)采集干净测试图像样本集，并对干净测试图像样本集进行攻击得到对抗性图像样本集；从干净测试图像样本集和对抗性图像样本集中选取95％的图像样本并混合，形成对抗测试图像样本集；将干净测试图像样本集中剩余5％的干净测试图像样本作为干净训练图像样本集，并将对抗性图像样本集中剩余5％的对抗性图像样本作为对抗训练图像样本集； (2)将干净测试图像样本集按预设比例分为训练集和测试集，训练深度学习模型f； (3)根据步骤(2)训练后的深度学习模型f构建对抗测试图像样本集中每一张对抗测试图像样本的隐藏层特征；计算每一张对抗测试图像样本与干净测试图像样本集中每一张干净测试图像样本之间的邻域影响函数，得到对应的邻域影响函数集合；并对邻域影响函数集合进行升序排列，挑选出前M个邻域影响函数值较大的干净测试图像样本集合以及前M个邻域影响函数值较小的干净测试图像样本集合，并通过隐藏层特征与前M个邻域影响函数值较大的干净测试图像样本集合以及前M个邻域影响函数值较小的干净测试图像样本集合计算每一张对抗测试图像样本的特征分布差异； (4)使用干净训练图像样本集和对抗训练图像样本集训练二元分类器；将对抗测试图像样本集中每一张对抗测试图像样本的特征分布差异输入训练后的二元分类器，输出每一张对抗测试图像样本相对应的置信度，并计算每一张对抗测试图像样本的优先级值； (5)根据优先级值的大小，实现对对抗测试图像样本集从小到大的优先级排序。 2.根据权利要求1所述的一种基于邻域影响函数的深度学习输入集优先级测试方法，其特征在于，所述步骤(1)具体包括以下子步骤： (1.1)从MNIST数据集、 CIFAR ‑10数据集和 ImageNet数据集中选取h张图像作为干净测试图像样本集X： X＝{x1,x2,..,xi,...,xh}，其中， xi表示第i张干净测试图像样本， i＝1, 2,…i,…n；并分类得到每张干净测试图像样本相应的类标，得到干净测试图像样本集X的类标集合Y： Y＝{y1,y2,..,yi,...,yn}； (1.2)利用FGSM攻击、 UAP攻击、 AUNA攻击和Boundary攻击方式处理干净测试图像样本集X，得到对抗性图像样本集X*： X*＝{X1,X2,..,Xj,...}，其中， Xj表示第j张攻击成功后的对抗性图像样本；分别从干净测试图像样本集X和对抗性图像样本集X*中选取95％的图像样本并混合，形成对抗测试图像样本集Xt； Xt＝{x′1,x′2,..,x′t,...}，其中， x ′t表示第t张对抗测试图像样本；将干净测试图像样本集X中剩余5％的干净测试图像样本作为干净训练图像样本集Xval： Xval＝{xval_1,xval_2,..,xval_a,..,}，其中， xval_a表示第a张干净训练图像样本；将对抗性图像样本集X*中剩余5％的对抗性图像样本作为对抗训练图像样本集Xadv： Xadv＝{xadv_1, xadv_2,..,xadv_b,..,}，其中， xadv_b第b张对抗性图像样本。 3.根据权利要求2所述的一种基于邻域影响函数的深度学习输入集优先级测试方法，其特征在于，所述步骤(2)具体包括以下子步骤： (2.1)将干净测试图像样本集X按预设比例7:3分为训练集和测试集，通过one ‑hot编码将干净测试图像样本集X中每张干净测试图像样本的标签转化为一维向量其格式，并计算深度学习模型f的交叉熵：权　利　要　求　书 1/4 页 2 CN 115546545 A 2其中， y′i表示干净测试图像样本xi的预测向量， yi表示干净测试图像样本xi的真实标签；上标j表示预测向量或真实标签向量中第j个分量； Hi表示干净测试图像样本xi的交叉熵； (2.2)使用LeNet ‑5模型对MNIST数据集进行训练，使用VGG ‑16模型对CIFAR ‑10数据集进行训练，使用GoogLeNet模型对ImageNet数据集进行训练，通过采用小批量梯度下降的训练方法进行训练，使得交叉熵损失函数值最小来对深度学习模型f添加权重，直至训练完成，分类精度达到90％以上；所述交叉熵损失函数为：其中， m为训练样本总数。 4.根据权利要求3所述的一种基于邻域影响函数的深度学习输入集优先级测试方法，其特征在于，所述步骤(3)具体包括以下子步骤： (3.1)构建隐藏层特征：设Nl＝{nl1,nl2,…}为步骤(2)训练后的深度学习模型f的隐藏层l的一组神经元；设φl(x,n)表示一个功能函数，该函数代表在给定测试输入的图像样本 x时，训练后的深度学习模型f的隐藏层l神经元n所得到的神经元输出值；图像样本x的隐藏层特征activati onl(x)的定义为：其中， 0<l<L， L表示训练后的深度学习模型f的总层数； (3.2)计算邻域影响函数：两张图像样本之间的邻域影响函数具体定义为：其中， H是训练后的深度学习模型f的学习参数的海森矩阵， L( ·)表示损失函数， θ是训练后的深度学习模型f的参数； xi表示任意一张干净测试图像样本， xi∈X； x′t表示任意一张对抗测试图像样本， x ′t∈Xt； (3.3)对于任意一张对抗测试图像样本x ′t，计算x′t与干净测试图像样本集X中每一张干净测试图像样本之间的邻域影响函数，得到对抗测试图像样本x ′t的邻域影响函数集合： {Iloss(x1,x′t),Iloss(x2,x′t),…,Iloss(xi,x′t),…,Iloss(xn,x′t)}；对抗测试图像样本x′t的邻域影响函数集合进行升序排列，挑选出前M个邻域影响函数值较大的干净测试图像样本集合其中，表示与抗测试图像样本x ′t之间的邻域影响函数最大的干净测试图像样本，表示第M个与抗测试图像样本x ′t之间的邻域影响函数较大的干净测试图像样本；并挑选出前M个邻域影响函数值较小的干净测试图像样本集合其中，表示与抗测试图像样本x ′t之间的邻域影响函数最小的干净测试图像样本，表示第M个与抗测试图像样本x ′t之间的邻域影响函数较小的干净测试图像样本； (3.4)获得特征分布差异：对于任意一张对抗测试图像样本x ′t，计算对抗测试图像样本权　利　要　求　书 2/4 页 3 CN 115546545 A 3

专利 基于邻域影响函数的深度学习输入集优先级测试方法和装置

专利基于邻域影响函数的深度学习输入集优先级测试方法和装置