专利 基于多方隐私协作的k均值聚类的联邦学习方法、系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221072675 5.4 (22)申请日 2022.06.24 (71)申请人苏州浪潮智能科技有限公司地址 215100 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人王小伟　张旭　吴睿振　孙华锦　王凛　 (74)专利代理机构济南舜源专利事务所有限公司 37205 专利代理师杨彬 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 20/20(2019.01) (54)发明名称基于多方隐私协作的k均值聚类的联邦学习方法、系统 (57)摘要本发明属于隐私保护处理技术领域，具体提供一种基于多方隐私协作的k均值聚类的联邦学习方法、系统，所述方法包括如下步骤：将客户端数据进行预处理；每个客户端将聚类中心点的初始值加密后发送至服务器,接收服务器的处理结果，客户端选择两个聚类中心点，结合处理结果在密文上计算数据点与这两个聚类中心点的差，并将差的坐标打乱后发送至服务器；服务器计算数据点与聚类中心点的距离，并将距离的大小关系反馈给客户端；每个客户端通过判断每个数据点与第几个聚类中心点的距离最近，得到数据所属的类别；分别对属于同一类别的数据使用同一模型进行联邦学习，进而得到每一类数据的个性化的预测。减小数据加密长度，从而提高了的运行效率。权利要求书2页说明书10页附图2页 CN 115130123 A 2022.09.30 CN 115130123 A 1.一种基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，包括如下步骤： S1：将客户端数据进行预处理； S2：每个客户端将聚类中心点的初始值加密后发送至服务器； S3：客户端接收服务器对聚类中心点的处理结果； S4：客户端选择两个聚类中心点，结合接收到的处理结果，在密文上计算数据点与所述两个聚类中心点的差，并将差的坐标打乱后发送至服务器； S5：服务器计算数据点与聚类中心点的距离，并将距离的大小关系反馈给客户端； S6：重复步骤S4 ‑S5，直到客户端得到数据点与第几个聚类中心点的距离最近； S7：每个客户端通过判断每个数据点与第几个聚类中心点的距离最近，得到数据所属的类别； S8：服务器由属于同一类别的数据点计算得到新的聚类中心点； S9：重复步骤S3 ‑S8，直至聚类中心点收敛，每个客户端保留最后一轮的数据点的类别信息； S10：分别对属于同一类别的数据使用同一模型进行联邦学习，进而得到每一类数据的个性化的预测。 2.根据权利要求1所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，每个客户端将聚类中心点的初始值加密后发送至服务器的步骤之前包括：从客户端数据点选取初始值，具体包括：若客户端个数m大于或等于聚类个数k,随机选取k个客户端，并在每个客户端随机选取一个数据点作为聚类的初始值；若客户端个数m小于聚类个数k,选择个客户端每个随机选择个数据点，对于剩余个客户端每个随机选择个数据点，将选择的数据点作为聚类的初始值。 3.根据权利要求2所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，每个客户端将聚类中心点的初始值加密后发送至服务器的步骤之后包括：服务器对加密后的聚类中心点求模n2的逆，然后将结果发送至每一个客户端。 4.根据权利要求3所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，服务器计算数据点与聚类中心点的距离，并将距离的大小关系反馈给客户端的步骤包括：服务器接收到打乱后的差的坐标后，利用保密的欧几里得距离的解密方法，得到数据点与所述两个聚类中心点的欧几里得距离；将两个距离的大小关系反馈给客户端。 5.根据权利要求4所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，该方法还包括：客户端统计每个类别的数据点个数，计算每个类别数据点的和，并将数据点个数加密后发送给服务器；服务器在密文上计算每一类别数据点的个数，并将其解密后发送至每个客户端；客户端计算数据点的和与第r类的数据点的总个数的比值，将计算出的比值加密后发权　利　要　求　书 1/2 页 2 CN 115130123 A 2送至服务器；服务器在密文上计算每一类数据点的近似平均值点，并使用近似平均值点更新聚类中心点。 6.根据权利要求5所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，该方法还包括：当两次迭代的聚类中心点之间的距离小于设定的界限时，迭代结束，服务器输出最后的聚类中心点；每个客户端保留最后一轮的数据点的类别信息；将服务器输出的聚类中心点进行处理得到原始数据对应的聚类中心点。 7.根据权利要求6所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，从客户端数据点选取初始值的步骤之前包括：由服务器生成密钥，将公钥发送至每个参与计算的客户端。 8.根据权利要求7所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，将客户端数据进行预处理的步骤包括：将数据统一乘以倍数S将数据转化为整数，然后根据数据范围，再给转化为整数后的数据加上常数M，将数据转化到正整数范围内。 9.根据权利要求8所述的基于多方隐私协作的k均值聚类的联邦学习方法，其特征在于，将服务器输出的聚类中心点进行处理得到原始数据对应的聚类中心点的步骤包括：将服务器输出的聚类中心点加上M后，再乘以S，得到原始数据对应的聚类中心点。 10.一种基于多方隐私协作的k均值聚类的联邦学习系统，其特征在于，包括服务器和和与服务器通信的若干客户端；客户端，用于将客户端数据进行预处理；每个客户端将聚类中心点的初始值加密后发送至服务器；接收服务器对聚类中心点的处理结果；选择两个聚类中心点，结合接收到的处理结果，在密文上计算数据点与所述两个聚类中心点的差，并将差的坐标打乱后发送至服务器；直到客户端得到数据点与第几个聚类中心点的距离最近；每个客户端通过判断每个数据点与第几个聚类中心点的距离最近，得到数据所属的类别；直至聚类中心点收敛，每个客户端保留最后一轮的数据点的类别信息；分别对属于同一类别的数据使用同一模型进行联邦学习，进而得到每一类数据的个性化的预测；服务器，用于对加密后的聚类中心点求模n2的逆，然后将结果发送至每一个客户端，计算数据点与聚类中心点的距离，并将距离的大小关系反馈给客户端，由属于同一类别的数据点计算得到新的聚类中心点。权　利　要　求　书 2/2 页 3 CN 115130123 A 3

专利 基于多方隐私协作的k均值聚类的联邦学习方法、系统

专利基于多方隐私协作的k均值聚类的联邦学习方法、系统