iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211286618.X (22)申请日 2022.10.20 (71)申请人 中国农业银行股份有限公司 地址 100005 北京市东城区建国门内大街 69号 (72)发明人 朱相荣 薛飞 徐杰鑫 杨倩  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 高艳红 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 语料增强方法、 装置、 电子设备和存 储介质 (57)摘要 本申请实施例公开了一种语料增强方法、 装 置、 电子设备和存储介质。 获取原始语料中源语 言的待替换短语的至少一个候选替换短语; 根据 候选替换短语, 生成源语言的对抗样本; 根据对 抗样本生 成正向对抗样本和反向对抗样本; 根据 原始语料、 正向对抗样本和反向对抗样本确定增 强语料。 本申请实施例提高了增强语料的质量, 进而提高了翻译 模型的鲁棒 性和准确性。 权利要求书2页 说明书9页 附图5页 CN 115510879 A 2022.12.23 CN 115510879 A 1.一种语料增强方法, 其特 征在于, 包括: 获取原始语料中源语言的待替换短语的至少一个候选替换短语; 根据所述 候选替换短语, 生成所述源语言的对抗样本; 根据所述对抗样本生成正向对抗样本和反向对抗样本; 根据所述原 始语料、 所述 正向对抗样本和所述反向对抗样本确定增强语料。 2.根据权利要求1所述的方法, 其特征在于, 所述获取样本语料中源语言的待替换短语 的至少一个候选替换短语, 包括: 确定所述样本语料中源语言的至少一个待替换短语; 通过短语生成模型生成所述至少一个待替换短语的至少一个候选替换短语。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述样本语料中源语言的待替换 短语, 包括: 获取所述样本语料中源语言中各短语对应的梯度范 数; 根据预设梯度范 数阈值与所述梯度范 数, 确定所述样本语料中源语言的待替换短语。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述候选替换短语, 生成所述原 始语料的对抗样本, 包括: 确定各所述候选替换短语的短语选取参数; 其中, 所述短语选取参数包括措辞特征和/ 或梯度范 数; 根据所述候选替换短语的所述短语选取参数, 从各所述候选替换短语中选取目标替换 短语; 将所述原始语料中的所述待替换短语替换成所述目标替换短语, 得到所述原始语料的 对抗样本 。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述根据 所述对抗样本生成正向 对抗样本和反向对抗样本, 包括: 将所述对抗样本的源语种翻译成目标语种, 得到第一翻译结果; 基于所述对抗样本和所述第一翻译结果, 生成正向对抗样本; 将所述第一翻译结果翻译成源语种, 得到第二翻译结果; 基于所述对抗样本和所述第二翻译结果, 生成反向对抗样本 。 6.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述根据所述原始语料、 所述正 向对抗样本和所述反向对抗样本确定增强语料, 包括: 基于语义编码器, 分别建立所述原始语料、 所述正向对抗样本和所述反向对抗样本的 邻接语义空间; 基于混合高斯循环链算法, 根据各所述邻 接语义空间, 根据 所述原始语料、 所述正向对 抗样本和所述反向对抗样本确定增强语料。 7.根据权利要求6所述的方法, 其特征在于, 所述通过语义编码器建立所述原始语料、 所述正向对抗样本和所述反向对抗样本的邻接语义空间, 包括: 基于切线学习, 得到优化后的语义编码器; 通过所述优化后的语义编码器, 建立所述原始语料、 所述正向对抗样本和所述反向对 抗样本的邻接语义空间。 8.一种语料增强装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115510879 A 2候选替换短语获取模块, 用于获取原始语料中源语言的待替换短语的至少一个候选替 换短语; 对抗样本生成模块, 用于根据所述 候选替换短语, 生成所述源语言的对抗样本; 双向翻译模块, 用于根据所述对抗样本生成正向对抗样本和反向对抗样本; 增强语料确定模块, 用于根据所述原始语料、 所述正向对抗样本和所述反向对抗样本 确定增强语料。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7任一项所述的一种语 料增强方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑7任一项所述的一种语料增强方法。权 利 要 求 书 2/2 页 3 CN 115510879 A 3

PDF文档 专利 语料增强方法、装置、电子设备和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料增强方法、装置、电子设备和存储介质 第 1 页 专利 语料增强方法、装置、电子设备和存储介质 第 2 页 专利 语料增强方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。