语联网(武汉)信息技术有限公司毛红保获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉语联网(武汉)信息技术有限公司申请的专利在机翻译文后编辑时自动补全译文片段的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115270825B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210942707.9,技术领域涉及:G06F40/58;该发明授权在机翻译文后编辑时自动补全译文片段的方法是由毛红保设计研发完成,并于2022-08-08向国家知识产权局提交的专利申请。
本在机翻译文后编辑时自动补全译文片段的方法在说明书摘要公布了:本发明公开了一种在机翻译文后编辑时自动补全译文片段的方法,包括合成训练数据和训练译文补全片段预测模型。本发明的有益效果是:对原文句子进行机器翻译获得机翻译文,人工审查机翻译文并找到需要干预的译文片段,删除相应的译文片段后获得待补全的机翻译文;将原文句子与待补全的机翻译文联合输入译文补全片段预测模型,自动获得待补全片段的内容,回填到译文句子中即获得补全后的译文,完成相应句子的后编辑操作;通过译文补全片段预测模型自动生成待补全的内容,替代了译员手动修订和输入的过程,可以显著提升后编辑的效率。
本发明授权在机翻译文后编辑时自动补全译文片段的方法在权利要求书中公布了:1.一种在机翻译文后编辑时自动补全译文片段的方法,其特征在于:包括以下步骤 步骤一、合成训练数据,译文补全片段预测是基于NLP的生成式模型,通过数据学习和训练获得,通过采样平行语料和基于翻译过程的数据生成两种方法的训练数据; 所述步骤一中,采样平行语料具体包括: 1假设有一组平行语料src,tgt,其中src表示原文句子,tgt表示译文句子; 2模拟人工后编辑的过程,在tgt句子上随机截取出一个连续的片段,截取时保持单词和词语的完整性,记为tgtfragment,并将tgt句子中该片段替换为mask标记,替换后的tgt句子记为tgtmask,构成一组新的语料:src,tgtmask,tgtfragment,其中,src和tgtmask为模型训练的输入文本,tgtfragment为模型训练的输出文本; 3由于tgtfragment是随机截取的,变换不同的截取位置在同一组原始语料src,tgt上生成多组不同的目标语料; 所述步骤一中,基于翻译过程数据生成具体包括: 1翻译过程数据来源于对真实翻译项目数据的记录和收集,包括:原文句子src、机翻译文mt、人工后编辑译文pe; 2由于人工后编辑译文pe是在机翻译文mt的基础上修改而成,因此,通过比对找出mt与pe的差异部分,将mt中的差异部分替换为mask记为mtmask,而差异部分作为模型的预测对象记为pefragment,从而获得一条训练语料:src和mtmask为输入,pefragment为输出; 步骤二、训练译文补全片段预测模型,采用基于transformer模型按照生成式翻译任务进行训练或采用基于encoder-decoder预训练模型的基础上进行精调训练。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人语联网(武汉)信息技术有限公司,其通讯地址为:430000 湖北省武汉市东湖新技术开发区高新大道999号未来科技城B2栋;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励