虎博科技参与研究《Levenshtein Transformer》 入选顶会NeurIPS 2019

  • 时间:
  • 浏览:0

近日,虎博科技技术副总裁兼算法负责人赵俊博(Jake Zhao)参与的研究成果《Levenshtein Transformer》被机器学习领域顶级会议NeurIPS 2019接收为会议论文。论文提出了并都是全新的序列生成模型Levenshtein Transformer(LevT),该模型在机器翻译和文本摘要任务中,均取得了比Transformer模型普遍更好的效果,且除理深度提升至3倍以上。并肩,LevT模型先驱性地尝试了统一序列生成和序列细化,并通过实证验证了其应用于译后编辑领域的巨大价值。虎博科技创始人兼CEO陈烨表示:“虎博科技始终不遗余力地在技术研发上持续投入,我能 们希望通过世界前沿科技,打破全球金融信息的语言壁垒,消除信息不对称,帮助我能 们提高获取信息的深度。”据悉,LevT模型已应用于虎博科技产品研发中。

(NeurIPS 2019论文接收通知)

NeurIPS全称神经信息除理系统大会(Conference and Workshop on Neural Information Processing Systems),是机器学习领域的顶级会议,属于中国计算机研究会(CCF) A类国际会议。本届NeurIPS 会议共收到 6743 篇论文投稿,创造了新的投稿记录,其中 1428 篇被接收为会议论文,接收率仅 21%。

此次《Levenshtein Transformer》利于被NeurIPS 2019接收,得益于其研究成果的突破性创新。LevT是第一个多多可不还要自由增加和删减长度的偏离 自回归模型,针对现有解码模型缺乏灵活度的间题图片,LevT创造性地提出了插入(insertion)和删除(deletion)并都是原子操作,通过两者的组合,不仅利于更加灵活地生成序列,还利于动态改变序列长度以细化序列,颠覆了现有的序列生成和细化土土办法,极大提高机器翻译、文本摘要和译后编辑的深度。

论文针对机器翻译、文本摘要和译后编辑三类自然语言除理任务,在多种不同语言的公开数据集上进行了多次与现有Transformer模型的对比实验。实验结果显示,Levenshtein Transformer模型在机器翻译和文本摘要任务中,不仅比现有Transformer模型取得了普遍更好的质量,还在运算深度上取得了大幅提升。通常来说,现有Transformer模型还要对原文进行大慨20次以上的串行解码行为,在测试集上的平均用时超过3000毫秒,但LevT可将串行的偏离 显著减少,通过并行插词、删词等操作完成文本除理,将运算深度提高至3倍以上。并肩,LevT在译后编辑任务中较现有Transformer模型取得了更好的优化幅度,证实了levt模型在译后编辑上的突破性成果。据悉,Transformer是目前国际上公认的最先进的机器翻译模型,由Google于2017年提出并开源,被全球一线科技公司广泛使用。

(LevT针对机器翻译和文本摘要的实验结果)

((LevT针对译后编辑的实验结果)

赵俊博介绍,现代神经序列生成模型只有从零始于英文逐步生成tokens,机会迭代地修改以固定长度为边界的token序列,原先的文本除理土土办法与人类的智力水平仍然有很大差距,机会人类可不还要随时修改、撤消或删除它们创作的文本。“同类我能 们写作文的原先,并都是像传统的自回归模型一样从左到右一口气生成,但是 写作和回来修改并存的过程,LevT模型但是 模拟了有一种过程。”

并肩,论文在模仿学习(imitation learning)理论框架下,利用插入和删除并肩具备互补性和对抗性的特点,创新提出“双策略学习”算法(dual policy learning)。该算法可不还要有效地将一个多多策略(policy)作为原先的学习信号,即在训练一个多多策略(插入或删除)时,使用其对抗策略在上一次迭代中的输出作为输入,是并都是全新的模仿学习框架。

目前,该研究成果已成功应用于虎博科技底层架构中,并通过虎博科技产品端为用户提供更实时、高质量的翻译结果。以虎博科技旗舰产品虎博搜索为例,当用户搜索“阿里巴巴活跃买家”时,虎博搜索会根据输入语言自动启用机器翻译,将中文搜索内容“活跃买家”准确对应到阿里巴巴英文财报中的“Annual active consumers"条目,帮助用户消除语言障碍,即时获得有价值的精准信息。据统计,虎博科技每天的全球资讯及金融数据机器翻译总量达上亿万次。

据公开资料显示,虎博科技成立于2017年7月,是全球领先的智能金融搜索引擎,以让我能 们获取知识更简单为愿景,致力于通太深度学习、自然语言除理等世界前沿技术,深入挖掘全球金融市场价值信息和数据,进行实时、全自动的获取、解析、理解和总结,并将精准的搜索结果形态学 化地呈现给用户,帮助用户从繁琐重复的工作中解放出来,把精力投入到更富创造性的工作中。截止目前,公司累计获得融资额近4亿元人民币。