LION:数字翻译大作战:火山翻译精准通关_MIL

近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。

让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。

数字翻译「中译英」测试

首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。

火山翻译:

腾讯翻译君:

LBank蓝贝壳于7月16日21:00上线MM(Million)开放USDT交易:据官方公告,7月16日21:00,LBank蓝贝壳上线MM(Million),开放USDT交易,7月16日20:00开放充值,7月19日14:00开放提现。资料显示,MM(Million)是一个为百万富翁而生由Millionaires创造的去中心化数字货币。[2021/7/16 0:58:01]

以下为其他7款翻译产品的测试结果。

翻译为39.2亿:

翻译为392:

翻译为392万亿:

Overstock将Medici Venture转为由Pelion管理的基金:金色财经报道,纳斯达克上市公司Overstock周一宣布,已完成与风险投资公司Pelion Venture Partners的交易,使Overstock以区块链为重点的子公司Medici Venture成为由Pelion管理的基金。根据公告,Medici Ventures现在已转变为有限合伙企业。据悉,该交易是Overstock退出其区块链相关投资计划的一部分。Pelion现在完全负责该基金的投资决策,并将担任该基金的普通合伙人,而Overstock将是唯一的有限合伙人。 Overstock已承诺在该基金的八年期中投入4,500万美元。[2021/4/27 21:01:10]

翻译为3.92亿:

Elliott Management创始人:加密货币可能一文不值:Elliott Management创始人、亿万富翁对冲基金经理Paul Singer表示,加密货币可能一文不值。Singer最近接受采访时指出,加密资产的爆炸性增长是非理性投资者活动的一个主要例子。(Blockworks)[2021/1/25 13:26:29]

数字翻译「英译中」测试

我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?

这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。

中币(ZB)将于11月8日上线Zillion矿池Filecoin满存算力租赁产品:根据官方公告,中币将于2020年11月8日19:30上线Zillion矿池Filecoin满存算力租赁产品,开启首期Filecoin算力抢购。抢购总量:3000 T Filecoin算力;抢购价格:510USDT/T/年;每个账户限购1T。本次活动仅限最新版中币APP,请提前下载好,抢购需中币APP信息页面对应的ZAPP进行抢购。

Filecoin满存算力租赁产品是Zillion矿池推出的Filecoin算力业务。此Filecoin满存算力租赁产品无需质押,无需90天封存。根据当前Filecoin挖矿收益每天约为0.21FIL/T,一年1T预计静态收益约为61FIL,每日分币到账。更多详情请查看中币官方公告。[2020/11/6 11:51:31]

火山翻译:

其他产品的翻译结果:

动态 | 社区成员:门罗币将采用Dandelion++来进一步提升网络隐私性:“Monero Ecosystem”的用户在Reddit上宣布,在不久的将来,该团队将引入Dandelion++来进一步提升Monero(门罗币)网络的隐私性:“Monero即将实现Dandelion++。该技术将增强Monero在网络级别的隐私,使攻击者很难将交易链接到特定节点。”该用户称,团队正在等待将Dandelion++与代码合并,并向社区寻求帮助以测试新功能,这对进一步开发Monero至关重要。(U.Today)[2020/2/26]

数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。

数字翻译难在哪?

数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:

a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」

b.很长的数字容易带来偏差

c.超大数字的翻译问题,如trillion、万亿以上的单位

d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”

e.带有货币符号的数字容易犯错

当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。

火山翻译如何解决数字翻译难题?

我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。

火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

区块博客

[0:0ms0-3:171ms