脸书借助数学创新方法 强化机器翻译功能

前沿科技
分享至
评论

  机器翻译工具设计师仍多靠字典转译外国语言,但现在有了新方法:数字。脸书研究人员表示,把单字转成数字并用语言间在数学上的相似处对译,是有潜力新翻译方法。

脸书借助数学创新方法 强化机器翻译功能

  法新社报导,强大自动翻译功能是网络巨头的重大首要任务,因为尽可能让全球更多人沟通不仅是利他的目标,更是笔好生意。像美国的脸书、谷歌、微软、俄罗斯的Yandex及中国的百度等企业,都不断寻找改善翻译工具的方法。

  脸书甚至还在巴黎的研究实验室聘请人工智能专家,这家社群媒体企业在欧洲的基础人工智能研究共同负责人鲍德表示,脸书上使用高达200种语言。现行自动翻译要靠有两种语言相同文本的大型数据库,但多数要翻译的语言组合没有足够的对译文本可参考,所以研究人员得不断寻找另一种方法,像是脸书新开发的这套系统,是创造以数学形式表现文字。

  这个系统把每个单字变成数百维度空间中的“向量”,在口语中有紧密关联的单字,在这个向量空间中也会很靠近。这个系统的其中一位设计师兰普尔举例说,像“猫”跟“狗”这两个语义上形容差不多事物的字,根本上会在向量空间中非常靠近。“如果你用的是马德里、伦敦、巴黎等欧洲首都的名字,概念也是一样的。”

  这些语言地图可能可以通过算法连结到另外一种语言的向量地图上,一开始会很粗糙,但最后会变得愈来愈精确,直到整个句子可以匹配,没有太多错误。兰普尔说,目前成果已经相当看好。他说,就英文对译罗马尼亚语来说,脸书现在的机器翻译系统跟单字向量系统翻译结果“差不多,或可能略差一点”。

  但在英文对翻罕见语言乌尔都语上,由于脸书传统翻译工具没有很多的这两种语言对照文本可以参考,单字向量系统的翻译结果就比较优。这种方法理论上甚至也适用于巴斯克语对译亚马逊雨林的部落语言,但兰普尔说,要实际翻译会需要大量书面文本将语言制图,但亚马逊部落语系缺乏这样的大量文本。

  他说:“如果你只有数以万计的句子,就做不到,你需要数十万句子才办得到。”法国国家科学研究中心的莱迪思实验室也研究机器翻译,实验室的专家波布欧称赞说,向量系统是“观念的革命”,甚至是机器翻译的“圣杯”。

  但他指出,这种方法可能只能让人“对原始文本有所了解”,每次都能提供良好翻译的能力则尚待证明。法国国家科学研究中心机械工程科学电脑科学实验室研究员伊锋表示,即使翻译不完美可能也有用,并且可能足以追踪仇恨言论,这是脸书的首要任务。

THE END

数码评测