therunofsummer
语音学正在追赶谷歌。这家英国创业公司上个月揭开了自动语言学家的面纱,这是一种强大的人工智能,可以在几天内学习语音到文本转录的任何语言。该团队希望为世界上大约7,000种语言中的每一种语言启用该技术,并有可能改变生活。
自推出语言学工具以来,Speechmatics一直致力于Omniglot,这是每天构建语言的挑战。上周,该公司达到了一个重要的里程碑:它已经正式击败谷歌,共有72种独特的语言。
该系统使用机器学习将音频数据与转录对应物匹配。然后,它使用来自其他语言的语言模式,使过程尽可能简单,识别声音和语法结构之间的相似性,并将它们应用于新语言。这个过程非常有效:例如,Speechmatics对印地语的工作只用了两周就达到了80%的准确率。当最终产品针对Google的努力进行测试时,错误减少了23%。
逆 与Speechmatics的首席执行官BenediktvonThüngen进行了交谈,以了解更多信息。
您是如何首先开始从事该项目的?
我们开始将Omniglot作为对自己的挑战 - 看看我们能在六周内建立多少种语言。我们前段时间意识到,在寻求快速扩展时,单独构建每种语言的传统方法已不再可行。考虑到这一点,我们不得不重新思考一种语言是什么,它是如何组织的以及不同语言之间有什么相似之处。我们已经找到了一种方法来利用这些共性来识别模式,并帮助我们的AI驱动的框架,自动语言学家(AL),比以往更快地构建语言 - 准确地说,在六周内完成语言,或者在六周内每天使用一种语言!
这与谷歌的努力有何不同?
我们的语言构建方法是使我们与Google区别开来的主要方面之一。虽然我们假设他们单独构建他们的语言(或者我们称之为“暴力”),但我们正在使用A.I.的力量。简化和加快语言建设过程。此外,虽然像谷歌这样的其他服务专注于建立方言而不是独特的语言,但我们很自豪地说,我们的努力一直专注于来自世界各地的独特语言,包括以前大型科技公司未能提供服务的领域。
这有哪些真实的应用程序?
我们现在拥有技术和知识,使我们的服务比以往任何时候都更加深远,并为每个人带来自动语音识别(ASR)。这在识字率低的国家尤其重要,因为使用以前不可用的语音到文本技术进行交流的能力可以使人们发挥重要作用。 ASR技术可以帮助处理可访问性问题的其他现实案例 - 来自世界各地的听力和/或视力受损的人现在可以使用像手机一样简单的设备与周围的人进行交互。
这是否会提高英语等涵盖良好的语言的准确性?
随着我们继续开发更多语言,我们的A.I.框架将越来越擅长识别语言特征和模式。我们将利用这些知识继续完善我们目前的语言基础,包括英语。
这可以改善Google Pixel Buds的实时翻译工具吗?
我们肯定会看到像Omniglot这样的项目有助于改进未来的实时翻译工具。随着投入更多资源扩大语言的范围和准确性,我们将看到翻译服务部门的持续改进。
这是否适用于任何语言,甚至像克林贡语这样的语言?
我们还没有尝试构建任何conlang,但我们没有看到任何原因导致它们不起作用。由于这些语言仍由人类使用,它们也遵循与日常语言(例如音素数量)类似的结构规则和约束,这将为AL提供足够的数据用于构建。
你是开源项目吗?
不,我们没有这方面的计划。
许可如何运作?
Omniglot项目提供的语言是免费的,不能用于商业目的。因此,在可预见的将来,他们不会获得任何许可。
从这里开始接下来的步骤是什么?
Omniglot项目只是我们的开始。我们希望最终建立世界上的每一种语言,所以我们将努力实现这一目标!