作者:POULOMI CHATTERJEE
尽管元宇宙是虚拟的,但交流和语言的基本原则将与物理世界相同。如果虚拟世界应该表现得像全球网络空间,则必须消除语言障碍。扎克伯格的 Meta 显然注意到了这个问题,并宣布了一款人工智能驱动的通用语音翻译器。Meta 声称语音到语音翻译器不会因为转录时间而延迟。由于翻译过程变得无缝并且不会被其他人注意到,因此对话将更加自然。
元宇宙的基础
通用语音翻译器将建立在“不让语言落后”概念的基础上,这是一个能够学习每一种语言的翻译系统。这还将包括主要使用的语言并且没有可用的文本。到 2019 年,Facebook 已经支持 41 种语言。
相信改进对话式 AI功能的不仅仅是Meta。去年 9 月,在NVIDIA 的 Interspeech Conference上,首席执行官Jensen Huang展示了他们的对话式 AI 的功能。在黄的主旨演讲中间,一个虚拟的黄溜进了演讲中,没有人能分辨出两者之间的区别,尽管一个人的声音和图像是计算机生成的。
该公司还发布了另一个名为“我是人工智能”的系列,其中扬声器的声音是由计算机生成的。NVIDIA还提出了Vid2Vid Cameo,它结合了对话式 AI 和高级实时图形处理。在某些情况下,当一个人看起来不是最好的并且必须紧急出现在视频通话中时,Cameo 能够将上传的用户图像与他们的实时面部表情进行映射。
新鲜的语音应用
在今年的NVIDIA GTC 大会上,CEO Huang 介绍了Riva 2.0 SDK以及公司的 Riva Enterprise 托管产品。这两者都可以在市场上用于构建与语音相关的 AI 应用程序,这表明 NVIDIA 对语音识别很感兴趣。该公司表示,Riva 2.0 已集成到TAO中,这是一种用于语音应用程序部署和定制的低代码产品。NVIDIA 透露,Snapchat 的母公司 Snap 在其面向开发人员的平台中采用了 Riva 的自动语音识别和文本到语音技术。另一家通信解决方案公司RingCentral也在视频会议期间使用 Riva 的实时字幕服务。
根据研究公司 Markets and Markets 的数据,语音和语音识别市场预计将从 2021 年的 83 亿美元增长到 2026 年的 220 亿美元,这要归功于企业应用。Pindrop在 2018 年进行的一项调查发现,500 名 IT 和业务决策者中有 28% 正在使用语音技术来帮助客户。
语音技术现在还包括语音克隆工具,这些工具使用人工智能来复制一个人语音的音高和语调。NVIDIA 的 Riva Custom Voice是一种语音克隆工具,它表示它可以研究 30 分钟的预先录制的语音,以创建自定义的类人语音。根据 Markets and Markets 的数据,到 2023 年,全球语音克隆市场有可能从 4.56 亿美元增长到 17.3 亿美元。
“医疗保健、汽车、零售、电子商务、银行和人力资源旨在通过更个性化的互动来改善客户服务,这些都是我们看到爆炸性增长的一些用例。支持通过自然语言处理和自然语言生成处理复杂的分层对话的高级算法可以实现近乎人类的交互,这一直是对话式 AI 成功背后的驱动技术。此外,以机器学习为骨干的自动语音识别和高级对话管理在提供优化输出方面取得了突破性进展,” VDO.AI首席执行官兼创始人Amitt Sharma表示。
上周,基于对话式 AI 的平台Kore.ai的首席执行官Raj Koneru谈到了他如何相信未来的大多数应用程序都将变成对话式的。Koneru 还重申,对话式 AI 将成为元宇宙和全宇宙的基础。
随着微软、Meta、亚马逊、TikTok 和苹果等科技巨头投资创建自己的虚拟世界,比尔盖茨等商人预测虚拟会议将在未来两到三年内转向虚拟世界,对话式人工智能的商机正呈指数级增长.