文章目录[隐藏]
继 Meta(前 Facebook)10 月份宣布它正在推动对元宇宙的主张之后,该公司今天宣布它已经开发了 AI Research SuperCluster (RSC),它声称它是当今运行速度最快的 AI 超级计算机之一。一旦完全建成,Meta 表示它将成为运行速度最快的超级计算机——该公司的目标是在今年年中完成。
首席执行官马克扎克伯格指出,该公司为虚拟世界打造的体验需要巨大的计算能力——每秒可达到五亿次操作。RSC 将使新的 AI 模型能够从数万亿个示例中学习,理解数百种语言等等。
数据存储公司 Pure Storage 和芯片制造商英伟达是 Facebook 打造的超级集群的一部分。特别是,Nvidia 一直是支持元界的关键参与者,其全能产品被称为“工程师的元界”。
Nvidia 在今天 的新闻稿中表示,在全面部署后,Meta 的 RSC 将成为 Nvidia DGX A100 系统的最大客户安装。
Pure Storage 的首席技术官 Rob Lee 通过电子邮件告诉 VentureBeat,RSC 对 Meta 以外的其他公司意义重大,因为支持 元宇宙 的技术(例如 AI 和 AR/VR)在各行各业中具有更广泛的适用性和需求.
Lee 表示,技术决策者一直在向前沿从业者学习,RSC 对驱动世界上最大的人工智能超级计算机的核心组件进行了很好的验证。
“Meta 的世界级团队看到了将 Pure Storage 产品的性能、密度和简单性与为这项突破性工作而创建的 Nvidia GPU 相结合的价值,推动了性能和规模的界限,”Lee 说。他补充说,各种规模的企业都将能够从 Meta 的工作、专业知识和学习中受益,从而推进他们追求数据、分析和人工智能战略的方式。
规模正在成为一个大问题
在今天发布的博客中,Meta 声称大规模需要人工智能超级计算。根据 Meta 的说法,实现自我监督学习和基于转换器的模型的好处需要多个领域——无论是视觉、语音、语言,还是识别有害内容等关键应用。
Meta 规模的人工智能将需要强大的计算解决方案,能够即时分析不断增加的数据量。Lee 表示,Meta 的 RSC 是超级计算领域的一项突破,它将带来人工智能支持的新技术和客户体验。
“规模在这里以多种方式很重要,”李说。他指出,首先,Meta 会持续处理大量的信息,因此在数据处理性能和容量方面需要一定的规模。
“其次,人工智能项目依赖于大量数据——更多样化和更完整的数据集可以提供更好的结果。第三,所有这些基础设施都必须在一天结束时进行管理,因此空间和能源效率以及大规模管理的简单性也至关重要。这些元素中的每一个都同样重要,无论是在更传统的企业项目中还是在 Meta 规模的运营中,”Lee 说。
解决超级计算带来的安全和隐私问题
在过去的几年里,Meta 的隐私和数据政策遭到了多次强烈反对,美国联邦贸易委员会 (FTC) 宣布正在调查对 Facebook 2018 年隐私做法的重大担忧。Meta 希望从一开始就解决安全和隐私问题-go,声明公司通过从头开始设计 RSC 来保护 RSC 中的数据,并考虑到隐私和安全性。
Meta 声称这将使其研究人员能够使用加密的用户生成数据安全地训练模型,这些数据直到训练前才被解密。
“例如,RSC 与更大的互联网隔离,没有直接的入站或出站连接,流量只能来自 Meta 的生产数据中心。为了满足我们的隐私和安全要求,从我们的存储系统到 GPU 的整个数据路径都是端到端加密的,并且有必要的工具和流程来验证这些要求是否始终得到满足。” 公司博客说。
Meta 解释说,在将数据导入 RSC 之前,数据必须经过隐私审查流程以确认已正确匿名化。该公司还声称,数据在可用于训练 AI 模型之前也已加密,并定期删除解密密钥以确保不再访问旧数据。
为了构建这台超级计算机,英伟达提供了计算层——包括英伟达 DGX A100 系统作为其计算节点。GPU 通过 Nvidia Quantum 200 Gbps InfiniBand 两级 Clos 结构进行通信。Lee 指出,企鹅计算硬件和软件的贡献是团结企鹅、英伟达和 Pure Storage 的“粘合剂”。这三个合作伙伴一起对于为 Meta 提供大规模的超级计算解决方案至关重要。