彭博长篇报道了亚马逊的内部AI芯片计划,这家云计算巨头承认短期内无法撼动现有市场领军者的地位,但希望能够减少对英伟达的依赖。虽然整篇报道有浓郁的软文气息,但还是可以看到科技巨头在AI芯片领域的思路和动作。
在奥斯汀北部一个平淡无奇的街区,没有标识的办公大楼林立。
亚马逊公司的一群工程师正在这里埋头研发科技行业最雄心勃勃的目标:削弱英伟达在超过1000亿美元人工智能芯片市场的主导地位。
亚马逊的工程实验室外观简朴,里面是一排排长长的工作台,可以俯瞰德州首府迅速扩张的郊区。
实验室的内部有些凌乱。工作台上散落着电路板、散热风扇、电缆和网络设备,这些设备处于各种组装状态,有些甚至沾满了用于连接芯片与散热组件的导热膏。
这种场景更像是一个创业公司,而不是一家市值超过2万亿美元的巨头。
这里的工程师对跑去家得宝买钻床毫不在意,也乐于学习自己专业领域以外的知识,只要这样能让项目推进得更快。
在从零开始研发机器学习芯片的几年努力中,他们已经肩负起快速推出一个能抗衡英伟达的产品的重任。这并不是单纯追求计算能力,而是要构建一个简单可靠的系统,让亚马逊的数据中心能迅速转变为庞大的人工智能机器。
拉米·西诺是一位出生于黎巴嫩、性格开朗的工程师,在芯片行业工作了数十年。他负责芯片设计和测试。他曾参与设计亚马逊前两代人工智能半导体,如今正加紧确保最新版本Trainium2能在年底前可靠地运行于数据中心中。
西诺说:“让我夜不能寐的是,如何尽快实现这个目标。”
过去两年里,英伟达从一家小众芯片制造商,变身为支持生成式人工智能的主要硬件供应商,几度成为全球市值最高的公司。
英伟达的处理器单价高达数万美元,由于需求旺盛,供货十分紧张。
上周,在发布财报后,这家芯片制造商告诉投资者,最新硬件的需求将在未来几个季度持续超过供应,这进一步加剧了供需紧张的局面。
英伟达的最大客户,包括亚马逊云服务、微软Azure以及Alphabet旗下的Google Cloud,都希望减少对英伟达芯片的依赖,甚至取而代之。这三家公司都在研发自有芯片,但目前亚马逊作为最大的计算力出租商,部署的自研芯片数量最多。
亚马逊在许多方面具备成为人工智能芯片领域强者的理想条件。
15年前,亚马逊开创了云计算业务,并随着时间的推移,开始打造支撑这一业务的基础设施。通过逐步减少对英特尔等供应商的依赖,亚马逊拆除了数据中心中许多服务器和网络交换机,用定制硬件取而代之。
大约十年前,亚马逊高级副总裁兼资深工程师詹姆斯·汉密尔顿,敏锐地洞察时机,成功说服杰夫·贝索斯进军芯片领域。
两年前,OpenAI的ChatGPT拉开了生成式人工智能时代的序幕,当时亚马逊被广泛视为行业追赶者,措手不及且努力追赶。
尽管亚马逊尚未推出能够与ChatGPT或Anthropic开发的Claude等竞争的自有大语言模型,但已经投资80亿美元支持Anthropic。然而,亚马逊构建的云计算基础设施——包括定制服务器、交换机和芯片——使得首席执行官安迪·贾西能够打造一个人工智能超市,为想使用其他公司模型的企业提供工具,也为训练自有人工智能服务的公司提供芯片。
在芯片行业近四十年的经验,使汉密尔顿深知,推动亚马逊的芯片野心更上一层楼绝非易事。设计可靠的人工智能硬件本身已十分困难,而开发能够让这些芯片满足广泛客户需求的软件或许更加艰难。
英伟达的设备几乎能顺畅处理任何人工智能任务。这家公司不仅正向客户(包括亚马逊)交付下一代芯片,还开始宣传明年推出的后续产品。
行业观察人士认为,亚马逊短期内不太可能撼动英伟达的地位。
汉密尔顿和亚马逊的工程团队多次证明,在紧张的预算下,他们有能力解决重大技术难题。
汉密尔顿表示:“英伟达是一家非常非常优秀的公司,做着出色的工作,因此它将长期为许多客户提供良好的解决方案。然而,我们坚信可以生产出与之媲美的产品。”
汉密尔顿于2009年加入亚马逊,此前曾供职于IBM和微软。他是一位行业标志性人物,最初在其家乡加拿大修理豪华汽车,后来乘坐一艘54英尺的船通勤。
汉密尔顿加入亚马逊时正值一个关键时刻。亚马逊云服务在三年前推出,开创了后被称为云计算服务的行业。AWS很快开始产生大量现金流,为亚马逊提供资金支持一系列大胆的尝试。
当时,亚马逊自建数据中心,但使用的是其他公司生产的服务器和网络交换机。汉密尔顿带头推动了用定制硬件替代这些设备的计划,从服务器开始。
由于亚马逊需要购买数百万台服务器,汉密尔顿认为,通过定制这些设备以适应日益增长的数据中心,可以降低成本并提高效率,同时省略AWS不需要的功能。
这一尝试非常成功。
彼时负责AWS业务的贾西询问亚马逊还能自行设计哪些其他硬件。汉密尔顿建议设计芯片,因为芯片正承担越来越多以前由其他组件完成的任务。他还推荐使用能源高效的Arm架构,这种架构驱动了智能手机。
他认为这种技术的普及性以及开发者对其日益熟悉,将帮助亚马逊取代长期主导服务器的英特尔芯片。
2013年8月,汉密尔顿向贝索斯提交了一份提案,他写道:“所有的道路都通向我们组建一个半导体设计团队。”
一个月后,汉密尔顿与纳费亚·布沙拉在西雅图Virginia Inn酒吧见面。
布沙拉是以色列芯片行业资深人士,2000年代初移居旧金山湾区。他共同创立了Annapurna Labs,并以尼泊尔安纳普尔纳山峰命名。(布沙拉和他的联合创始人本计划登顶这座山,但投资者希望他们尽快投入工作,因此未能成行。)
这家低调的创业公司,在整个行业都专注于手机时着手开发用于数据中心的芯片。亚马逊最初委托Annapurna生产处理器,两年后以约3.5亿美元的价格收购了这家公司。
这一决定被证明十分有远见。布沙拉和汉密尔顿从小规模做起,展现了他们对实用工程的共同追求。当时,每台数据中心服务器都需用一部分算力运行控制、安全和网络功能。
Annapurna和亚马逊工程师开发了一种名为Nitro的卡片,能够将这些功能完全从服务器中分离出去,从而让客户使用服务器的全部性能。
随后,Annapurna推出了汉密尔顿的Arm通用处理器,名为Graviton。这款产品比竞争对手英特尔设备成本更低,使亚马逊成为台积电的十大客户之一。
到这时,亚马逊高层对Annapurna在不熟悉领域取得成就的能力充满信心。布沙拉表示:“很多公司擅长CPU,或者网络,但同时在多个领域表现出色的团队非常罕见。”
Graviton研发期间,贾西再次问汉密尔顿亚马逊还能自制哪些产品。
2016年底,Annapurna指派四名工程师研究开发机器学习芯片。这是又一次恰到好处的押注。几个月后,谷歌研究人员发表了一篇重要论文,提出了一种可以实现生成式人工智能的流程。
这篇名为《Attention is All You Need》的论文介绍了一种名为Transformer的软件设计原理,帮助人工智能系统识别训练数据中最重要的部分。这一方法成为了从单词关系中做出有依据猜测并生成文本的基础。
大约在这个时候,拉米·西诺还在奥斯汀的Arm Holdings工作,并指导他上学的儿子参加机器人比赛。团队开发了一款使用机器学习算法分析照片检测夏季奥斯汀湖泊中藻类爆发的应用。这让西诺感受到变革即将到来。
他于2019年加入亚马逊,协助领导人工智能芯片研发。
亚马逊团队开发的首款芯片用于推理,即让计算机基于数据模式做出预测,例如判断一封邮件是否为垃圾邮件。这款芯片名为Inferentia,于2019年12月部署到亚马逊数据中心,后来被用于帮助Alexa语音助手完成指令。
亚马逊第二代人工智能芯片Trainium1针对希望训练机器学习模型的企业。工程师还将芯片重新包装,使其更适合推理用途,推出Inferentia2。
初期,亚马逊AI芯片需求较少,这使客户无需等待数周便能立即使用这些芯片,而英伟达硬件则需要等待批量供应。
日本企业抓住了这一机会,迅速参与到生成式AI的浪潮中。例如,理光公司利用亚马逊的帮助,将基于英语数据训练的大型语言模型转换为日语。
据Annapurna早期员工加迪·哈特介绍,目前亚马逊AI芯片的需求量已开始增长。
“现在我已经没有多余的Trainium芯片等待客户使用了,”他说,“它们全部都在被使用中。”
Trainium2是亚马逊第三代人工智能芯片。按照行业观点,这将是一个成败攸关的时刻。要么第三代芯片实现足够的销售量以证明投资价值,要么失败,迫使公司另寻出路。
“我从未见过任何一款产品违背三代规则,”数据和分析软件供应商Databricks人工智能业务负责人纳文·拉奥说。
Databricks在10月同意在其与AWS的协议中使用Trainium。目前公司主要依赖英伟达芯片运行其AI工具,计划逐步用Trainium部分取而代之。
拉奥表示,根据亚马逊的说法,Trainium在性价比上可提供30%的提升。
“归根结底,是经济性和可用性的问题,”拉奥说,“这是竞争的战场所在。”
Trainium1由八个芯片组成,它们并排嵌入一个深钢箱内,提供充足的空间散热。
AWS向客户出租的完整设备由两个这样的阵列组成。每个设备箱都布满电线,并用网状包裹整齐封闭。
对于Trainium2,亚马逊表示,其性能是上一代的四倍,内存是上一代的三倍。工程师们对设计进行了重大改进:去除了大部分电缆,将电信号通过印刷电路板传输。
此外,每个箱体的芯片数量从八个减少到两个,这样维护一个单元时会影响到的其他组件更少。
西诺认为数据中心本身就像是一台巨型计算机,这种思路正是英伟达CEO黄仁勋向整个行业推广的理念。
西诺说:“简化非常重要,这也确实让我们更快推进。”
亚马逊并没有等待台积电生产出可用的Trainium2芯片,就开始测试新设计的运行方式。相反,工程师将两个前代芯片固定在电路板上,从而争取时间开发控制软件并测试电磁干扰。这种方法就像在飞机飞行中建造它一样,是半导体行业的大胆尝试。
亚马逊已经开始向包括俄亥俄在内的数据中心交付Trainium2,并计划将多达10万颗芯片串联成集群。更大规模的部署将在亚马逊的主要数据中心展开。
公司目标是每18个月推出一款新芯片,部分原因是通过减少硬件送到外部供应商的次数来缩短研发周期。
在实验室的钻床对面,是一套用来测试芯片和卡片连接器或设计缺陷的示波器。西诺透露,未来版本的工作已经开始:在另一个实验室里,刺耳的风扇冷却着测试单元,天花板上悬挂着四对管道。这些管道目前封闭,但已经为未来AWS芯片产生的热量超过风扇冷却能力的那一天做好了准备。
其他公司也在突破极限。英伟达将对自家芯片的需求形容为“疯狂”,正努力实现每年推出一款新芯片的节奏。虽然这一计划导致了即将发布的Blackwell芯片的生产问题,但也将给整个行业带来更大的竞争压力。
同时,亚马逊的两大云计算竞争对手,也在加速推进各自的芯片计划。
谷歌大约10年前就开始研发一款人工智能芯片,用于加速搜索产品背后的机器学习工作。随后,这款产品被提供给云计算客户,包括Anthropic、Cohere和Midjourney等AI初创公司。这款芯片的最新版本预计将在明年大规模供应。
此外,今年4月,谷歌推出了首款中央处理器,类似于亚马逊的Graviton。
谷歌负责芯片及其他基础设施工程团队的副总裁阿明·瓦赫达表示:“通用计算是一个非常大的机会。”
他还说,最终目标是让AI芯片与通用计算芯片无缝协作。
微软进入数据中心芯片领域,比亚马逊云服务和谷歌晚了一些,直到去年底才宣布了一款名为Maia的AI加速器和一款名为Cobalt的CPU。
微软也意识到,通过为数据中心量身定制硬件,可以为客户提供更好的性能。
领导这一项目的是副总裁拉尼·博卡尔,她在英特尔工作了近三十年。本月早些时候,她的团队为微软的产品线新增了两款产品:一款安全芯片,以及一款能加速CPU与GPU之间数据流动的数据处理单元。
这与英伟达销售的类似产品功能相似。微软目前正在内部测试其AI芯片,并开始将其与英伟达芯片一起使用,以支持客户使用OpenAI模型创建应用程序的服务。
尽管微软的努力被认为比亚马逊落后了几代,但博卡尔表示,对目前的结果感到满意,并正在开发更新版本的芯片。
她说:“人们从哪里开始并不重要,我的关注点完全在于客户需要什么。因为即使你领先,如果你开发了客户不需要的产品,那么硅芯片的投资如此庞大,我绝不会想成为失败故事中的一章。”
尽管竞争激烈,三大云计算巨头都对英伟达赞誉有加,并在英伟达新芯片如Blackwell推出时争夺优先采购权。
如果亚马逊的Trainium2能承担更多公司内部的AI工作,以及一些AWS大客户的项目,可能会被视为成功。这将帮助亚马逊释放其高端英伟达芯片的宝贵供应,用于专门的AI需求。
然而,要使Trainium2成为无可争议的成功,工程师必须完善软件,这绝非易事。
英伟达的优势很大程度上来源于全面的软件工具套件,可以让客户无需过多定制就能上线机器学习项目。相比之下,亚马逊的软件Neuron SDK还处于起步阶段。即便企业可以轻松将项目迁移到亚马逊芯片上,仅验证切换过程中未出现问题,就可能耗费工程师数百小时。
据一位曾在亚马逊和芯片行业工作的资深人士透露,这些复杂性依然是一个障碍。
一位帮助客户处理AI项目的AWS合作伙伴高管也表示,亚马逊在通用芯片Graviton易用性方面取得了成功,但AI硬件的潜在用户仍面临更多复杂性。
Gartner公司负责跟踪人工智能技术的副总裁奇拉格·德卡特说:“英伟达主导市场是有原因的,你无需担心那些细节。”
为了解决这些问题,亚马逊寻求外部帮助,鼓励大客户和合作伙伴在与AWS签订新协议或续约时使用这些芯片。目标是让最前沿的团队充分测试这些芯片,找出需要改进的地方。
其中一家合作公司是Databricks。尽管预计需要几周甚至几个月的时间才能使系统上线,Databricks仍愿意投入努力,希望实现承诺的成本节约。
生成式AI初创公司Anthropic是另一家合作伙伴。去年,Anthropic接受了亚马逊40亿美元的投资,同意在未来开发中使用Trainium芯片,尽管也在使用英伟达和谷歌的产品。
上周五,Anthropic宣布接受亚马逊另外40亿美元的投资,并深化了双方的合作。
Anthropic的首席计算官汤姆·布朗表示:“我们对亚马逊Trainium芯片的性价比印象深刻。我们正在逐步扩大其在各种工作负载中的使用范围。”
汉密尔顿说,Anthropic正在帮助亚马逊迅速改进。但他也清楚面临的挑战,强调创建易于客户使用的优秀软件是“必需的”。
他说:“如果不能弥合复杂性差距,你注定会失败。”