马斯克旗下xAI公司于2025年2月18日正式发布新一代AI大模型Grok 3,其以20万块英伟达GPU集群训练近百天、算力投入规模达前代10倍的“重资产”模式,再次刷新了全球AI模型的性能边界。Grok 3不仅成为首个突破1400分的人类盲测竞技场评分(LMSYS Chatbot Arena)的模型,更在数学推理、科学逻辑和代码生成等核心能力测试中全面超越。而据报道,其训练成本高达百亿美元量级,Grok 3的发布并未动摇当前AI行业竞争格局,反而印证了英伟达GPU在算力军备竞赛中的核心地位。
Grok 3的训练成本和技术投入堪称“天文数字”。xAI团队在122天内完成10万块英伟达H100 GPU集群的搭建,随后仅用92天将算力规模翻倍至20万块。若以单卡3万美元计算,仅GPU硬件采购成本就高达60亿美元,而配套服务器、散热设施及电力消耗的总成本预计接近百亿美元。这一投入规模是前代Grok 2的10倍,也是中国厂商DeepSeek-V3训练算力的263倍。
尽管高成本引发行业争议,但算力堆叠仍是头部模型性能突破的“硬门槛”。例如,Grok 3在2024年美国数学邀请赛(AIME)中获得93分,超过DeepSeek-V3(39分)和GPT-4o(85分);在科学推理GPQA测试中,其75分的成绩同样压制谷歌Gemini 2 Pro(68分)。对比之下,中国厂商虽在性价比上有所突破(如DeepSeek以1/20成本完成模型研发),但Grok 3的算力规模仍确立了其在复杂任务上的技术优势。
Grok 3最受关注的突破来自LMSYS Chatbot Arena评分体系。该平台通过匿名随机对比模型回答质量,由用户投票生成综合评分。Grok 3以1402分成为首个突破1400分的模型,而排名第二的GPT-4o仅获1365分。需注意的是,该评分体系采用“低分逆袭高分快速涨分”的奖惩机制,这意味着Grok 3的实际领先优势远高于分数差值所显示的幅度。
在具体能力维度上,Grok 3展现出数学推理能力、科学逻辑推理、代码生成效率等三项核心优势。据有关报道称,xAI团队透露,Grok 3通过“思维链”推理机制和合成数据训练,可自主检测逻辑错误并修正数据,显著提升了输出结果的可靠性。
不过,Grok 3的“暴力堆料”策略也暴露局限性。对比仅用2000块GPU训练的DeepSeek-V3,其算力投入超百倍但性能领先幅度不足20%,这引发业界对“算力边际效益递减”的讨论。
Grok 3的发布并未颠覆现有AI竞争版图。在LMSYS竞技场评分前十的模型中,除谷歌、OpenAI和xAI外,中国厂商深势科技DeepSeek和阿里巴巴Qwen位列其中,而腾讯混元(Hunyuan)以1198分排名中游。这反映出中国企业在部分垂直领域已具备国际竞争力:例如,Qwen在多语言理解和本土化应用场景中表现稳定,DeepSeek则在中文推理任务中保持优势。
从时间线来看,据公开资料显示,2024年7月,马斯克透露Grok 3用了10万块英伟达H100芯片进行训练 。2025年1月3日(当地时间),特斯拉CEO马斯克宣布Grok 3即将推出;1月27日,已短暂现身独立平台和 X 平台,开启内部测试;2月16日,马斯克表示,最新大模型Grok 3将于太平洋时间周一晚上8点发布。年2月18日,xAI正式发布新一代聊天机器人Grok 3,并宣布Grok 3推理模型引入名为DeepSearch的新功能,该功能可扫描互联网和X平台以分析信息,并提供摘要来回应查询。