马斯克再放大招！Grok 3 告诉你，AI的极限就是没有极限！

2025-02-19 12:45:45

金融界

关注

获赞

粉丝

喜欢

— 分享 —

摘要：马斯克旗下xAI公司于2025年2月18日正式发布新一代AI大模型Grok 3，其以20万块英伟达GPU集群训练近百天、算力投入规模达前代10倍的“重资产”模式，再次刷新了全球AI模型的性能边界。Grok 3不仅成为首个突破1400分的人类盲测竞技场评分（LMSYS Chatbot Arena）的模型，更在数学推理

马斯克旗下xAI公司于2025年2月18日正式发布新一代AI大模型Grok 3，其以20万块英伟达GPU集群训练近百天、算力投入规模达前代10倍的“重资产”模式，再次刷新了全球AI模型的性能边界。Grok 3不仅成为首个突破1400分的人类盲测竞技场评分（LMSYS Chatbot Arena）的模型，更在数学推理、科学逻辑和代码生成等核心能力测试中全面超越。而据报道，其训练成本高达百亿美元量级，Grok 3的发布并未动摇当前AI行业竞争格局，反而印证了英伟达GPU在算力军备竞赛中的核心地位。

Grok 3的训练成本和技术投入堪称“天文数字”。xAI团队在122天内完成10万块英伟达H100 GPU集群的搭建，随后仅用92天将算力规模翻倍至20万块。若以单卡3万美元计算，仅GPU硬件采购成本就高达60亿美元，而配套服务器、散热设施及电力消耗的总成本预计接近百亿美元。这一投入规模是前代Grok 2的10倍，也是中国厂商DeepSeek-V3训练算力的263倍。

尽管高成本引发行业争议，但算力堆叠仍是头部模型性能突破的“硬门槛”。例如，Grok 3在2024年美国数学邀请赛（AIME）中获得93分，超过DeepSeek-V3（39分）和GPT-4o（85分）；在科学推理GPQA测试中，其75分的成绩同样压制谷歌Gemini 2 Pro（68分）。对比之下，中国厂商虽在性价比上有所突破（如DeepSeek以1/20成本完成模型研发），但Grok 3的算力规模仍确立了其在复杂任务上的技术优势。

Grok 3最受关注的突破来自LMSYS Chatbot Arena评分体系。该平台通过匿名随机对比模型回答质量，由用户投票生成综合评分。Grok 3以1402分成为首个突破1400分的模型，而排名第二的GPT-4o仅获1365分。需注意的是，该评分体系采用“低分逆袭高分快速涨分”的奖惩机制，这意味着Grok 3的实际领先优势远高于分数差值所显示的幅度。

在具体能力维度上，Grok 3展现出数学推理能力、科学逻辑推理、代码生成效率等三项核心优势。据有关报道称，xAI团队透露，Grok 3通过“思维链”推理机制和合成数据训练，可自主检测逻辑错误并修正数据，显著提升了输出结果的可靠性。

不过，Grok 3的“暴力堆料”策略也暴露局限性。对比仅用2000块GPU训练的DeepSeek-V3，其算力投入超百倍但性能领先幅度不足20%，这引发业界对“算力边际效益递减”的讨论。

Grok 3的发布并未颠覆现有AI竞争版图。在LMSYS竞技场评分前十的模型中，除谷歌、OpenAI和xAI外，中国厂商深势科技DeepSeek和阿里巴巴Qwen位列其中，而腾讯混元（Hunyuan）以1198分排名中游。这反映出中国企业在部分垂直领域已具备国际竞争力：例如，Qwen在多语言理解和本土化应用场景中表现稳定，DeepSeek则在中文推理任务中保持优势。

从时间线来看，据公开资料显示，2024年7月，马斯克透露Grok 3用了10万块英伟达H100芯片进行训练。2025年1月3日（当地时间），特斯拉CEO马斯克宣布Grok 3即将推出；1月27日，已短暂现身独立平台和 X 平台，开启内部测试；2月16日，马斯克表示，最新大模型Grok 3将于太平洋时间周一晚上8点发布。年2月18日，xAI正式发布新一代聊天机器人Grok 3，并宣布Grok 3推理模型引入名为DeepSearch的新功能，该功能可扫描互联网和X平台以分析信息，并提供摘要来回应查询。

敬告读者：本文为转载发布，不代表本网站赞同其观点和对其真实性负责。FX168财经仅提供信息发布平台，文章或有细微删改。

马斯克再放大招！Grok 3 告诉你，AI的极限就是没有极限！

24小时热点

交易商排行

马斯克再放大招！Grok 3 告诉你，AI的极限就是没有极限！lg...

24小时热点

交易商排行

马斯克再放大招！Grok 3 告诉你，AI的极限就是没有极限！