马斯克新发布的“全球最强模型”Grok 4含金量如何？

xinwen.mobi · 发表于 2025-7-11 10:33:23

北京时间7月10日，马斯克携xAI团队发布了Grok 4。从官方数据和发布会展示来看，Grok 4在性能表现、技术创新等方面具有较高的含金量，不过也存在一些有待观察之处。具体如下：出色的基准测试成绩：Grok 4在多项基准测试中表现优异，超越了众多现有顶尖模型。在被称为“人类最终测试”的HLE测试中，Grok 4纯文本模式下准确率达26.9%，启用工具后升至41.0%，Grok 4 Heavy在“重思考”模式下更是达到58.3%，远超此前其他模型15%-25%的得分区间。在ARC-AGI-2抽象推理挑战赛中，Grok 4以15.9%的得分创下新纪录，几乎是之前商业模型最高纪录的两倍。此外，Grok 4 Heavy在美国数学邀请赛AIME 25上更是取得了满分，在GPQA研究生水平问答中，以88.9%的正确率领先对手。创新的多智能体协作机制：Grok 4 Heavy采用了多智能体协同机制，面对复杂问题时，系统会自动分裂出5-8个独立智能体。各智能体从不同视角独立推导，通过“思维链共享”深度交换推理路径，最后整合最优解法并补充验证，这种模式类似学术研讨会的AI版，能更高效地解决复杂问题。独特的价值观导向：Grok 4秉持“最大化寻求真相”的使命，面对如“堕胎合法化争议”等敏感问题，会同时呈现法律条文、伦理哲学、社会数据三方论证，推理过程附带“信源溯源”标签，当结论存在不确定性时，会明确标注，避免陷入单一叙事陷阱和给出模板化回答。强大的算力支撑：Grok 4的训练是在拥有超过20万张H100 GPU的超级计算机集群上完成的，相比Grok 2，其训练量提升了100倍，且xAI将更多算力投入到推理能力的专项训练上，为其强大性能提供了坚实的算力基础。广泛的应用潜力：在发布会现场演示中，Grok 4展现了在多个领域的应用能力，如生成黑洞碰撞动画、4小时完成游戏开发、优化商业决策模拟、助力生物医药研发以及生成法律文书等，显示出其在科学研究、游戏开发、商业运营等众多领域的应用潜力。不过，Grok 4也并非完美无缺。在发布直播中，其语音功能虽有升级，但也出现了要求唱歌却进入“念诗”状态的小失误，暴露出多模态理解可能存在不稳定的情况。而且，发布当天xAI首席科学家宣布离职，这或许会对Grok 4后续的发展和优化产生一定影响，其实际应用效果和长期发展仍有待进一步观察。

		自动登录	找回密码
密码			立即注册

马斯克新发布的“全球最强模型”Grok 4含金量如何？

相关帖子