找回密码
 立即注册
搜索

马斯克新发布的“全球最强模型”Grok 4含金量如何?

[复制链接]
xinwen.mobi 发表于 2025-7-11 10:33:23 | 显示全部楼层 |阅读模式
北京时间7月10日,马斯克携xAI团队发布了Grok 4。从官方数据和发布会展示来看,Grok 4在性能表现、技术创新等方面具有较高的含金量,不过也存在一些有待观察之处。具体如下:出色的基准测试成绩:Grok 4在多项基准测试中表现优异,超越了众多现有顶尖模型。在被称为“人类最终测试”的HLE测试中,Grok 4纯文本模式下准确率达26.9%,启用工具后升至41.0%,Grok 4 Heavy在“重思考”模式下更是达到58.3%,远超此前其他模型15%-25%的得分区间。在ARC-AGI-2抽象推理挑战赛中,Grok 4以15.9%的得分创下新纪录,几乎是之前商业模型最高纪录的两倍。此外,Grok 4 Heavy在美国数学邀请赛AIME 25上更是取得了满分,在GPQA研究生水平问答中,以88.9%的正确率领先对手。创新的多智能体协作机制:Grok 4 Heavy采用了多智能体协同机制,面对复杂问题时,系统会自动分裂出5-8个独立智能体。各智能体从不同视角独立推导,通过“思维链共享”深度交换推理路径,最后整合最优解法并补充验证,这种模式类似学术研讨会的AI版,能更高效地解决复杂问题。独特的价值观导向:Grok 4秉持“最大化寻求真相”的使命,面对如“堕胎合法化争议”等敏感问题,会同时呈现法律条文、伦理哲学、社会数据三方论证,推理过程附带“信源溯源”标签,当结论存在不确定性时,会明确标注,避免陷入单一叙事陷阱和给出模板化回答。强大的算力支撑:Grok 4的训练是在拥有超过20万张H100 GPU的超级计算机集群上完成的,相比Grok 2,其训练量提升了100倍,且xAI将更多算力投入到推理能力的专项训练上,为其强大性能提供了坚实的算力基础。广泛的应用潜力:在发布会现场演示中,Grok 4展现了在多个领域的应用能力,如生成黑洞碰撞动画、4小时完成游戏开发、优化商业决策模拟、助力生物医药研发以及生成法律文书等,显示出其在科学研究、游戏开发、商业运营等众多领域的应用潜力。不过,Grok 4也并非完美无缺。在发布直播中,其语音功能虽有升级,但也出现了要求唱歌却进入“念诗”状态的小失误,暴露出多模态理解可能存在不稳定的情况。而且,发布当天xAI首席科学家宣布离职,这或许会对Grok 4后续的发展和优化产生一定影响,其实际应用效果和长期发展仍有待进一步观察。
回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-17 18:14 , Processed in 0.064043 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表