Grok 3不仅成为首个突破1400分的人类盲测竞技场评分(LMSYS Chatbot Arena)的模型,更在数学推理、科学逻辑和代码生成等核心能力测试中全面超越。
这种设计旨在提高模型的透明度和问题解决能力。具体测试方面,Grok 3在Chatbot Arena测试中,以1400分的高分位居榜首,成为首个突破1400分大关的模型。
Grok 3,马斯克口中的“最聪明AI”终于来了! 当地时间2月17号,埃隆•马斯克(Elon Musk)的AI公司xAI正式推出最新的Grok 3模型,并称其是目前“地球 ...
【谷歌继续上新:推理模型2.5 Pro发布 多项测试击败OpenAI和Grok】财联社3月26日电,谷歌宣布推出“最智能的AI模型”Gemini 2.5系列,实验版Gemini 2.5 Pro是该系列上线的首款推理模型。据介绍,实验版Gemini 2.5 Pro是谷歌旗下最先进的复杂任务模型,展示了强大的推理和代码能力,并拥有Gemini系列此前各模型所具有的全部功能。目前,实验版Gemini 2 ...
在备受关注的Chatbot Arena(LMSYS)排行榜中,Grok-3的早期版本更是以1400分的最高分登顶,超越了Gemini 2.0 Flash Thinking和DeepSeek等强劲对手。 尽管xAI在 ...