资讯

AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或 ...
图片来源:AnthropicOpenAI 竞争对手Anthropic ,计划为其 Claude 聊天机器人推出价格更高的订阅选项。2025 年 3 月,Anthropic 以 615 亿美元的估值完成了 35 ...
这种不透明让AI有时会「胡说八道」,甚至故意撒谎。Anthropic刚刚推出了一项突破性研究,用类似大脑扫描的技术,深入Claude 3.5 Haiku的「脑子」 ...
前段时间也是给大家分享了AI编程王者Claude3.7 ... 但有了 DeepSeek V3 发布即成为 Chatbot Arena 榜单前十中唯一一个开源模型的刷榜历史,还是在发布 ...