百度声称这两款模型在多个评测指标上达到了领先水平,在多项第三方基准测试中超越了 DeepSeek 的非推理型 V3 模型和 OpenAI 的 GPT-4.5(注意百度选择的这个相似的命名)。这些测试包括 C-Eval (评估中文大语言模型在 52 个学科领域的知识和推理能力)、CMMLU (中文大规模多任务语言理解) 和 GSM8K (数学应用题)。
The NBS on Monday released data of China's economy in the first two months of 2025, which showed industrial output, fixed asset investment and retail sales all growing at a faster pace than a year ...