资讯

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。 相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。 这个结果确实让很多人都感到意外,因为通常情况下,新一代 ...
不过,以冷静理性著称的 LangChain 创始人 Harrison Chase 对 OpenAI 的这份指南中提出的一些核心观点表达了强烈异议,甚至表示该指南一开始就让人感到“恼火”。他公开批评这份指南“具有误导性”,并罕见地进行了逐字逐句的分析。