应用介绍
更为严重的问题出现在河流渡河实验中。Claude 论文指出,苹果团队测试了 N≥6 个行为者使用船只容量 b=3 的实例,但这是一个早已确立的数学结果:传教士-食人族谜题及其变体对于 N>5 且 b=3 的情况根本没有解决方案。通过自动将这些不可能的实例评为失败,研究团队无意中展示了纯程序化评估的危险——模型得到零分不是因为推理失败,而是因为正确识别了不可解决的问题。
更为严重的问题出现在河流渡河实验中。Claude 论文指出,苹果团队测试了 N≥6 个行为者使用船只容量 b=3 的实例,但这是一个早已确立的数学结果:传教士-食人族谜题及其变体对于 N>5 且 b=3 的情况根本没有解决方案。通过自动将这些不可能的实例评为失败,研究团队无意中展示了纯程序化评估的危险——模型得到零分不是因为推理失败,而是因为正确识别了不可解决的问题。