
还有一个问题:能力评测和安全评测用的是类似的技术架构。如果能力评测能被注水,安全评测凭什么幸免?能hack编程评测的模型,hack对齐评测也不会更难。OpenAI今年2月已经宣布停用SWE-bench Verified,内部审计发现59.4%的被审计问题存在有缺陷的测试,模型在用有bug的标准来衡量。所有被测的前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)
当前文章:http://e63c2.taoqelun.cn/ggc/cu8.html
发布时间:13:44:15
国内/05-17
国内/05-17
国内/05-23
国内/05-17
国内/05-18
国内/05-20
国内/05-22
国内/05-18
国内/05-22