今天看啥  ›  专栏  ›  InfoQ

Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面...

InfoQ  · 公众号  · 科技媒体  · 2025-09-06 10:15
    

主要观点总结

Anthropic推出的Claude Opus 4.1是对Opus 4的重大升级,显著提高了模型在多文件项目中的代码可靠性和长链式交互中的推理能力。此次升级在SWE-bench Verified基准测试中的得分从72.5%提升至74.5%,显示了模型在真实世界编程任务的可靠性提升。此外,该版本还增强了Claude作为编程助手的能力,特别是在多文件场景中的代码重构方面。安全性方面,“无害响应率”的提升意味着模型在拒绝违规请求时更加可靠。目前,Claude Opus 4.1已向特定用户群体开放使用。

关键观点总结

关键观点1: 模型升级与改进

Claude Opus 4.1是Opus 4的重要升级版,提高了多文件项目中的代码可靠性和长链式交互中的推理能力。在SWE-bench Verified基准测试中的得分有所提升。

关键观点2: 增强编程助手能力

新版本进一步强化了Claude作为编程助手的能力,尤其在开发者常用的多文件场景中,其代码重构的可靠性有所提升。

关键观点3: 安全性提升

Claude Opus 4.1的“无害响应率”提升至98.76%,模型在拒绝违规请求时更加可靠,降低了企业在合规与品牌方面的风险。

关键观点4: 适用人群与开放使用

Claude Opus 4.1已向已付费的Claude用户、通过Claude Code用于终端工作流的用户,以及通过API、Amazon Bedrock和Google Cloud的Vertex AI平台接入者开放使用。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照