专栏名称: InfoQ

有内容的技术社区媒体。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

Claude Opus 4.1 上线，SWE-bench 验证率 74.5%，重构可靠性与安全性全面...

InfoQ · 公众号 · 科技媒体 · 2025-09-06 10:15

主要观点总结

Anthropic推出的Claude Opus 4.1是对Opus 4的重大升级，显著提高了模型在多文件项目中的代码可靠性和长链式交互中的推理能力。此次升级在SWE-bench Verified基准测试中的得分从72.5%提升至74.5%，显示了模型在真实世界编程任务的可靠性提升。此外，该版本还增强了Claude作为编程助手的能力，特别是在多文件场景中的代码重构方面。安全性方面，“无害响应率”的提升意味着模型在拒绝违规请求时更加可靠。目前，Claude Opus 4.1已向特定用户群体开放使用。

关键观点总结

关键观点1: 模型升级与改进

Claude Opus 4.1是Opus 4的重要升级版，提高了多文件项目中的代码可靠性和长链式交互中的推理能力。在SWE-bench Verified基准测试中的得分有所提升。

关键观点2: 增强编程助手能力

新版本进一步强化了Claude作为编程助手的能力，尤其在开发者常用的多文件场景中，其代码重构的可靠性有所提升。

关键观点3: 安全性提升

Claude Opus 4.1的“无害响应率”提升至98.76%，模型在拒绝违规请求时更加可靠，降低了企业在合规与品牌方面的风险。

关键观点4: 适用人群与开放使用

Claude Opus 4.1已向已付费的Claude用户、通过Claude Code用于终端工作流的用户，以及通过API、Amazon Bedrock和Google Cloud的Vertex AI平台接入者开放使用。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

IT之家 · 【华硕 ROG Equalizer 电源均流线被曝翻车：RTX -20260503232205

昨天

36氪 · 百万豪宅，月租400：年轻人涌入「空城」

昨天

IT之家 · 华为官网“悄悄”更新：5A、星闪、超级终端、畅连无网通信...

昨天

虎嗅APP · 第一批没结婚的韩国中女，已经开始“领养”闺蜜了

2 天前

网易科技 · 移动星厨主理人独家揭秘：具身智能机器人如何从“展台”走向“后厨”

2 天前

化工新材料 · 化工巨头，推出全新聚碳酸酯！

1 年前

北京时间 · 《哪吒2》进前十！冯小刚15年前曾向饺子发出邀约→

1 年前

招银理财 · 本周在售｜理财清单已更新

1 年前

互联网的一些事 · 家长不带儿童安全座椅，结果儿子被姐姐调座椅压到头，悲剧就这么发生-20250814161940

8 月前

下水道男孩 · 这是针对我家 Lady Gaga 吗？

4 月前