智喜作者陈俊达、智喜编辑李水清11月25日报道,Anthropic今日发布了其旗舰产品Claude Opus 4.5编程模型。 Anthropic 表示,这是世界上最强大的编程、代理和计算机使用模型。在真正的软件工程测试 SWE Bench Validation 中,Claude Opus 4.5 成为第一个得分超过 80% 的 AI 模型,不仅领先于 Claude Sonnet 4.5,还领先于上周发布的 Gemini 3 Pro 和 GPT-5.1 Codex-Max。 Anthropic 还让 Claude Opus 4.5 通过了该公司面试人类工程师的艰难家庭测试。结果,在规定的两个小时内,Claude Opus 4.5 取得了比之前任何人类候选者更高的分数。这种表型人工智能模型在关键技术技能方面优于优秀的人类候选人。调度并不是 Claude Opus 4.5 中唯一的改进。视觉技能、推理和数学技能比前几代人更好,使他们适合日常任务,例如详细的研究和使用幻灯片和电子表格。与此同时,Anthropic大幅降低了Claude Opus系列型号的价格。 Claude Opus 4.5 的定价为每百万代币 5 美元(入)/25 美元(出),仅为上一代 Claude Opus 4.1 的 1/3。同时,Anthropic还专门取消了Opus系列的使用限制。 Claude Opus 4.5 现已可用于 Claude 应用程序和 API。不过,在使用 Opus 之前,用户必须注册顶级套餐,每月费用为 200 美元。 Claude Opus 4.5 支持 AWS、Google Cloud 和 Microsoft Azu。它们也在三大云平台上发布。 1、前端性能更上一层楼,让你一口气完美玩《我的世界》。使用 Claude Opus 4.5 有什么好处?许多用户在Anthropic官方模型发布的评论部分分享了他们的第一手经验。关于前端功能,前端开发平台Vercel首席执行官Guillermo使用了Claude Opus 4.5 创建一个购物网站。一次生成的结果是:Guillermo 感叹 Claude Opus 4.5 处于完全不同的水平,而且非常好。这位网友分享了用 Claude Opus 4.5 创建的四个英雄部分。这是您的网站或应用程序中用于吸引用户注意力的重要区域。正如您所看到的,这些页面在字体设计和网页布局方面看起来很优雅。一些网友正在使用 Claude Opus 4.5 创建 Minecraft 克隆,并检查具有更复杂模型的项目的性能。Opus 4.5 首次成功,生成了 3,500 行代码。网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro那样走捷径。 Claude Opus 4.5 重制的《我的世界》游戏是一款不错的作品,拥有多种生物群落(平原、沙漠、雪地)、透明的树叶和水块,以及出色的库存和制作系统。所有这些都结合在一场游戏中。还可以营造出云朵般的效果,而且网友表示,他们以前从未见过能做到这一点的模型。 AI订阅平台Every的联合创始人兼首席执行官Dan Shipper感叹,每六个月到一年就会出现一个真正改变行业格局的模型,而今天发布的ClaudeOpus 4.5就是这个模型。 Schipper 称这是他用过的最好的编程模型。 2.主导7种编程语言的测试并显着提高安全性。在发布之前,Anthropic 对 Claude Opus 4.5 模型进行了内部测试。据测试人员称,Claude Opus 4.5 能够在没有太多指导的情况下处理模棱两可的情况并权衡利弊。当多个系统出现复杂错误时,Claude Opus 4.5可以自行找到解决方案。几周前,Claude Sonnet 4.5 几乎不可能完成的任务,现在 Claude Opus 4.5 可以轻松实现。人类测试人员告诉建模团队,Claude Opus 4.5 确实“知道它在做什么”。 Anthropic分享了Claude Opus 4.5 acros的性能多个基准。在测试多种编程语言熟练程度的 SWE Bench Multilingual 中,Claude Opus 4.5 在八种编程语言中的七种中取得了领先的性能。在研究深度搜索代理能力的 BrowseComp-Plus 中,Claude Opus 4.5 比 Claude Sonnet 4.5 领先约 4.7%。 Claude Opus 4.5 还超越了几个常用的参考点。例如,在衡量代理人能力的银行τ2中,模型必须扮演航空公司客服人员帮助困难乘客的角色。此参考问题要求模型拒绝更改经济舱机票,因为航空公司不允许更改经济舱机票。但Claude Opus 4.5找到了一个巧妙且合乎逻辑的解决方案:先更新,然后更改航班。因为从技术角度来看,Claude Opus 4.5 对客户有帮助。意想不到的方法,基准测试认为它是失败的。但这种创造性的解决问题的方法lem 求解是向前迈出的一大步。寻找巧妙的方法来解决预期的约束也可以被视为一种有益的黑客,其中模型以意想不到的方式“操纵”规则和目标。防止此类偏差是 Anthropic 的安全测试目标之一。根据内部评估,Claude Opus 4.5 的相关行为发生率略高于 10%,远低于 GPT-5.1 和 Gemini 3 Pro 的 20%。 Claude Opus 4.5 在抵抗字注入攻击方面取得了重大进展。芯片注入攻击秘密地植入欺骗性指令来欺骗模型执行有害操作。与其他业界领先的型号相比,Opus 4.5 更难被芯片注入攻击所欺骗。 3. 添加新的思维强度控件并使用与 GPT 相同的上下文压缩功能。随着最新模型的发布,Anthropic 还宣布了 Claude 开发者平台的多项新功能。随着模型变得更加智能,它们可以解决以下问题更少的步骤,减少回溯、冗余探索和长推理。与上一代模型相比,Claude Opus 4.5 取得了相似或更好的结果,同时显着减少了代币消耗。但不同的任务需要不同的权衡。开发人员可能希望他们的模型不断考虑困难问题,或者他们可能需要更敏捷的响应。通过 Claude API 的新“思考强度”参数(努力参数),开发人员可以在最小化时间成本和最大化模型功能之间进行选择。在中等强度设置下,Claude Opus 4.5 在 SWE 银行验证测试中取得了 Sonnet 4.5 的最佳结果,代币产量减少了 76%。在全功率下,其性能比 Claude Sonnet 4.5 高 4.3 个百分点,节省 48% 的代币。 Claude Opus4.5 结合了强度控制、上下文压缩和使用高级工具以更少的手动干预来处理更长、更复杂的任务的能力。值得注意的是,OpenAI 上周发布的 GPT-5.1 Codex Max 还包含了上下文压缩的新功能。 Claude 开发者平台在上下文管理和内存功能方面取得了革命性的进步,显着提高了代理任务性能。 Claude Opus 4.5 特别擅长协调子代理团队,允许构建复杂且协调良好的多代理系统。测试数据显示,在详细的研究评估中,这种技术组合使 Claude Opus 4.5 的性能提高了近 15%。 Anthropic 通过提供效率检查、工具使用和上下文管理等基本模块,不断为开发人员提高其平台的可组合性,使开发人员能够准确地创建他们需要的功能。产品方面,Claude Code 在 Claude Opus 4.5 中获得了两次更新。规划模式让您制定更精准的计划并立即实施大概。从一开始就主动提出澄清问题,并生成一个 plan.md 文件,用户可以在实施操作之前对其进行编辑。同时,该功能也将适用于桌面应用程序,支持本地和远程会话的并行执行,以实现多个代理之间的协作,例如代码修复、GitHub 探索和同步文档更新。对于Claude应用程序的用户来说,长时间的对话不再受到上下文时长的限制,系统会自动总结之前的对话,以保持沟通的连续性。 Claude for Chrome 现已完全向所有 Max 用户开放,并支持跨浏览器选项卡管理任务。 Claude for Excel 于 10 月发布,现已将试用访问权限扩展至所有 Max、Team 和 Enterprise 用户。这些更新受益于 Claude Opus 4.5 在计算机操作、电子表格处理和长期任务管理方面的改进。 ▲Claude O创作的PPTpus 4.5 对于获得Claude Opus 4.5使用权限的Claude和Claude Code用户,平台取消了Opus的独占分配。对于 Max 和 Team Premium 用户,一般使用配额已增加。这意味着用户可用的 Opus 代币数量将相当于他们之前的 Sonnet 配额。底线:长序列和端到端能力是编程模型更新的重点。随着 Claude Opus 4.5 的发布,prog 模型分支提供了新的参考点。复杂任务调度、多智能体协作和长序列任务处理方面的革命性进步,使人工智能从“代码完成工具”转变为“端到端开发伙伴”。 Anthropic 和 OpenAI 等供应商最近的编程模型开发方向侧重于高效执行长时间运行的任务和端到端完成大型项目。随着模型绝对性能的提高和使用成本的降低,软件开发过程可能会发生重大变化。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。