最近一个月,Anthropic的更新速度让人有点跟不上——仅1月份就上线了30多项功能,2月又连发两款新模型。
如果你是Claude的日常用户,这篇文章帮你把最值得关注的更新梳理清楚。
Opus 4.6(2月5日)是目前的旗舰,首次开放百万token上下文窗口测试版。
什么概念?整个代码库、一份冗长的法律合同、几十篇研究论文,可以一次性全部塞进去让它处理,不用担心”记忆”不够用。
Sonnet 4.6(2月17日)才是这波更新里最值得关注的——以比Opus便宜40%的价格,交出了让人意外的成绩单:
在衡量真实办公任务的GDPval-AA基准测试里,Sonnet 4.6得分1633 Elo,超过了Opus 4.6的1606。
也就是说,日常的文档、分析、写作类工作,Sonnet 4.6比旗舰还好用,还便宜。
① 编程能力跨级了
原本需要顶配Opus才能搞定的任务,Sonnet 4.6现在也能完成。在早期测试里,开发者对Sonnet 4.6的偏好甚至超过了上一代旗舰Opus 4.5。
企业测试数据:需要数学计算的任务准确率从62%提升到89%,从PDF/Word中提取信息准确率稳定在80%以上。
② 电脑操作接近人类水平
OSWorld基准测试得分72.5%,相比上一代的14.9%,可以说是质的飞跃。
填复杂表单、操作多步骤网页这类任务,现在Claude基本能独立完成,不需要你一步步盯着。
③ 百万token上下文
同样支持100万token的上下文窗口(Beta版),单次对话可以容纳海量文档,适合需要处理大量资料的研究、法律、财务场景。
④ 安全性也在同步提升
对提示注入攻击的防御大幅加强,在某些安全指标上,Sonnet 4.6达到了所有Claude模型里最好的水平。
自适应思考:Claude现在会自己判断这个问题值不值得深度推理。简单问题秒答,复杂问题自动调用更多算力,不用你手动切换。
上下文压缩(Beta):长对话进行到一定程度,Claude会自动总结压缩前面的内容,让长任务可以持续推进而不中断——做长篇写作或复杂项目推进时特别有用。
Excel / PowerPoint 原生集成:Claude现在可以作为插件直接在Excel里编辑数据透视表、设条件格式,在PowerPoint里基于数据生成图表。省掉了”复制给Claude→拿到方案→再手动操作”的来回折腾。目前面向Max、Team和企业用户开放。
2月初,Claude 5(代号Fennec)的版本标识符出现在了Google Vertex AI的错误日志里——claude-sonnet-5@20260203。
Anthropic官方还没确认,但多个独立来源交叉验证,可信度较高。预计Claude 5的编程能力将超越现有Opus 4.5,价格还会便宜约50%。
如果你现在每天在用Claude:
日常知识工作可以优先选Sonnet 4.6而不是Opus,性价比更高;API调用指定 claude-sonnet-4-6 即可。
Anthropic这一个月的更新节奏,某种程度上说明了AI竞争的激烈程度。对普通用户来说,这是好事——同样的钱,能用到的能力越来越强了。