Anthropic发布首款混合推理模型：擅长解决实际问题，得分远超OpenAI

此外，当用户通过API（应用程序编程接口）使用Claude 3.7 Sonnet时，用户可以通过命令Claude思考不超过多少token来控制“思考预算”，该数值需要小于模型输出限制的12.8万个token，以便于用户在速度、成本和答案质量之间进行权衡。

Anthropic方面还指出，新模型最大的优势是“更擅长现实世界中的任务”，而不是针对“数学和计算机科学竞赛问题进行优化”。在评估AI模型解决实际软件问题的能力的编码测试SWE-Bench Verified中，Claude 3.7 Sonnet的得分从Claude 3.5 Sonnet的49.0%提升至62.3%，在经过特定框架调整后最高得分可至70.3%。OpenAI o3-mini和DeepSeek R1在该项测试上的得分分别为49.3%和49.2%。

在指令遵循、一般推理、多模态能力和代理编码方面，Claude 3.7 Sonnet都取得了出色的表现，扩展思维模式则在数学和科学方面展现出了显著提升。Anthropic表示，除了传统的基准测试之外，Claude 3.7 Sonnet甚至还在《精灵宝可梦：红》的游戏测试中超越了Claude系列过去的所有模型。

Claude 3.7 Sonnet（开启或关闭扩展思维模式）在各大基准测试中的得分。来源：Anthropic

同时，Anthropic宣布推出旗下第一款代理编码工具Claude Code，可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到GitHub，以及使用命令行工具。据介绍，在早期测试中，Claude Code一次性完成了通常需要45分钟以上手动操作才能完成的任务。目前，该工具已开放预览版，将在未来几周内不断改进。

另据外媒报道，24日当天，Anthropic即将完成一轮35亿美元的融资，公司估值将达到615亿美元。公司本轮融资的最初目标为20亿美元，但在谈判期间成功说服投资者增加投资。本轮融资的参与者包括Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners，总部位于阿布扎比的投资公司MGX正在洽谈参与事宜。

不过，Anthropic依然面对较大的竞争压力。据知情人士透露，Anthropic的年化收入（根据近期销售额推断未来12个月的收入）在近期达到约12亿美元，公司仍在亏损，将利用最新融资的现金支持训练更强大的AI模型。亚马逊已向Anthropic累计投资80亿美元，而谷歌母公司Alphabet已向其投资20亿美元。

此前，1月20日，中国AI初创公司深度求索（DeepSeek）推出开源推理模型DeepSeek-R1，凭借其性能表现引发全球AI界轰动，各家AI大模型企业也纷纷宣布推出自己的推理模型。例如，OpenAI发布推理模型o3-mini，谷歌也在Gemini App中推出了其推理模型Gemini 2.0 Flash Thinking实验版。

此外，2月25日，阿里通义Qwen发布基于旗舰模型Qwen2.5-Max构建的推理模型QwQ-Max-Preview预览版，会和DeepSeek以及Kimi的推理模型一样展现思考过程，目前用户可在通义千问网页版进行体验。通义千问团队表示，QWQ-Max的官方版本将在近日发布，会同步发布安卓和iOS版应用程序，以及规模更小的可在本地设备部署的模型。