
作家丨允毅马鞍山异型材设备厂家
裁剪丨马晓宁
Claude Sonnet 5才发布了天,网上仍是吵翻天——简直全是差评。
Anthropic把它定位为“迄今具 Agent 能力的 Sonnet”,以致径直说它在多量智能体任务上仍是接近旗舰 Opus 4.8,价钱惟有Opus 的四折。
听起来,这即是来给开荒者送仁爱的:强的Agent、低廉的API、长的荆棘文、稳的安全对皆。
但剧情莫得按官脚本走。
发布不到 24 小时,张来自 GitHub 的跑分截图开动在中语时期圈传。这个名堂叫LLM Benchmark Dashboard,是个东说念主额外题库,主要在逻辑、数学、编程、东说念主类直观等难度硬核理问题上,测模子在度念念考、长念念维链(Reasoning)花式下的发挥。
在这场考察中,被寄托厚望的 Sonnet 5 不仅没能碾压全场,反而暴炫耀个致命瑕玷:度拉胯的价比。
过程仔细对比,咱们不错看到三个要道事实:
,限分数上 Sonnet 5 丢掉了对统力。在这套硬核逻辑题里,MiniMax-M3 跑出了 61.95 的分拔得头筹,而 Qwen3.7-Plus 也在限分上与 Sonnet 5 死死平。这意味着国产理大模子在纯逻辑的较量上,仍是有能力和硅谷顶流平起平坐。
二,测试老本不在个量。这是对比中夺宗旨地。Sonnet 5 跑完同套测试花了 71.96 元,而 Qwen 只消 11.71 元,MiniMax 只消 11.64 元。Sonnet 5 的账单是国产模子的 6 倍还多。 若是真按这个比例大界限调用,企业的生意落地老本根底难以承受。
三,耗时短,但在这里可能并不是善事。Sonnet 5 平均耗时仅 404 秒,远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这证明它的 Token 吐出速率如实快。
但在濒临难逻辑题时,“快”常常意味着念念考不够。昭彰,Sonnet 5 的念念维链(CoT)堆叠得不够厚,自我纠错预算受限,致它在的确需要“搜肠刮肚”的地,没能靠算力把限分拉开。
也难怪网友看完反馈如斯真实:
“这不是能力不行,这是价比不行。”
不外也要证明,这毕竟是个东说念主保重的额外题库,遮掩面和命题作风都有特定偏向。它弗成代表 Sonnet 5 的一起能力,但在中语开荒者眷注的“纯逻辑攻坚”场景下,如实线路了个问题:在越来越卷的理赛说念里,Sonnet 5 不再是阿谁“闭眼选”的谜底。
01
平替 Opus?拉倒吧
Anthropic 给 Sonnet 5 设定的官叙事,蓝本特殊了了:Agent 能力大升,价钱却只消旗舰的四折。
为了拉拢开荒者,官以致径直“发糖”:2026 年 8 月 31 日前限时特惠,API 输入只消 2 好意思元 / 百万 token。(作为截止后还原 3 好意思元 )
濒临这波狂表露,各人社区的反馈却分红了“三派”。
▎“吹爆派”表露,Sonnet 5 在多步 Agent 和工程编程能力上,如实顶到了天花板
在 Reddit 的开荒者社区里,多量强度手搓代码的身手员发来贺电,赞好意思于它在复杂后端开荒、多文献重构上的统力。
有开荒者在体验后留住了这么句赞评价:“它只用了会儿,就成立了个把新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的才气,却只收 Sonnet 的价钱。”
这种宏大的自主行能源本即是它的刚毅。在Claude Code 结尾用具全新升后,Sonnet 5 能够自主进利用命流宗旨、输出自检,并能闇练调用结尾和浏览器。
在具含金量的 SWE-bench Pro 官跑分中,Sonnet 5拿下了63.2,直逼Opus 4.8 的 69.2;而在主力编程用具 Cursor 发布的真实测试里,Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49 路暴涨到了 57。
这意味着在本色研发场景中,它仍是有能力在莫得东说念主类及时干扰的情况下,立处罚过半的多文献复杂重构任务。
还有位中语开荒者实测了三个任务,差异是跨文献配置挪动、写 API 中间件和重构 200 行用具函数。
效果前两个任务通关, Sonnet 5还会主动跑测试,但在三个任务“重构 200 行用具函数”上却翻了车。但根底原因并不是代码能力不行,而是名堂没写测试框架版块,模子只好“凭嗅觉盲开”。
虽然,它离“万能”还差得远。时期大佬 Simon Willison 吐槽,Sonnet 5在组用具调用时频繁卡壳,冷常识问答也全凭运说念。逗的是代码渲染翻车现场,本想让它画只“骑自行车的鹈鹕”,它硬是给“指鸟为鹅”,画了只大白鹅出来。
▎吐槽派则觉得Sonnet 5的Max 理花式是个“账单刺客”
若是说Sonnet 5基础能力让东说念主惊喜,那它挑升想象的Max 理花式,径直把开荒者看傻了。 官初志蓝本是但愿模子进行度的理。但实测发现,这玩意儿度容易堕入老本的“过度念念考”。 有个网友神褒贬:“它念念考了整通盘这个词世纪马鞍山异型材设备厂家,光了我的额度,后就吐出那么短句话。”
在 Agent 自主办刑场景下,Sonnet 5 的调用轮次比上代翻了 3 倍,输出 Token 彭胀了 40。
有网友掏出蓄意器算,若是按范例订价,用 Sonnet 5 完成个长程智能任务要花 2.29 好意思元;而用上代的Opus 4.8,塑料挤出机设备只消 1.80 好意思元,径直贵了 15。
何况,Anthropic 此次玩了个“暗度陈仓”,暗暗换了新的分词器(Tokenizer)。致通常段文本,当今的 Token 数目会径直彭胀 35。有网友回归,“价钱看着没变,账单径直涨飞了”。
当“话痨模子”遇上“计费通胀”,径直让 ToB 企业大破。
Uber刚给 5000 名工程师怒放 Claude Code 试用,效果重度用户的东说念主均月度账单径直飙到了 500–2000 好意思元。短短四个月,全年的 AI 编程预算被硬生生光,逼得 Uber CTO 迫切踩刹车,文告从头评估财务模子。
有偶,微软中枢的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code,迁回自的 GitHub Copilot,只为了控住那其离谱的 Token 老本。
▎不雅望派表露,不如国产模子,提议跳过
在中语时期圈和 X 上,不少网友径直把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。
比能力?两者简直握平。拼价钱?价差 56 倍。
注 AI 基准测试的 LisanBench 独创东说念主径直在 X 上辣评,帖子浏览量斯须冲破67万:“Sonnet 5 应该被扔进垃圾桶,它比 DeepSeek贵了整整 57 倍。”
夸张的是组来自国内开荒者的真实跑账对比:有东说念主用国产 DeepSeek 跑整天神命流,Token 破费过 2400 万,账单仅 11.73 元东说念主民币;而同天用中转站调 Claude,花了 1700 元东说念主民币。
11 块 vs 1700 块,差了 145 倍。 这仍是不是“价比”层面的较量了,这根底即是两个寰宇的订价体系。
02
争议中枢:成也理,败也理
在这些争议的中枢,Sonnet 5的理能力是另个值得关注的话题。 面,它在Agent场景中发挥出,展现了强的自主宗旨、用具调用及多文献配合能力。它像是能自主解决问题的“假造身手员”马鞍山异型材设备厂家,场景越复杂,它的价值越,展现了它在“慢念念考”的的真实力。
但另面,它在逻辑理和磨练型任务上,论是限能力,照旧价比,不如国产模子。
归根结底,亦然因为它的Max 理花式“用劲过猛”。 在追求能时,蔓延和老本使得在该花式下进行浅易理常常焉知非福。
Hacker News 的时期大佬 doctoboggan去扒出了 Anthropic 官的“老本-能散点图”后,说明了个论断:
“在同等花销下,Opus 4.8 的发挥反而好!”
03
太“乖”亦然种翻车
除能与订价争议外,Sonnet 5 过度保守,也成为开荒者迷惑吐槽的大短板。
官不仅自曝丑,表露为了止潜在糜掷,模子被硬生生塞进了个“说念德审查器”。濒临些时期央求,它有时不仅不帮手,还加大了对用户的“说教”。
Anthropic还在发布会纵欲宣传:看!Sonnet 5 在“编写 Firefox 瑕玷利用代码(Exploit Development)”的测试中,考了分!
效果径直把 Hacker News 上的客工程师们看笑了,网友们纷繁情嘲讽:
“这就像安全公司在粗犷地文告:看,咱们成心让这个模子变笨、变残废了,这么它就笃定不会惹缺乏。”
关于需要进行网络安全攻演练、黑盒测试的白帽子工程师来说,这种过度安全对皆不仅莫得保护任何东说念主,反而径直让用具失去了蓝本该有的实用价值。
太“乖”的 Claude,亦然种翻车。
04
价比成为共鸣的追求
Claude Sonnet 5 到底翻没翻车?这取决于你拿它干什么,以及你愿不肯意为它昂的账单买单。
若是你的核肉痛点是 Agent 智能体编程、复杂后端工程重构、多文献长程协同,它八成率依然会让你感到惊喜。
但若是你仅仅想跑些中语硬核逻辑题、作念日常常识问答、或者在预算有限的情况下追求致价比,那它的发挥和狂燃的 Token 账单,可能抱歉它的身价。
畴昔两年,通盘东说念主比拼的都是“谁贤慧、谁的基准分”;而当今的时期圈与企业界,大都在拿着算盘蓄意“谁合算、谁的生意落地老本低”。
当国产 DeepSeek 别的理任务综老本只消 0.04 好意思元,而 Sonnet 5 在 Max 花式下要花 2.29 好意思元时,跑分榜上那两分的渺小差距,仍是根底法营救起达56倍的价差。
大模子赛场,仍是不再是Anthropic 想怎么订价,开荒者就得怎么掏钱的时期了。
关于正处于算力与预算双重慌乱中的渊博开荒者而言,或然想问的是:我为 AI 进去的每分真金白银,真的都买到了对应价值的‘智能’吗?
但愿 Claude 能好好回复这个问题。
上车,雷峰网带你看遍各人 AI 顶会精华
可畅览:
演讲PPT
大会敷陈全文
热点论文解读
学术新星访谈
电话:0316--3233399相关词条:罐体保温 塑料挤出设备 钢绞线 超细玻璃棉板 万能胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
