马鞍山异型材设备厂家 Claude Sonnet 5 上线日差评刷屏：不外千问和 Minimax，价比翻车

新闻资讯 | 2026-07-03 06:57

作家丨允毅马鞍山异型材设备厂家

裁剪丨马晓宁

Claude Sonnet 5才发布了天，网上仍是吵翻天——简直全是差评。

Anthropic把它定位为“迄今具 Agent 能力的 Sonnet”，以致径直说它在多量智能体任务上仍是接近旗舰 Opus 4.8，价钱惟有Opus 的四折。

听起来，这即是来给开荒者送仁爱的：强的Agent、低廉的API、长的荆棘文、稳的安全对皆。

但剧情莫得按官脚本走。

发布不到 24 小时，张来自 GitHub 的跑分截图开动在中语时期圈传。这个名堂叫LLM Benchmark Dashboard，是个东说念主额外题库，主要在逻辑、数学、编程、东说念主类直观等难度硬核理问题上，测模子在度念念考、长念念维链（Reasoning）花式下的发挥。

在这场考察中，被寄托厚望的 Sonnet 5 不仅没能碾压全场，反而暴炫耀个致命瑕玷：度拉胯的价比。

过程仔细对比，咱们不错看到三个要道事实：

，限分数上 Sonnet 5 丢掉了对统力。在这套硬核逻辑题里，MiniMax-M3 跑出了 61.95 的分拔得头筹，而 Qwen3.7-Plus 也在限分上与 Sonnet 5 死死平。这意味着国产理大模子在纯逻辑的较量上，仍是有能力和硅谷顶流平起平坐。

二，测试老本不在个量。这是对比中夺宗旨地。Sonnet 5 跑完同套测试花了 71.96 元，而 Qwen 只消 11.71 元，MiniMax 只消 11.64 元。Sonnet 5 的账单是国产模子的 6 倍还多。若是真按这个比例大界限调用，企业的生意落地老本根底难以承受。

三，耗时短，但在这里可能并不是善事。Sonnet 5 平均耗时仅 404 秒，远快于 Qwen 的 1156 秒和 MiniMax 的 887 秒。这证明它的 Token 吐出速率如实快。

但在濒临难逻辑题时，“快”常常意味着念念考不够。昭彰，Sonnet 5 的念念维链（CoT）堆叠得不够厚，自我纠错预算受限，致它在的确需要“搜肠刮肚”的地，没能靠算力把限分拉开。

也难怪网友看完反馈如斯真实：

“这不是能力不行，这是价比不行。”

不外也要证明，这毕竟是个东说念主保重的额外题库，遮掩面和命题作风都有特定偏向。它弗成代表 Sonnet 5 的一起能力，但在中语开荒者眷注的“纯逻辑攻坚”场景下，如实线路了个问题：在越来越卷的理赛说念里，Sonnet 5 不再是阿谁“闭眼选”的谜底。

平替 Opus？拉倒吧

Anthropic 给 Sonnet 5 设定的官叙事，蓝本特殊了了：Agent 能力大升，价钱却只消旗舰的四折。

为了拉拢开荒者，官以致径直“发糖”：2026 年 8 月 31 日前限时特惠，API 输入只消 2 好意思元 / 百万 token。（作为截止后还原 3 好意思元）

濒临这波狂表露，各人社区的反馈却分红了“三派”。

▎“吹爆派”表露，Sonnet 5 在多步 Agent 和工程编程能力上，如实顶到了天花板

在 Reddit 的开荒者社区里，多量强度手搓代码的身手员发来贺电，赞好意思于它在复杂后端开荒、多文献重构上的统力。

有开荒者在体验后留住了这么句赞评价：“它只用了会儿，就成立了个把新旗舰 Opus 4.8 卡了好几天的严重 Bug。拿到了 Opus 的才气，却只收 Sonnet 的价钱。”

这种宏大的自主行能源本即是它的刚毅。在Claude Code 结尾用具全新升后，Sonnet 5 能够自主进利用命流宗旨、输出自检，并能闇练调用结尾和浏览器。

在具含金量的 SWE-bench Pro 官跑分中，Sonnet 5拿下了63.2，直逼Opus 4.8 的 69.2；而在主力编程用具 Cursor 发布的真实测试里，Sonnet 5 在 CursorBench 上的得分从前代 Sonnet 4.6 的 49 路暴涨到了 57。

这意味着在本色研发场景中，它仍是有能力在莫得东说念主类及时干扰的情况下，立处罚过半的多文献复杂重构任务。

还有位中语开荒者实测了三个任务，差异是跨文献配置挪动、写 API 中间件和重构 200 行用具函数。

效果前两个任务通关， Sonnet 5还会主动跑测试，但在三个任务“重构 200 行用具函数”上却翻了车。但根底原因并不是代码能力不行，而是名堂没写测试框架版块，模子只好“凭嗅觉盲开”。

虽然，它离“万能”还差得远。时期大佬 Simon Willison 吐槽，Sonnet 5在组用具调用时频繁卡壳，冷常识问答也全凭运说念。逗的是代码渲染翻车现场，本想让它画只“骑自行车的鹈鹕”，它硬是给“指鸟为鹅”，画了只大白鹅出来。

▎吐槽派则觉得Sonnet 5的Max 理花式是个“账单刺客”

若是说Sonnet 5基础能力让东说念主惊喜，那它挑升想象的Max 理花式，径直把开荒者看傻了。官初志蓝本是但愿模子进行度的理。但实测发现，这玩意儿度容易堕入老本的“过度念念考”。有个网友神褒贬：“它念念考了整通盘这个词世纪马鞍山异型材设备厂家，光了我的额度，后就吐出那么短句话。”

在 Agent 自主办刑场景下，Sonnet 5 的调用轮次比上代翻了 3 倍，输出 Token 彭胀了 40。

有网友掏出蓄意器算，若是按范例订价，用 Sonnet 5 完成个长程智能任务要花 2.29 好意思元；而用上代的Opus 4.8，塑料挤出机设备只消 1.80 好意思元，径直贵了 15。

何况，Anthropic 此次玩了个“暗度陈仓”，暗暗换了新的分词器（Tokenizer）。致通常段文本，当今的 Token 数目会径直彭胀 35。有网友回归，“价钱看着没变，账单径直涨飞了”。

当“话痨模子”遇上“计费通胀”，径直让 ToB 企业大破。

Uber刚给 5000 名工程师怒放 Claude Code 试用，效果重度用户的东说念主均月度账单径直飙到了 500–2000 好意思元。短短四个月，全年的 AI 编程预算被硬生生光，逼得 Uber CTO 迫切踩刹车，文告从头评估财务模子。

有偶，微软中枢的 Windows 与 M365 团队也扛不住了。据曝他们将在 2026 年 6 月全员停用 Claude Code，迁回自的 GitHub Copilot，只为了控住那其离谱的 Token 老本。

▎不雅望派表露，不如国产模子，提议跳过

在中语时期圈和 X 上，不少网友径直把它跟 GLM-5.2、MiniMax-M3、DeepSeek V4 Pro 对比。

比能力？两者简直握平。拼价钱？价差 56 倍。

注 AI 基准测试的 LisanBench 独创东说念主径直在 X 上辣评，帖子浏览量斯须冲破67万：“Sonnet 5 应该被扔进垃圾桶，它比 DeepSeek贵了整整 57 倍。”

夸张的是组来自国内开荒者的真实跑账对比：有东说念主用国产 DeepSeek 跑整天神命流，Token 破费过 2400 万，账单仅 11.73 元东说念主民币；而同天用中转站调 Claude，花了 1700 元东说念主民币。

11 块 vs 1700 块，差了 145 倍。这仍是不是“价比”层面的较量了，这根底即是两个寰宇的订价体系。

争议中枢：成也理，败也理

在这些争议的中枢，Sonnet 5的理能力是另个值得关注的话题。面，它在Agent场景中发挥出，展现了强的自主宗旨、用具调用及多文献配合能力。它像是能自主解决问题的“假造身手员”马鞍山异型材设备厂家，场景越复杂，它的价值越，展现了它在“慢念念考”的的真实力。

但另面，它在逻辑理和磨练型任务上，论是限能力，照旧价比，不如国产模子。

归根结底，亦然因为它的Max 理花式“用劲过猛”。在追求能时，蔓延和老本使得在该花式下进行浅易理常常焉知非福。

Hacker News 的时期大佬 doctoboggan去扒出了 Anthropic 官的“老本-能散点图”后，说明了个论断：

“在同等花销下，Opus 4.8 的发挥反而好！”

太“乖”亦然种翻车

除能与订价争议外，Sonnet 5 过度保守，也成为开荒者迷惑吐槽的大短板。

官不仅自曝丑，表露为了止潜在糜掷，模子被硬生生塞进了个“说念德审查器”。濒临些时期央求，它有时不仅不帮手，还加大了对用户的“说教”。

Anthropic还在发布会纵欲宣传：看！Sonnet 5 在“编写 Firefox 瑕玷利用代码（Exploit Development）”的测试中，考了分！

效果径直把 Hacker News 上的客工程师们看笑了，网友们纷繁情嘲讽：

“这就像安全公司在粗犷地文告：看，咱们成心让这个模子变笨、变残废了，这么它就笃定不会惹缺乏。”

关于需要进行网络安全攻演练、黑盒测试的白帽子工程师来说，这种过度安全对皆不仅莫得保护任何东说念主，反而径直让用具失去了蓝本该有的实用价值。

太“乖”的 Claude，亦然种翻车。

价比成为共鸣的追求

Claude Sonnet 5 到底翻没翻车？这取决于你拿它干什么，以及你愿不肯意为它昂的账单买单。

若是你的核肉痛点是 Agent 智能体编程、复杂后端工程重构、多文献长程协同，它八成率依然会让你感到惊喜。

但若是你仅仅想跑些中语硬核逻辑题、作念日常常识问答、或者在预算有限的情况下追求致价比，那它的发挥和狂燃的 Token 账单，可能抱歉它的身价。

畴昔两年，通盘东说念主比拼的都是“谁贤慧、谁的基准分”；而当今的时期圈与企业界，大都在拿着算盘蓄意“谁合算、谁的生意落地老本低”。

当国产 DeepSeek 别的理任务综老本只消 0.04 好意思元，而 Sonnet 5 在 Max 花式下要花 2.29 好意思元时，跑分榜上那两分的渺小差距，仍是根底法营救起达56倍的价差。

大模子赛场，仍是不再是Anthropic 想怎么订价，开荒者就得怎么掏钱的时期了。

关于正处于算力与预算双重慌乱中的渊博开荒者而言，或然想问的是：我为 AI 进去的每分真金白银，真的都买到了对应价值的‘智能’吗？

但愿 Claude 能好好回复这个问题。

上车，雷峰网带你看遍各人 AI 顶会精华

可畅览：

演讲PPT

大会敷陈全文

热点论文解读

学术新星访谈

电话：0316--3233399相关词条:罐体保温塑料挤出设备钢绞线超细玻璃棉板万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：乌海塑料管材生产线厂家国部：日用“贪图论”抹黑我国开支遮拦其“再军事化”

下一篇：江门隔热条PA66 国总对海南广西广东开动汛台风四救急反馈