上期为大家分享了H20性能表现之Qwen3-Coder-480B(以下称480B),今天,我为大家继续带来新的评测,这次,介绍的是 Qwen3-235B-A22B-Instruct-2507(以下称235B),这也是阿里这阵子发布的杆把子模型了,其 benchmark 表现超过了 DeepSeek 及 Kimi K2。
顾名思义,235B总参数达到235B,同样,只能在H20或A100这样的机器上才能运行。来看看其在H20上的性能表现吧。
首先来看看普通问答能力,输入128,输出2K的表现,如下图。
虽然235B的激活集也达到22B的规模,但其吞吐率还是不错的。
单用户达到82 token/s,虽然不及480B 92 token/s 的水平,但也比DeepSeek V3的31 token/s有164%的涨幅。
即使到128并发用户,也能达到32 token/s,远超480B的 21 token/s。
我们再来看长输入的表现(输入4K,输出512),适合于知识库或多次提问的场景。如下图所示。
其吞吐率有明显的下降,单用户约77 token/s。随着并发用户的增加,其首字时延性能下降明显。当并发用户达到50时,首字时延也来到了10秒,不过,吞吐率仍然有27 token/s,相比480B的12秒及21 token/s也是好些的,并且远超 DeepSeek V3 的 11 token/s。
总体而言,235B在H20表现还是不错的,特别是在多用户并发访问方面来说,即使是压力最大的知识库应用或智能体应用,能达到50个并发用户的同时,保持较好的用户体验,应该说性价比远超 DeepSeek V3 了。