2025年10月27日,高通官网发布新闻稿,宣布了AI 200和AI 250两款芯片。高通正式向数据中心市场发起挑战,直面当前该领域的领导者英伟达。两款芯片分别将在2026和2027年上市。
然而在笔者看来,高通这两款芯片看起来都非常可疑,简单来说不看好。新闻稿里面语焉不详,完全不披露芯片算力核心指标,唯一能得到的信息就下面两条——
- AI 200描述是用了768GB的LPDDR内存。
- AI 250新闻稿的描述是near memory compute,号称把内存带宽提高了10x,推测应该就是存算一体PIM架构创新。
高通的思路,就是想办法用低成本的LPDDR内存,而不是高带宽、价格更贵的HBM和GDDR显存。同时还大胆押注了存算一体架构。
先说AI 200吧:为什么用LPDDR内存不靠谱
高通AI 200用LPDDR内存,比较接近英伟达的DGX Spark思路。然而,SGLang的评测显示,DGX Spark表现令人失望。参见: 为什么不推荐购买英伟达 DGX Spark。
原因在于LPDDR 5内存带宽差距实在是太大了。LPDDR 5的DGX Spark,内存带宽只有273GB/s,相比之下GDDR 7的RTX 5090是1.8TB/s,HBM 3e的B200是8TB/s,分别快了10-40倍。10倍的带宽差距,怎么都弥补不回来。
768GB看起来是容量很大,能跑更大的模型,MoE模型看起来也只需要激活一部分参数,似乎是利好。个人用户端侧只有一个请求还好,但服务于数据中心一定是开比较大的batch size的。一旦有并发以后,存在多组不同的激活参数,会使得带宽压力依然很大,LPDDR内存的劣势就凸显了。
举个例子,GPT-OSS-120B的模型,只激活5B参数。但有并发的前提下,每个请求激活的参数是不同的。所以当并发数来到10的时候,相当于等效激活了50B参数。前面所说的DGX Spark,273GB/s的速度,对应50B激活参数,单请求的理论速度上限下降到4-5 token/s,完全是不可用的状态。
单卡B200可以同时处理100个并发,单请求维持到50 token/s的速度。实际上B200的速度是100倍。比一下价格,DGX Spark是4000美元,B200是4万美元。
所以这就出现了一个反直觉的事情。虽然GDDR和HBM更贵,但相比于3-5倍的价格提升,他们带来10-40倍的带宽提升面前,最终HBM的性价比反而比DDR和LPDDR内存要好。10倍的价格,100倍的性能,对于数据中心大批量请求来说,B200的性价比高于DGX Spark。
在英伟达的卡上已经反复证明过的事情,数据中心卡高带宽必须要用HBM,高通再来证明一遍,最后还是死路一条。
再来说AI 250。PIM属于技术创新。
新闻稿又说是near memory compute,并非真正意义上的存算一体,而是让计算单元和局部存储单元更加靠近,比较类似于AMD的infinite cache这样的思路。
AI 250的表述是带宽提高了10x,我个人理解是以AI 200的LPDDR内存为基准,提高了10倍。那大致可以推断速度大概达到了GDDR显存的水平。又考虑到高通PIM属于全新技术,成本和有大量游戏卡均摊的GDDR比,还真不一定低。
英伟达有专门用GDDR显存的Rubin CPX堵截的前提之下,也很难看到有什么市场意义上的突破。
最后来看,高通AI 200和250,切入的是一个很尴尬的市场。
对于个人玩家来说,RTX 5090或者RTX 6000这样的显卡是门槛最低的选择。
对于数据中心推理来说,高通芯片不能胜任大batch size,平均到每token的成本要比HBM显存的卡高。
而对于企业私有部署来说,英伟达的卡学习成本最低,大量的企业技术人员都是更熟悉英伟达的体系,很难看到会有企业专门为了买高通的卡而研究部署方案。
最后的结局就是三个市场一个都走不通。
![]()