从Marvel AI Day看AI硬件的变化趋势,以及Agent Infra的一些新方向
作者:微信文章大家好,我是小蛋。照例我们先过一下这周的热点问题,然后再聊聊有关agent infra的一些内容。Marvell2025AI Day的叙事更新之前因为博通股价和预期大涨的缘故,大家对这次Marvel的会议和ASIC的叙事有了更高的期待和胃口,总体来说tone是符合预期的,对产业最重要的叙事是公司乐观的把28年的数据中心TAM从原先的75B美元上修至94B美元,其中定制化加速计算芯片XPU为554亿美元。其中这里面仅ASIC芯片相关的市场就有408亿,23-28的CAGR有50%,交换芯片132亿美元,互联190亿美元,存储65亿美元。AISC需求持续加速,公司自己也在宣称客户项目持续拓展,比如与传统头部超大规模云客户中的AWS、Google、MSFT均有合作,且目前已有3个XPU项目和9个XPU attach项目;与新兴的超大规模云客户有2个XPU项目和4个XPU attach项目,Marvell预计市场份额有望从23年的小于5%,增长至28年的20%,大概也就是190亿美金的样子。Marvel自己吹的牛逼能不能实现并不重要,听听就好,因为显然Broadcom在TPU上的设计能力和量产更强,ASIC市占率也更高,目前Marvel主要的目标客户AWS的Trainium系列,可能还是处于辅助的角色,但是产业趋势的确认显然更为重要,现在已经进入ASIC的产业落地环节,Marvel的量产周期集中在26-27年,可见推理环节在未来的持续爆发,而且ASIC的定制化和供应商的引入会有增强效用,也就意味着上游供应链会扩展。
其实如果最近做AI交易的朋友们会显著地发现,近一个月来AI硬件,特别是海外产业链的走势明显要强于AI和算力其他题材,这背后不光是老大哥NV的强势、Q2的Beat和交易结构相对没那么拥挤,更重要的是,ASIC的产业趋势已经在确确实实启动并兑现了一部分价值。国内本来也应该有一波趋势,之前资金也确实bet了,但无奈量产计划延迟,昇腾910系列全年出货目标从最初的85万张下调至70万张左右,其中910B和910C各占一半。这里面核心的品类还是在光模块和PCB上,但是逻辑不太一样,光模块的thesis有几个:伴随GB300机柜产品的出货,1.6T光模块开始放量;推理和ASIC的投入增加带来的800G的增量,以及一部分硅谷idc开始替换新的光模块产品;而PCB主要还是依赖GB机柜出货和交换机的升级,很明显,光模块的逻辑更优一些,其他的如光芯片、MPO、铜缆等增量是不如前两者的。从产业的角度来说,光的发展在未来AI的逻辑趋势会更优于电,这也是国内比较有优势的地方。另外也多说一点,国产算力/租赁题材的行情启动,还是要基于两点:一是依赖NV的B系列芯片对国内供应的稳定,以及国产芯片替代的确定性;二是DS R2的刺激,所以好事多磨吧。Agent Infra的一些新方向最近花了比较多时间在研究Agent,前面也写了一些文字,Agent infra我觉得是比较有意思的一个领域,因为它很多时候直接决定了Agent公司的产品能力。拾象之前发布了一篇Agent Infra 图谱,写得很好,我想在这基础上做一些补充说明。拾象把Agent infra分成了四个细分赛道:Environment,Context,Tools和Security。这里面Environment里最火爆的就是Sandbox和Browser Use。当这4部分凑齐了之后,LLM就可以比较好的相互调用,做多步推理任务了。我们知道,在传统LLM的训练和推理的时候,主要是通过基于人类认知的SFT和RLHF,再加上CoT的推理思考,主要是通过人类清洗标注+合成数据的方式来做的,而在Agent时代,由于加入了很多Tools use,基本上都是要通过CoT+Tools use的方式来做任务执行轨迹,这就导致了一个问题,它几乎不可能通过人工来标注,只能让模型或者Agent自己选择调用并不断生成数据。它大概的步骤是这样的:首先需要有一个任务生成器,它可以提供Agent多场景的自动合成的任务能力,比如网页交互、多轮对话等;然后它可以匹配Tool use,并且是对于公开的工具支持是比较广泛的;在Sandbox里快速启动任务轨迹,生成结合内嵌工具的CoT数据;最后可以评价生成任务轨迹并进行打分,一整套下来形成闭环,再反馈给前端的任务生成和工具匹配,完善生成更高质量的任务轨迹。这里面打分评价是关键,它决定了数据的质量和成本,未来趋势也会从通用场景走向垂类/个性化场景。AI转向推理对于Infra和数据行业会发生非常大的变化,一个是产生非常多的工具内嵌的CoT,比如有代码、搜索、图片甚至视频等,另一个就是通用公共数据向各个细分专业领域的专家数据蔓延。结合最近Meta收购/投资Scale AI的新闻,小扎说他再也不希望有一个它无法控制的平台出现,你就会有所感知,大模型和Agent公司已经不希望其他公司知道他们用什么数据来改进模型,数据是背后最根本的原因。在Meta投资了Scale AI之后,很多大公司像Google,OpenAI都会考虑减少甚至取消与Scale AI的合作,最近好几家AI招聘公司的业务需求暴增,比如Handshake年初推出了AI训练服务的业务,让平台上50万博士和300万说是给科技公司标注STEM推理数据,增长速度远超之前的传统业务(高校招聘),年底有望达到1亿美金ARR(传统业务2亿ARR)。还有一家Surge,定位为高端数据标注服务,专注于最复杂、最有挑战性的AI训练任务,据The Information的报道,Surge AI去年的ARR就已经做到了10亿美金,也是非常夸张了。在AI推理时代,数据和Infra的结合会越来越紧密,我也见到有些数据公司已经自己造了一套轮子来更好的生成数据。
如果在前面四个细分赛道之中再加上一个的话,我觉得data infra可以单独拿出来,它可能会融合其中的一些东西,比如Environment和Tools use,也许边界没那么清晰,但价值已经足够大到容纳好几家公司来compete了。
页:
[1]