Skip to content

🔥 行业热点

1. NVIDIA GTC 2026 发布 Vera Rubin 架构,黄仁勋预测万亿订单

NVIDIA 在 GTC 2026 大会上发布新一代 AI 芯片架构 Vera Rubin,性能功耗比提升 10 倍。黄仁勋预测 Blackwell 和 Vera Rubin 系列到 2027 年将带来超过 1 万亿美元的订单。同时发布 DGX Station GB300、IGX Thor GA、RTX PRO 4500 等硬件产品,以及 NemoClaw 软件栈和 OpenClaw 支持。Uber 自动驾驶车队将采用 NVIDIA 技术。

来源: CNBC | NVIDIA Blog

💰 锐评: 万亿美元订单预测不是营销话术,而是算力军备竞赛的量化指标。Vera Rubin 的 10 倍能效比提升意味着数据中心可以在相同电力预算下部署 10 倍算力——这在电力成为瓶颈的当下是决定性优势。但真正值得关注的是 NemoClaw 和 OpenClaw:NVIDIA 正在从"卖芯片"转向"卖软件生态",这是毛利率更高的商业模式。黄仁勋的野心不是成为 Intel,而是成为 AI 时代的 Microsoft。


2. Anthropic 完成 300 亿美元 G 轮融资,估值达 3800 亿美元

Anthropic 宣布完成 300 亿美元 Series G 融资,由 GIC 和 Coatue 领投,投后估值达 3800 亿美元。资金将用于前沿研究、产品开发和基础设施扩张。这是 Anthropic 继 2025 年亚马逊 80 亿美元投资后的又一轮巨额融资,使其成为全球估值第三高的 AI 公司。

来源: Anthropic News | NY Times

💰 锐评: 3800 亿美元估值意味着什么?Salesforce 市值约 3000 亿,Adobe 约 2500 亿。Anthropic 还没有实现规模化盈利,就已经比这两家成熟软件巨头更"值钱"。这只能解释为:资本认为 AI 基础模型是平台级机会,赢家通吃。但风险在于——如果 OpenAI 的 GPT-6 在关键基准上大幅领先 Claude,这 3800 亿估值可能瞬间蒸发一半。这是一场高风险的信仰押注。


3. 🔄 中国开源模型占全球 AI 使用量 30%,Qwen 3.5 挑战 GPT-5(连续跟踪)

前情提要: 3/18 和 3/19 连续报道了 MIT 预测硅谷产品将更多基于中国开源模型,以及马化腾对 DeepSeek 的公开回应。今日数据进一步证实这一趋势。

最新数据显示,中国开源模型已占全球 AI 使用量的 30%,阿里巴巴 Qwen 系列下载量突破 7 亿次。Qwen 3.5 系列(0.8B-9B)在数学基准测试中超越 GPT-5,9B 模型在 GPQA Diamond 上得分 81.7,超过 GPT-OSS-120B 的 71.5。中国模型正在从"追赶者"转变为"定义者"。

来源: Yahoo Finance | BuildFastWithAI

💰 锐评: 30% 这个数字是地缘政治的转折点。当全球三分之一的 AI 推理运行在中国开源模型上,美国的技术封锁策略就失效了一半。Qwen 3.5 用 9B 参数击败 120B 的 GPT-OSS,这证明了中国团队在模型效率优化上的领先。更值得警惕的是——开源模型的扩散是不可逆的,一旦开发者习惯了中国模型,迁移成本会让美国模型难以夺回市场。

🔬 锐评: Qwen 3.5 的 Gated DeltaNet 架构值得关注。这不是简单的 Scaling Law 堆料,而是架构层面的创新。262K 原生上下文支持在 9B 模型上实现,说明中国团队在长上下文技术上有独到之处。但科研人员需要追问:这些基准测试是否存在过拟合?实际下游任务的表现是否同样出色?


4. OpenAI GPT-5.4 正式发布:百万 Token 上下文 + 统一编码能力

OpenAI 发布 GPT-5.4,整合 GPT-5.3 Codex 的编码能力到统一模型中,实现 105 万 Token 的上下文窗口——目前商用模型中最大。新增动态"Tool Search"架构和 Computer Use 能力,在 SWE-Bench Pro 上达到 57.7%,GDPval 基准得分 83%,个体声明错误减少 33%。

来源: BuildFastWithAI | MindStudio

🔬 锐评: 百万 Token 上下文是工程壮举,但科研问题依然存在:模型的"有效注意力"能覆盖多远?100 万 Token 的窗口不等于 100 万 Token 的理解力。Tool Search 架构是有趣的创新——动态工具选择比固定工具集更接近人类的问题解决方式。但 SWE-Bench Pro 57.7% 的成绩距离"替代程序员"还很远,这提醒我们 AGI 的时间表可能被过度乐观估计了。


5. 🔄 AI 编程工具竞争白热化:Cursor、Devin、Windsurf 三强争霸(连续跟踪)

前情提要: 3/18 报道了 LangChain 开源 SWE Agent 和 claude-hud 等工具的崛起,显示 AI 编程工具正在从"辅助"走向"自动化"。

2026 年 AI 编程工具进入激烈竞争期。Cursor 凭借深度 IDE 集成和智能代码补全占据开发者心智;Devin 主打全自动软件开发,可独立完成端到端任务;Windsurf 强调协作式 AI 编程体验。SWE-bench Verified 测试显示,Augment 的 Auggie、Cursor 和另一款工具位列前三。

来源: MorphLLM | Codegen | Builder.io

🚀 锐评: AI 编程工具赛道正在经历"从玩具到工具"的关键转折。Cursor 的成功证明:深度集成比通用能力更重要。Devin 的问题在于——全自动听起来很酷,但开发者真的愿意放弃控制权吗?Windsurf 的协作式定位可能更贴近真实工作流。这个赛道的终极赢家不会是技术最强的,而是最懂开发者心理的。


6. NVIDIA Nemotron 3 Super 发布:120B MoE 模型挑战 GPT-OSS

NVIDIA 在 GTC 2026 发布 Nemotron 3 Super,120B 总参数(12B 激活)的混合专家模型,采用原生 NVFP4 预训练。在 SWE-Bench Verified 上得分 60.47%,超越 GPT-OSS,吞吐量比 GPT-OSS-120B 高 2.2 倍。

来源: BuildFastWithAI

💰 锐评: NVIDIA 做模型不是要和 OpenAI 竞争,而是要证明自家芯片的优越性。Nemotron 3 Super 的 2.2 倍吞吐量提升,本质上是给潜在客户的一个 Demo:"看,用我们的芯片跑模型就是更快"。这是典型的"卖铲子前先挖个洞给你看"策略。对于 AI 创业公司来说,Nemotron 提供了一个"足够好"的开源基座模型选择。


1. xszyou / Fay ⭐ 12,547(+13 today)

  • 仓库: xszyou/Fay
  • 语言: Python
  • 简介: Fay 是一个帮助数字人(2.5d、3d、移动、pc、网页)或大语言模型(OpenAI 兼容、DeepSeek)连通业务系统的 Agent 框架。

🚀 锐评: Fay 的定位精准——不做底层模型,而是做"最后一公里"连接器。数字人 + LLM 的组合正在爆发,但大多数团队卡在"如何让模型驱动数字人"这个工程问题上。Fay 提供了标准化的接入层,让业务系统可以快速接入各种数字人形态。中国市场对数字人需求旺盛(直播、客服、教育),Fay 的价值在于降低接入门槛。


2. d2l-ai / d2l-zh ⭐ 76,318(+46 today)

  • 仓库: d2l-ai/d2l-zh
  • 语言: Python
  • 简介: 《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被 70 多个国家的 500 多所大学用于教学。

🎯 锐评: 作为 AI 教育的标杆项目,D2L-zh 的持续热度说明深度学习的人才需求仍在高位。500+ 大学采用这个数据很惊人——它实际上定义了一代 AI 工程师的知识体系。今日 46 个新增 star 中,很可能有相当一部分来自春季学期开学后的学生。这个项目的长尾价值在于它培养的用户会成为各种 AI 工具的潜在采用者。


3. 🔄 alibaba / higress ⭐ 7,841(+22 today)

前情提要: 3/18 和 3/19 均报道了 Higress,显示开发者对 AI 基础设施工具的关注度持续上升。

  • 仓库: alibaba/higress
  • 语言: Go
  • 简介: AI Gateway | AI Native API Gateway。专为 AI 应用场景优化,支持 LLM 路由、Token 级别的流量控制、多模型负载均衡、AI 可观测性等功能。

🚀 锐评: 当所有人都在做 AI 应用的时候,阿里悄悄把 AI 时代的"入口"给做了。API Gateway 听起来不性感,但它是每一个 AI 应用的流量必经之路。Token 级别的流控、多模型路由——这些都是企业客户真金白银需要的功能。Higress 的策略是对的:不做模型、不做应用,做管道。在 AI 的世界里,管道公司往往活得最久。连续三天登上 Trending 说明市场需求真实存在。


4. jeecgboot / JeecgBoot ⭐ 45,461(+15 today)

  • 仓库: jeecgboot/JeecgBoot
  • 语言: Java
  • 简介: JeecgBoot 是一款 AI 驱动的低代码开发平台,提供"零代码"与"代码生成"双模式,内置 AI 聊天助手、AI 大模型、知识库、AI 流程编排、MCP 与插件体系。

🚀 锐评: 低代码 + AI 是一个被低估的组合。传统低代码平台的痛点是"灵活性不足",而 AI 可以填补这个缺口——用自然语言描述需求,AI 生成代码,低代码平台负责部署。JeecgBoot 的 4.5 万 star 说明它已经在企业级市场建立了口碑。支持 MCP(Model Context Protocol)是明智之举,这意味着它可以接入任何兼容的 AI 模型。


5. soybeanjs / soybean-admin ⭐ 14,021(+18 today)

  • 仓库: soybeanjs/soybean-admin
  • 语言: TypeScript
  • 简介: 一个清新优雅、高颜值且功能强大的后台管理模板,基于 Vue3、Vite7、TypeScript、Pinia、NaiveUI 和 UnoCSS。

🚀 锐评: 后台管理模板是开发者工具领域的"常青树"。soybean-admin 的技术栈选择(Vue3 + Vite + TypeScript)紧跟前端潮流,NaiveUI 提供了不错的视觉体验。这类项目的商业化路径通常是:开源免费吸引用户,企业版提供高级功能或技术支持。18 个今日新增 star 显示其社区活跃度健康。


📄 arXiv 前沿论文

1. VEGA-3D:利用视频生成模型的隐式 3D 先验进行场景理解

  • 作者: Xianjin Wu, Dingkang Liang, Tianrui Feng 等
  • arXiv: 2603.19235
  • 摘要: 多模态大语言模型展现出强大的语义能力,但往往存在"空间盲"问题,难以进行细粒度几何推理和物理动态理解。现有方案通常依赖显式 3D 模态或复杂的几何支架,受限于数据稀缺和泛化挑战。本文提出利用大规模视频生成模型中的隐式空间先验,将预训练视频扩散模型重新定位为"潜在世界模拟器"。通过从中级噪声水平提取时空特征,并通过 Token 级自适应门控融合机制与语义表示集成,无需显式 3D 监督即可丰富 MLLM 的密集几何线索。

🔬 锐评: 这个思路非常巧妙——视频生成模型为了合成时间连贯的视频,必须隐式学习 3D 结构和物理规律。VEGA-3D 不是训练新模型,而是"挖掘"已有模型的隐藏能力。这种"模型考古学"的思路值得推广:大模型可能包含我们尚未发现的能力。关键问题是:这种方法在不同类型的视频生成模型上是否都有效?还是特定架构才有这种隐式先验?


2. Matryoshka Gaussian Splatting:连续细节层次渲染

  • 作者: Zhilin Guo, Boqiao Zhang, Hakan Aktas 等
  • arXiv: 2603.19234
  • 摘要: 从单一模型以可调节保真度渲染场景的能力(细节层次 LoD)对 3D Gaussian Splatting (3DGS) 的实际部署至关重要。现有离散 LoD 方法仅提供有限的操作点,而连续 LoD 方法虽然实现更平滑的缩放,但往往在满容量时质量明显下降。本文提出 Matryoshka Gaussian Splatting (MGS),在不影响满容量渲染质量的前提下为标准 3DGS 管线启用连续 LoD。核心思想是随机预算训练:每次迭代采样随机 splat 预算,同时优化对应前缀和完整集合。

🔬 锐评: MGS 的核心洞察来自俄罗斯套娃(Matryoshka)——渲染任意前缀就能产生连贯重建。随机预算训练策略简单但有效:只需两次前向传播,无需架构修改。这种"简单方法解决复杂问题"的风格是优秀工程研究的标志。对于 VR/AR 应用,连续 LoD 意味着可以根据视距动态调整渲染质量,大幅降低计算开销。


3. CubiD:高维表示 Token 上的离散视觉生成

  • 作者: Yuqing Wang, Chuofan Ma, Zhijie Lin 等
  • arXiv: 2603.19232
  • 摘要: 离散 Token 视觉生成因其能与语言模型共享统一的 Token 预测范式而备受关注。然而,现有方法局限于低维潜在 Token(通常 8-32 维),牺牲了理解所需的语义丰富性。本文提出 Cubic Discrete Diffusion (CubiD),首个针对高维表示(768-1024 维)的离散生成模型。CubiD 在整个高维离散表示上执行细粒度掩码——任何位置、任何维度都可以被掩码并从部分观测中预测。

🔬 锐评: CubiD 解决的是多模态统一架构的关键瓶颈:视觉和语言如何在同一表示空间共存?低维 Token 无法承载足够的语义信息,而高维 Token 的离散生成是未探索领域。CubiD 的"立方体掩码"策略(任何维度、任何位置)让模型学习空间位置内和跨位置的丰富相关性。如果这项工作成功,可能催生真正的统一多模态架构——一个模型同时处理文本、图像、视频生成和理解。


4. Nemotron-Cascade 2:级联 RL 和多领域策略蒸馏的后训练方法

  • 作者: Zhuolin Yang, Zihan Liu, Yang Chen 等
  • arXiv: 2603.19220
  • 摘要: 本文提出 Nemotron-Cascade 2,一个开放的 30B MoE 模型(3B 激活参数),在数学和编码推理方面达到前沿开放模型水平。它是继 DeepSeekV3.2-Speciale-671B-A37B 之后第二个在 2025 国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)和 ICPC 世界总决赛中获得金牌级表现的开放权重 LLM,参数仅为其 1/20。关键进展包括:大幅扩展 Cascade RL 覆盖更广泛的推理和 Agent 领域;引入多领域策略蒸馏,从每个领域最强的中间教师模型中高效恢复基准回归。

🔬 锐评: 30B 参数达到 671B 模型的竞赛成绩,这证明了后训练(post-training)的威力。Cascade RL + 多领域蒸馏的组合是聪明的工程选择:不是从头训练一个超级模型,而是用相对小的模型"萃取"多个大模型的知识。这提示我们:模型能力的上限可能不在于参数量,而在于训练策略的精巧程度。对于资源有限的研究者,这是一条可行的高性能模型获取路径。


5. FinTradeBench:面向 LLM 的金融推理基准

  • 作者: Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan 等
  • arXiv: 2603.19225
  • 摘要: 真实世界的金融决策需要推理异构信号,包括公司基本面和交易信号。现有金融问答基准主要关注资产负债表数据,很少评估对市场交易信号或两者交互的推理。本文提出 FinTradeBench,整合公司基本面和交易信号的基准,包含 1400 道基于 NASDAQ-100 公司十年历史数据的问题。评估 14 个 LLM 发现:检索增强对文本基本面推理提升显著,但对交易信号推理帮助有限。

💰 锐评: FinTradeBench 揭示了一个被忽视的事实:LLM 在金融领域的应用存在明显的能力边界。文本理解(财报、新闻)是 LLM 的强项,但时间序列推理(价格走势、技术指标)仍是短板。这意味着"AI 选股"还远未成熟——至少不能单纯依赖 LLM。对于量化基金来说,传统统计模型 + LLM 文本分析的混合策略可能是更务实的路径。


6. DriveTok:3D 驾驶场景 Token 化

  • 作者: Dong Zhuo, Wenzhao Zheng, Sicheng Zuo 等
  • arXiv: 2603.19219
  • 摘要: 随着视觉 - 语言 - 动作模型和世界模型在自动驾驶系统中的普及,可扩展的图像 Token 化变得至关重要。然而,大多数现有 Tokenizer 针对单目 2D 场景设计,应用于高分辨率多视角驾驶场景时效率低下且视角间不一致。本文提出 DriveTok,高效的 3D 驾驶场景 Tokenizer,通过 3D 可变形交叉注意力将视觉特征转换为场景 Token,并添加 3D 头直接预测 3D 语义占用。

🔬 锐评: 自动驾驶的感知 - 决策一体化需要统一的表示形式。DriveTok 的 3D 场景 Token 化方案是朝着这个方向的重要一步。多视角一致性是自动驾驶的关键挑战——相邻摄像头的感知结果不能矛盾。3D 占用预测头的加入增强了空间感知能力。这项工作可能加速世界模型在自动驾驶领域的落地。


7. NavTrust:具身导航可信性基准

  • 作者: Huaide Jiang, Yash Chaudhary, Yuping Wang 等
  • arXiv: 2603.19229
  • 摘要: 具身导航分为视觉 - 语言导航(VLN)和目标导向导航(OGN)。现有工作主要在理想条件下评估模型性能,忽视了真实世界中的输入损坏。本文提出 NavTrust,首个在统一框架中系统性地对 RGB、深度和指令进行损坏并评估其影响的基准。对 7 个最先进方法的评估显示,在真实损坏下性能显著下降,暴露了关键的鲁棒性差距。

🔬 锐评: NavTrust 揭示了一个残酷现实:实验室里的 SOTA 模型在真实世界可能不堪一击。RGB-Depth 损坏(传感器噪声、光照变化)和指令变化(语言歧义、口音差异)是真实场景中的常态,而非例外。这个基准的意义在于推动具身 AI 从"演示级"向"产品级"进化。对于机器人研究者来说,NavTrust 应该成为模型发布的必测项。


📊 今日总结

今天的 AI 领域呈现出几个值得关注的趋势:

基础设施层面,NVIDIA GTC 2026 的万亿美元订单预测和 Vera Rubin 架构发布,标志着算力军备竞赛进入新阶段。NVIDIA 正在从芯片供应商转型为 AI 基础设施平台提供商,这是商业模式的质变。

资本层面,Anthropic 3800 亿美元估值的 G 轮融资,以及中国开源模型占全球 30% 使用量的数据,共同指向一个事实:AI 领域的资本竞争和地缘政治博弈正在同时升温。资本押注的是平台级机会,而地缘政治决定的是技术扩散的边界。

技术层面,GPT-5.4 的百万 Token 上下文、Nemotron-Cascade 2 的小参数大能力、以及 arXiv 上 3D 场景理解和离散视觉生成等论文,显示 AI 正在从"规模竞赛"走向"效率优化"和"能力精细化"。

应用层面,GitHub Trending 上 Higress 连续三天上榜,以及 AI 编程工具的白热化竞争,说明开发者社区的关注点正在从"模型能力"转向"工程落地"。

一句话总结:2026 年的 AI 行业,技术突破仍在继续,但商业化和地缘政治正在成为决定胜负的更重要变量。


本报告由 QoderWork 自动生成,数据截止至 2026-03-20