Skip to content

🔥 行业热点

1. Meta 与 Nebius 签署 270 亿美元 AI 基础设施协议

Meta 与荷兰数据中心公司 Nebius 达成一项为期五年、价值高达 270 亿美元的 AI 基础设施合作协议。根据协议,Nebius 将从 2026 年初开始为 Meta 提供 120 亿美元的专用 AI 计算容量,以及另外 150 亿美元的可选扩展。这是 Meta 在自建数据中心之外最大规模的外部基础设施采购。

来源: Reuters | CNBC | Bloomberg

💰 锐评: Zuckerberg 终于想明白了一件事:自己建不如外包快。270 亿美元看似天价,但对比 Meta 每季度数百亿的 AI 资本支出,这笔交易本质上是用确定性换时间窗口。Nebius 从一家"前 Yandex 资产"摇身一变成为 AI 基础设施新贵,靠的不是技术领先,而是在欧洲拿地建设的速度。真正的赢家是 NVIDIA——不管谁建数据中心,GPU 的订单都流向同一个地方。


2. Micron 财报超预期:AI 需求推动创纪录 239 亿美元营收

美光科技(Micron)发布 2026 财年 Q2 财报,营收达到创纪录的 239 亿美元,超出市场预期。公司同时大幅上调全年资本支出预期,明确表示 HBM(高带宽内存)需求持续飙升,AI 训练和推理对存储芯片的拉动力远超此前预估。公司股价在盘后交易中显著上涨。

来源: Reuters | Bloomberg | Investing.com

💰 锐评: AI 淘金热中卖铲子的人又一次证明了自己。HBM 就是这一轮 AI 军备竞赛中的"铲子"——不管你训的是 GPT-6 还是 Gemini 4,都得从 Micron 和 SK Hynix 手里买内存。资本支出上调意味着 Micron 押注 AI 需求至少还有两年高增长期。但要警惕的是:半导体的周期性从未消失,今天的产能扩张可能是后天过剩的种子。


3. OpenAI 通过 AWS 扩大政府 AI 业务

据 TechCrunch 和 Reuters 报道,OpenAI 已与 Amazon Web Services (AWS) 签署新合作协议,通过 AWS 的政府云基础设施向美国联邦机构销售 AI 服务。此举标志着 OpenAI 正式大规模进军政府市场,利用 AWS 已有的 FedRAMP 和安全认证来加速部署。此前 OpenAI 和 Amazon 在 2 月底刚宣布战略合作伙伴关系。

来源: TechCrunch | Reuters

💰 锐评: OpenAI 这步棋走得精妙:不自建政府合规体系,而是借 AWS 的壳。政府市场是 AI 公司梦寐以求的"稳定现金流引擎"——合同长、粘性高、价格不敏感。但隐患在于:OpenAI 和 Microsoft 的关系因 AWS 合作正变得越来越微妙。一边是最大投资方,一边是最大竞争对手的云平台,Sam Altman 正走在一根越来越细的钢丝上。


4. 北京 AI 和机器人博览会:医疗智能机器人成焦点

2026 年北京国际人工智能应用与机器人博览会于 3 月 18 日举行,重点展示了面向医疗健康领域的智能机器人。展品涵盖执行武术动作的人形机器人、手术辅助机器人、康复护理机器人等,体现了中国在 AI 与实体经济融合方面的推进力度。

来源: Euronews | AfricaNews

🎯 锐评: 从投资人角度看,中国的 AI 机器人赛道热闹但分散,大量公司在"展会型创新"阶段——展台上能跑能跳,出了会场就回实验室吃灰。但从创业者角度看,医疗机器人是少数真正有 PMF(Product-Market Fit)的方向:老龄化社会 + 医护人员短缺 = 刚需。关键不在于机器人能不能打太极拳,而在于它能不能在凌晨三点帮护士翻一个 80 公斤的病人。


5. Thoma Bravo 联合创始人警告:AI 将大规模颠覆软件公司

私募巨头 Thoma Bravo 联合创始人 Orlando Bravo 在 3 月 17 日公开表示,"公开市场上许多软件公司将被 AI 颠覆",部分软件公司应该接受估值下调。他认为 AI 正在从根本上改变软件行业的竞争格局,传统 SaaS 模式面临前所未有的挑战。

来源: CNBC | Seeking Alpha

💰 锐评: Orlando Bravo 管着 1600 亿美元的软件资产,他说软件要被颠覆,本质是在说"我要趁低价买入"。但他指出的问题是真实的:当 AI Agent 能自动完成过去需要十个 SaaS 工具串联的工作流时,中间那些"管道工"软件公司的存在意义就要打上问号。SaaS 的护城河从来不是技术,而是迁移成本——但 AI 正在让迁移成本趋近于零。


6. AI 创业融资两个月突破 2200 亿美元

据 Crunchbase 数据,2026 年前两个月 AI 初创公司融资总额达到 2200 亿美元,远超 2025 年全年水平。其中 OpenAI 的 1100 亿美元轮融资占据半壁江山,其余包括 xAI、Anthropic 等公司的大额融资。资本正在以前所未有的速度涌入 AI 赛道。

来源: eeNews Europe | Electronics Weekly | Crunchbase

💰 锐评: 2200 亿美元,两个月。去掉 OpenAI 那 1100 亿,剩下的 1100 亿仍然是天文数字。这不是风险投资,这是主权级别的基础设施竞赛。但冷静想:这些钱大部分最终流向了 NVIDIA 的 GPU、电力公司的电费、和数据中心的地租。AI 创业公司变成了一个资本效率极低的"GPU 消耗器"。当潮水退去,只有那些真正找到商业闭环的公司才能活下来——而这个比例不会超过 5%。


7. Morgan Stanley 预测 2026 年上半年将出现"重大 AI 突破"

摩根士丹利发布报告,预测 2026 年上半年将出现"变革性 AI"(Transformative AI)的突破,AI 模型将实现自我改进能力,市场对此准备不足。报告估计 AI 基础设施的累计投资将接近 3 万亿美元。

来源: Fortune | Business Insider | Morgan Stanley

🎯 锐评: 投行的预测向来是"先射箭再画靶"——如果 AI 真突破了,他们就是先知;如果没有,这份报告悄悄从网站上消失就好。但"3 万亿美元累计投入"这个数字倒是实打实的。从工程师角度看,当前 LLM 的 scaling law 确实在趋近瓶颈,真正的突破不太可能来自"更大的模型",更可能来自架构创新或者新的训练范式。华尔街总是高估短期、低估长期——但这一次他们可能连方向都猜错了。


8. GPT-5.4 发布:百万 token 上下文窗口,统一编码能力

OpenAI 于 3 月 5 日发布 GPT-5.4,将 GPT-5.3 Codex 的编码能力整合到统一模型中,并实现了 100 万 token 的上下文窗口——这是目前商用模型中最大的。GPT-5.4 还支持计算机使用(Computer Use)能力,在多个基准测试中超过此前的 GPT-5.3 系列。

来源: MindStudio | Medium | Milvus AI Reference

🔬 锐评: 百万 token 上下文窗口的意义不在于你能塞进去多少文本,而在于它开启了一类全新的应用范式:把整个代码库、整本书、或几个月的对话历史一次性喂给模型。但科研人员需要追问的是:长上下文的"有效注意力"到底能覆盖多远?100 万 token 的窗口不等于 100 万 token 的理解力。Computer Use 的加入让 GPT-5.4 向通用数字工作者又近了一步,但离 AGI 的距离,可能比 OpenAI 的营销团队暗示的要远得多。


1. obra / superpowers ⭐ 97,164(+4,089 today)

  • 仓库: obra/superpowers
  • 语言: Shell
  • 简介: 一个 Agent 技能框架和软件开发方法论。提供结构化的方式来组织、复用和共享 AI Agent 的"技能",让 Agent 驱动的开发工作流更加系统化和可靠。

🚀 锐评: 4089 星一天,直奔 10 万大关。这不是一个普通的开源工具——它正在定义"AI 辅助开发"的工作流标准。核心洞察是对的:AI Agent 的能力瓶颈不在模型本身,而在于如何把经验沉淀为可复用的"技能"。谁掌握了技能标准,谁就掌握了 Agent 时代的 npm。


2. jarrodwatts / claude-hud ⭐ 7,684(+1,038 today)

  • 仓库: jarrodwatts/claude-hud
  • 语言: JavaScript
  • 简介: 一个 Claude Code 插件,提供可视化 HUD 面板,实时显示 Claude Code 的上下文使用量、活跃工具、运行中的 Agent 和 Todo 进度等信息。

🚀 锐评: 这个项目击中了 AI 编程工具最大的痛点:不透明。当 Agent 在后台疯狂消耗 token 时,开发者完全是瞎子。claude-hud 做的事情很简单但极其必要——给黑盒装上仪表盘。千星一天说明开发者社区对"AI 可观测性"的需求是真实的。下一步自然是:不仅看得见,还要能控制。


3. unslothai / unsloth ⭐ 56,142(+1,005 today)

  • 仓库: unslothai/unsloth
  • 语言: Python
  • 简介: 统一的 Web UI,用于本地训练和运行 Qwen、DeepSeek、gpt-oss、Gemma 等开源模型。以极致的效率优化著称,支持 LoRA/QLoRA 微调,显存占用远低于同类工具。

🚀 锐评: Unsloth 的增长曲线堪称开源 AI 领域的 "Tailwind CSS"——用极致的开发者体验吃掉了整个赛道。它解决的核心问题是:让个人开发者用一张消费级显卡也能微调大模型。5.6 万星不是虚荣指标,而是社区用脚投票的结果。但商业化是个问号——当基础模型越来越便宜、API 越来越好用,"本地微调"的 TAM 会不会反而在缩小?


4. langchain-ai / open-swe ⭐ 6,611(+481 today)

  • 仓库: langchain-ai/open-swe
  • 语言: Python
  • 简介: LangChain 团队推出的开源异步编码 Agent。定位为 SWE-bench 任务的开放解决方案,支持异步执行软件工程任务,包括 Bug 修复、功能实现等。

🚀 锐评: LangChain 团队出手做 SWE Agent,这是在抢占"AI 编码"这条赛道的基础设施位置。开源 + 异步是聪明的定位:开源降低采用门槛,异步解决了 Agent 编程中最头疼的长时任务执行问题。但 SWE Agent 赛道已经极度拥挤——Devin、Cursor、Windsurf、OpenHands——open-swe 需要证明自己不只是一个 benchmark 刷分工具,而是真能在生产环境用起来。


5. newton-physics / newton ⭐ 3,023(+26 today)

  • 仓库: newton-physics/newton
  • 语言: Python
  • 简介: 基于 NVIDIA Warp 的开源 GPU 加速物理模拟引擎,专为机器人研究者和仿真研究者设计。支持高效的刚体、流体和软体仿真。

🔬 锐评: 机器人仿真引擎一直是具身智能(Embodied AI)的基础设施短板。Newton 选择了 NVIDIA Warp 作为底层,这意味着它天然适配 NVIDIA 的 Isaac Sim 生态。对于做 sim-to-real 的研究者来说,一个好用的开源物理引擎比十篇论文更有价值。但 3000 星的量级说明这还是个小众工具——具身智能要想出圈,还需要更长的时间。


6. alibaba / higress ⭐ 7,829(+20 today)

  • 仓库: alibaba/higress
  • 语言: Go
  • 简介: 阿里巴巴开源的 AI Native API Gateway。专为 AI 应用场景优化,支持 LLM 路由、Token 级别的流量控制、多模型负载均衡、AI 可观测性等功能。

🚀 锐评: 当所有人都在做 AI 应用的时候,阿里悄悄把 AI 时代的"入口"给做了。API Gateway 听起来不性感,但它是每一个 AI 应用的流量必经之路。Token 级别的流控、多模型路由——这些都是企业客户真金白银需要的功能。Higress 的策略是对的:不做模型、不做应用,做管道。在 AI 的世界里,管道公司往往活得最久。


7. xszyou / Fay ⭐ 12,540(+9 today)

  • 仓库: xszyou/Fay
  • 语言: Python
  • 简介: 一个帮助数字人(2.5D、3D、移动端、PC、Web)或大语言模型连通业务系统的 Agent 框架。支持 OpenAI 兼容接口和 DeepSeek 等模型。

🚀 锐评: 数字人 + Agent 是一个在中国市场特别有想象力的组合——直播带货、客服、教育,每一个场景都是真金白银。Fay 做的是中间层连接器,让 LLM 能驱动数字人形象与业务系统交互。1.2 万星说明市场需求真实存在。但数字人赛道最大的悖论是:用户真的在乎和一个虚拟形象说话吗?还是说一个文字聊天框就够了?形式大于内容的产品往往走不远。


📄 arXiv 前沿论文

1. AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

  • 作者: Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu 等
  • arXiv: 2603.18000
  • 摘要: 构建基于 LLM 的 Agent 愈发重要。现有的 Agent 自进化方法主要将成功经验记录为文本提示或反思,无法在复杂场景中可靠地保证高效的任务重执行。本文提出 AgentFactory,一种全新的自进化范式:将成功的任务解决方案保存为可执行的子 Agent 代码,而非文本经验。这些子 Agent 基于执行反馈持续优化,随着处理的任务增多变得越来越强大和高效。保存的子 Agent 是带有标准化文档的纯 Python 代码,可在任何支持 Python 的系统上移植。

🔬 锐评: 这篇论文切中了 Agent 研究的核心痛点:经验如何有效沉淀?之前的方法把经验存成文本 prompt,本质上是"口头经验"——听起来有道理但不保证能复现。AgentFactory 把经验固化为可执行代码,这是从"叙事性记忆"到"程序性记忆"的质变。开源实现和标准化文档设计让它有成为 Agent 生态基础组件的潜力。Agent 的未来不是一个超级大脑,而是无数个小而专的子 Agent 的协作网络。


2. Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

  • 作者: Jianrui Zhang, Yue Yang, Rohun Tripathi 等
  • arXiv: 2603.18004
  • 摘要: Token 剪枝对提升视觉 - 语言模型(VLM)的计算效率至关重要,尤其在视频任务中存在大量时间冗余。本文提出 STTS(时空 Token 评分),一个简单轻量的模块,在 ViT 和 LLM 中统一剪枝视觉 token,无需文本条件或 token 合并,完全兼容端到端训练。STTS 在整个架构中剪枝 50% 的视觉 token,训练和推理效率提升 62%,13 个视频 QA 任务的平均性能仅下降 0.7%。

🔬 锐评: 效率优化论文往往是最有工程价值的——62% 的效率提升只换来 0.7% 的性能损失,这个 trade-off 在工业界是秒批的。STTS 的设计哲学很优雅:不需要复杂的文本条件 token 选择机制,让 ViT 和 LLM 在同一套打分标准下协同剪枝。对于做视频理解产品的团队来说,这可能直接把推理成本砍掉一半。简单方法解决复杂问题,这才是好的工程研究。


3. TDAD: Test-Driven Agentic Development

  • 作者: Pepe Alonso
  • arXiv: 2603.17973
  • 摘要: AI 编码 Agent 虽能解决真实世界的软件问题,但经常引入回归 Bug。本文提出 TDAD,一个结合 AST 代码 - 测试图构建和加权影响分析的开源工具和基准方法。在 SWE-bench Verified 上,TDAD 的 GraphRAG 工作流将测试级回归减少了 70%(从 6.08% 降至 1.82%),解决率从 24% 提升至 32%。一个意外发现是:TDD 提示反而增加了回归(9.94%),这表明小模型从上下文信息中获益更多,而非程序化指令。

🔬 锐评: 这篇论文的最大贡献不是 TDAD 本身,而是那个"意外发现":告诉小模型"该怎么做 TDD"反而有害,不如直接告诉它"哪些测试需要验证"。这个结论对整个 AI Agent 工具设计领域都有指导意义——上下文信息 > 程序化指令。回归减少 70% 是硬指标,对于想在生产环境中使用 AI 编码 Agent 的团队来说,这可能是发布前必须集成的安全网。


4. Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

  • 作者: Raghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott
  • arXiv: 2603.17942
  • 摘要: 大型语言模型虽只训练了 next-token 预测,却潜藏着多 token 预测(MTP)能力。本文提出一种无需训练的 MTP 方法,通过在嵌入空间中即时插入 mask token 来探测 LLM,实现未来 token 的并行预测,无需修改模型权重或依赖辅助草稿模型。在 LLaMA3 上接受长度提升约 12%,Qwen3 上提升 8-12%,吞吐量提升高达 15-19%。

🔬 锐评: 这是一篇"四两拨千斤"的论文。不训练、不改权重、不要额外模型,只靠在 embedding 空间里插 mask token 就能提速 15-19%——如果能复现,这对所有做 LLM 推理优化的团队都是好消息。论文还附带了一个有趣的理论发现:decoder 层会自然地将 mask-token 表征对齐到 next-token 状态。这暗示 Transformer 的内部表征远比我们理解的更有结构性。免费午餐虽然少见,但偶尔确实存在。


5. RAMP: Reinforcement Adaptive Mixed Precision Quantization

  • 作者: Arpit Singh Gautam, Saurabh Jha
  • arXiv: 2603.17891
  • 摘要: 现有量化方法对所有层强制使用统一比特宽度,导致次优的精度 - 效率权衡。本文提出 RAMP,使用 Soft Actor-Critic 强化学习框架学习每层的比特宽度分配,在全局比特预算约束下最小化困惑度。在 Llama 2 7B 上,RAMP 以 3.68GB(3.65 有效比特)达到 5.54 困惑度,超越统一 4-bit AWQ。关键发现:在 Llama 2 7B 上训练的策略可以零样本迁移到 Llama 2 13B 和 Mistral 7B。

🔬 锐评: 用强化学习来做量化比特分配,思路很 elegant。核心发现是"量化敏感度主要是架构性的"——这意味着一个模型上学到的量化策略可以直接用到其他模型上,大幅降低了混合精度量化的工程成本。3.65 有效比特就超过了 4-bit AWQ,这在端侧部署场景中意味着实打实的内存节省。对于做 Edge AI 的团队来说,RAMP 可能是下一代量化工具链的核心算法。


6. Governed Memory: A Production Architecture for Multi-Agent Workflows

  • 作者: Hamed Taheri
  • arXiv: 2603.17787
  • 摘要: 企业 AI 部署了大量自主 Agent 节点,但它们之间没有共享内存和统一治理。本文识别了五个结构性挑战,并提出 Governed Memory——一个共享内存与治理层,通过双模式记忆模型、分层治理路由、反思有界检索和闭环 schema 生命周期四种机制来解决。系统实现 99.6% 的事实召回率、92% 的治理路由精度、50% 的 token 削减,以及 500 条对抗查询下零跨实体泄漏。

🚀 锐评: Multi-Agent 系统最被忽视的问题终于有人认真解决了:Agent 之间怎么共享记忆?怎么确保 Agent A 的输出不会误导 Agent B?这不是一篇空中楼阁的论文——它已经在 Personize.ai 的生产环境中跑了。99.6% 的事实召回 + 零跨实体泄漏是工程级别的硬指标。Multi-Agent 系统要从玩具走向生产,"治理"是绕不过去的一关。这篇论文可能成为这个领域的基础参考架构。


7. DebugLM: Learning Traceable Training Data Provenance for LLMs

  • 作者: Wenjie Jacky Mo, Qin Liu, Xiaofei Wen 等
  • arXiv: 2603.17884
  • 摘要: LLM 通过多阶段管线在异构数据源上训练,但开发者缺乏定位导致特定行为的具体数据的方法。本文提出 DebugLM,为 LLM 内置数据溯源能力,让模型显式追踪其行为到特定训练数据源。模型学习将其回应与唯一的溯源标签关联,开发者可以精确识别不良行为的学习来源,并支持测试时的定向修复——无需重训或修改参数。

🔬 锐评: 这篇论文解决的是一个 LLM 工程化的核心问题:当模型出了问题,到底是哪批训练数据惹的祸?目前的做法要么是盲猜、要么是全量重训——DebugLM 提供了第三条路:溯源 + 定向修复。不重训就能"关闭"某个数据源的影响,这对企业级 LLM 部署的意义巨大。想象一下:发现模型的某些输出有版权风险,不用重训就能定向屏蔽。这可能是 LLM 合规领域的杀手级技术。


8. CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

  • 作者: Lintang Sutawika, Aditya Bharat Soni 等
  • arXiv: 2603.17829
  • 摘要: 在大型代码库上执行任务的前提是代码定位——识别需要处理的相关文件、类和函数。本文证明,通过有效的强化学习策略,只配备标准 Unix 终端的编码 Agent 就能达到强大的代码搜索性能。在 SWE-Bench Verified、Pro 和 Lite 三个基准上,CodeScout 持续优于 2-18 倍大的基础和后训练 LLM,有时接近 Claude Sonnet 的专用 scaffold 性能。

🔬 锐评: 这篇论文传递了一个反直觉但重要的信息:你不需要给 Agent 装一堆花哨的静态分析工具,一个 Unix 终端 + 好的 RL 训练策略就够了。CodeScout 用小模型在代码搜索任务上逼近了 Claude Sonnet,这说明"工具简单 + 策略聪明"的范式可能比"堆料"更有效。对于做 AI 编程助手的团队来说,这篇论文是一个重要的工程参考:与其设计复杂的工具链,不如在 RL 训练上多花功夫。


📊 今日总结

2026 年 3 月 18 日的 AI 领域呈现出"基础设施疯狂扩张、应用层急剧分化"的特征。Meta 270 亿美元的基础设施订单和 Micron 创纪录的营收,证明算力军备竞赛仍在全速推进;OpenAI 借道 AWS 进入政府市场,标志着 AI 商业化的战场正从消费端扩展到公共部门。

GitHub Trending 上,superpowers(Agent 技能框架)的爆发式增长和 claude-hud(AI 可观测性工具)的崛起,揭示了开发者社区的新共识:AI 编程的下一个瓶颈不是模型能力,而是工作流管理和透明度。

arXiv 论文方面,AgentFactory 的"可执行子 Agent"范式、TDAD 的"上下文信息优于程序化指令"发现、以及 DebugLM 的数据溯源能力,共同指向一个趋势:AI 系统正在从"能跑起来"走向"能管得住"。可控性、可溯源性、可治理性——这些听起来不性感的工程命题,正在成为 AI 落地的真正分水岭。

一句话总结:2026 年的 AI 不缺钱、不缺模型、不缺算力——缺的是让这一切可靠运转的"基础设施中间层"。谁先填上这个空白,谁就能在下一轮洗牌中站稳脚跟。