Meta 签署 270 亿美元 AI 基础设施协议，Micron 创纪录营收

🔥 行业热点

1. Meta 与 Nebius 签署 270 亿美元 AI 基础设施协议

Meta 与荷兰数据中心公司 Nebius 达成一项为期五年、价值高达 270 亿美元的 AI 基础设施合作协议。根据协议，Nebius 将从 2026 年初开始为 Meta 提供 120 亿美元的专用 AI 计算容量，以及另外 150 亿美元的可选扩展。这是 Meta 在自建数据中心之外最大规模的外部基础设施采购。

来源： Reuters | CNBC | Bloomberg

💰 锐评： Zuckerberg 终于想明白了一件事：自己建不如外包快。270 亿美元看似天价，但对比 Meta 每季度数百亿的 AI 资本支出，这笔交易本质上是用确定性换时间窗口。Nebius 从一家"前 Yandex 资产"摇身一变成为 AI 基础设施新贵，靠的不是技术领先，而是在欧洲拿地建设的速度。真正的赢家是 NVIDIA——不管谁建数据中心，GPU 的订单都流向同一个地方。

2. Micron 财报超预期：AI 需求推动创纪录 239 亿美元营收

美光科技（Micron）发布 2026 财年 Q2 财报，营收达到创纪录的 239 亿美元，超出市场预期。公司同时大幅上调全年资本支出预期，明确表示 HBM（高带宽内存）需求持续飙升，AI 训练和推理对存储芯片的拉动力远超此前预估。公司股价在盘后交易中显著上涨。

来源： Reuters | Bloomberg | Investing.com

💰 锐评： AI 淘金热中卖铲子的人又一次证明了自己。HBM 就是这一轮 AI 军备竞赛中的"铲子"——不管你训的是 GPT-6 还是 Gemini 4，都得从 Micron 和 SK Hynix 手里买内存。资本支出上调意味着 Micron 押注 AI 需求至少还有两年高增长期。但要警惕的是：半导体的周期性从未消失，今天的产能扩张可能是后天过剩的种子。

3. OpenAI 通过 AWS 扩大政府 AI 业务

据 TechCrunch 和 Reuters 报道，OpenAI 已与 Amazon Web Services (AWS) 签署新合作协议，通过 AWS 的政府云基础设施向美国联邦机构销售 AI 服务。此举标志着 OpenAI 正式大规模进军政府市场，利用 AWS 已有的 FedRAMP 和安全认证来加速部署。此前 OpenAI 和 Amazon 在 2 月底刚宣布战略合作伙伴关系。

来源： TechCrunch | Reuters

💰 锐评： OpenAI 这步棋走得精妙：不自建政府合规体系，而是借 AWS 的壳。政府市场是 AI 公司梦寐以求的"稳定现金流引擎"——合同长、粘性高、价格不敏感。但隐患在于：OpenAI 和 Microsoft 的关系因 AWS 合作正变得越来越微妙。一边是最大投资方，一边是最大竞争对手的云平台，Sam Altman 正走在一根越来越细的钢丝上。

4. 北京 AI 和机器人博览会：医疗智能机器人成焦点

2026 年北京国际人工智能应用与机器人博览会于 3 月 18 日举行，重点展示了面向医疗健康领域的智能机器人。展品涵盖执行武术动作的人形机器人、手术辅助机器人、康复护理机器人等，体现了中国在 AI 与实体经济融合方面的推进力度。

来源： Euronews | AfricaNews

🎯 锐评： 从投资人角度看，中国的 AI 机器人赛道热闹但分散，大量公司在"展会型创新"阶段——展台上能跑能跳，出了会场就回实验室吃灰。但从创业者角度看，医疗机器人是少数真正有 PMF（Product-Market Fit）的方向：老龄化社会 + 医护人员短缺 = 刚需。关键不在于机器人能不能打太极拳，而在于它能不能在凌晨三点帮护士翻一个 80 公斤的病人。

5. Thoma Bravo 联合创始人警告：AI 将大规模颠覆软件公司

私募巨头 Thoma Bravo 联合创始人 Orlando Bravo 在 3 月 17 日公开表示，"公开市场上许多软件公司将被 AI 颠覆"，部分软件公司应该接受估值下调。他认为 AI 正在从根本上改变软件行业的竞争格局，传统 SaaS 模式面临前所未有的挑战。

来源： CNBC | Seeking Alpha

💰 锐评： Orlando Bravo 管着 1600 亿美元的软件资产，他说软件要被颠覆，本质是在说"我要趁低价买入"。但他指出的问题是真实的：当 AI Agent 能自动完成过去需要十个 SaaS 工具串联的工作流时，中间那些"管道工"软件公司的存在意义就要打上问号。SaaS 的护城河从来不是技术，而是迁移成本——但 AI 正在让迁移成本趋近于零。

6. AI 创业融资两个月突破 2200 亿美元

据 Crunchbase 数据，2026 年前两个月 AI 初创公司融资总额达到 2200 亿美元，远超 2025 年全年水平。其中 OpenAI 的 1100 亿美元轮融资占据半壁江山，其余包括 xAI、Anthropic 等公司的大额融资。资本正在以前所未有的速度涌入 AI 赛道。

来源： eeNews Europe | Electronics Weekly | Crunchbase

💰 锐评： 2200 亿美元，两个月。去掉 OpenAI 那 1100 亿，剩下的 1100 亿仍然是天文数字。这不是风险投资，这是主权级别的基础设施竞赛。但冷静想：这些钱大部分最终流向了 NVIDIA 的 GPU、电力公司的电费、和数据中心的地租。AI 创业公司变成了一个资本效率极低的"GPU 消耗器"。当潮水退去，只有那些真正找到商业闭环的公司才能活下来——而这个比例不会超过 5%。

7. Morgan Stanley 预测 2026 年上半年将出现"重大 AI 突破"

摩根士丹利发布报告，预测 2026 年上半年将出现"变革性 AI"（Transformative AI）的突破，AI 模型将实现自我改进能力，市场对此准备不足。报告估计 AI 基础设施的累计投资将接近 3 万亿美元。

来源： Fortune | Business Insider | Morgan Stanley

🎯 锐评： 投行的预测向来是"先射箭再画靶"——如果 AI 真突破了，他们就是先知；如果没有，这份报告悄悄从网站上消失就好。但"3 万亿美元累计投入"这个数字倒是实打实的。从工程师角度看，当前 LLM 的 scaling law 确实在趋近瓶颈，真正的突破不太可能来自"更大的模型"，更可能来自架构创新或者新的训练范式。华尔街总是高估短期、低估长期——但这一次他们可能连方向都猜错了。

8. GPT-5.4 发布：百万 token 上下文窗口，统一编码能力

OpenAI 于 3 月 5 日发布 GPT-5.4，将 GPT-5.3 Codex 的编码能力整合到统一模型中，并实现了 100 万 token 的上下文窗口——这是目前商用模型中最大的。GPT-5.4 还支持计算机使用（Computer Use）能力，在多个基准测试中超过此前的 GPT-5.3 系列。

来源： MindStudio | Medium | Milvus AI Reference

🔬 锐评： 百万 token 上下文窗口的意义不在于你能塞进去多少文本，而在于它开启了一类全新的应用范式：把整个代码库、整本书、或几个月的对话历史一次性喂给模型。但科研人员需要追问的是：长上下文的"有效注意力"到底能覆盖多远？100 万 token 的窗口不等于 100 万 token 的理解力。Computer Use 的加入让 GPT-5.4 向通用数字工作者又近了一步，但离 AGI 的距离，可能比 OpenAI 的营销团队暗示的要远得多。

1. obra / superpowers ⭐ 97,164（+4,089 today）

仓库： obra/superpowers
语言： Shell
简介： 一个 Agent 技能框架和软件开发方法论。提供结构化的方式来组织、复用和共享 AI Agent 的"技能"，让 Agent 驱动的开发工作流更加系统化和可靠。

🚀 锐评： 4089 星一天，直奔 10 万大关。这不是一个普通的开源工具——它正在定义"AI 辅助开发"的工作流标准。核心洞察是对的：AI Agent 的能力瓶颈不在模型本身，而在于如何把经验沉淀为可复用的"技能"。谁掌握了技能标准，谁就掌握了 Agent 时代的 npm。

2. jarrodwatts / claude-hud ⭐ 7,684（+1,038 today）

仓库： jarrodwatts/claude-hud
语言： JavaScript
简介： 一个 Claude Code 插件，提供可视化 HUD 面板，实时显示 Claude Code 的上下文使用量、活跃工具、运行中的 Agent 和 Todo 进度等信息。

🚀 锐评： 这个项目击中了 AI 编程工具最大的痛点：不透明。当 Agent 在后台疯狂消耗 token 时，开发者完全是瞎子。claude-hud 做的事情很简单但极其必要——给黑盒装上仪表盘。千星一天说明开发者社区对"AI 可观测性"的需求是真实的。下一步自然是：不仅看得见，还要能控制。

3. unslothai / unsloth ⭐ 56,142（+1,005 today）

仓库： unslothai/unsloth
语言： Python
简介： 统一的 Web UI，用于本地训练和运行 Qwen、DeepSeek、gpt-oss、Gemma 等开源模型。以极致的效率优化著称，支持 LoRA/QLoRA 微调，显存占用远低于同类工具。

🚀 锐评： Unsloth 的增长曲线堪称开源 AI 领域的 "Tailwind CSS"——用极致的开发者体验吃掉了整个赛道。它解决的核心问题是：让个人开发者用一张消费级显卡也能微调大模型。5.6 万星不是虚荣指标，而是社区用脚投票的结果。但商业化是个问号——当基础模型越来越便宜、API 越来越好用，"本地微调"的 TAM 会不会反而在缩小？

4. langchain-ai / open-swe ⭐ 6,611（+481 today）

仓库： langchain-ai/open-swe
语言： Python
简介： LangChain 团队推出的开源异步编码 Agent。定位为 SWE-bench 任务的开放解决方案，支持异步执行软件工程任务，包括 Bug 修复、功能实现等。

🚀 锐评： LangChain 团队出手做 SWE Agent，这是在抢占"AI 编码"这条赛道的基础设施位置。开源 + 异步是聪明的定位：开源降低采用门槛，异步解决了 Agent 编程中最头疼的长时任务执行问题。但 SWE Agent 赛道已经极度拥挤——Devin、Cursor、Windsurf、OpenHands——open-swe 需要证明自己不只是一个 benchmark 刷分工具，而是真能在生产环境用起来。

5. newton-physics / newton ⭐ 3,023（+26 today）

仓库： newton-physics/newton
语言： Python
简介： 基于 NVIDIA Warp 的开源 GPU 加速物理模拟引擎，专为机器人研究者和仿真研究者设计。支持高效的刚体、流体和软体仿真。

🔬 锐评： 机器人仿真引擎一直是具身智能（Embodied AI）的基础设施短板。Newton 选择了 NVIDIA Warp 作为底层，这意味着它天然适配 NVIDIA 的 Isaac Sim 生态。对于做 sim-to-real 的研究者来说，一个好用的开源物理引擎比十篇论文更有价值。但 3000 星的量级说明这还是个小众工具——具身智能要想出圈，还需要更长的时间。

6. alibaba / higress ⭐ 7,829（+20 today）

仓库： alibaba/higress
语言： Go
简介： 阿里巴巴开源的 AI Native API Gateway。专为 AI 应用场景优化，支持 LLM 路由、Token 级别的流量控制、多模型负载均衡、AI 可观测性等功能。

🚀 锐评： 当所有人都在做 AI 应用的时候，阿里悄悄把 AI 时代的"入口"给做了。API Gateway 听起来不性感，但它是每一个 AI 应用的流量必经之路。Token 级别的流控、多模型路由——这些都是企业客户真金白银需要的功能。Higress 的策略是对的：不做模型、不做应用，做管道。在 AI 的世界里，管道公司往往活得最久。

7. xszyou / Fay ⭐ 12,540（+9 today）

仓库： xszyou/Fay
语言： Python
简介： 一个帮助数字人（2.5D、3D、移动端、PC、Web）或大语言模型连通业务系统的 Agent 框架。支持 OpenAI 兼容接口和 DeepSeek 等模型。

🚀 锐评： 数字人 + Agent 是一个在中国市场特别有想象力的组合——直播带货、客服、教育，每一个场景都是真金白银。Fay 做的是中间层连接器，让 LLM 能驱动数字人形象与业务系统交互。1.2 万星说明市场需求真实存在。但数字人赛道最大的悖论是：用户真的在乎和一个虚拟形象说话吗？还是说一个文字聊天框就够了？形式大于内容的产品往往走不远。

📄 arXiv 前沿论文

1. AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

作者： Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu 等
arXiv： 2603.18000
摘要： 构建基于 LLM 的 Agent 愈发重要。现有的 Agent 自进化方法主要将成功经验记录为文本提示或反思，无法在复杂场景中可靠地保证高效的任务重执行。本文提出 AgentFactory，一种全新的自进化范式：将成功的任务解决方案保存为可执行的子 Agent 代码，而非文本经验。这些子 Agent 基于执行反馈持续优化，随着处理的任务增多变得越来越强大和高效。保存的子 Agent 是带有标准化文档的纯 Python 代码，可在任何支持 Python 的系统上移植。

🔬 锐评： 这篇论文切中了 Agent 研究的核心痛点：经验如何有效沉淀？之前的方法把经验存成文本 prompt，本质上是"口头经验"——听起来有道理但不保证能复现。AgentFactory 把经验固化为可执行代码，这是从"叙事性记忆"到"程序性记忆"的质变。开源实现和标准化文档设计让它有成为 Agent 生态基础组件的潜力。Agent 的未来不是一个超级大脑，而是无数个小而专的子 Agent 的协作网络。

2. Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

作者： Jianrui Zhang, Yue Yang, Rohun Tripathi 等
arXiv： 2603.18004
摘要： Token 剪枝对提升视觉 - 语言模型（VLM）的计算效率至关重要，尤其在视频任务中存在大量时间冗余。本文提出 STTS（时空 Token 评分），一个简单轻量的模块，在 ViT 和 LLM 中统一剪枝视觉 token，无需文本条件或 token 合并，完全兼容端到端训练。STTS 在整个架构中剪枝 50% 的视觉 token，训练和推理效率提升 62%，13 个视频 QA 任务的平均性能仅下降 0.7%。

🔬 锐评： 效率优化论文往往是最有工程价值的——62% 的效率提升只换来 0.7% 的性能损失，这个 trade-off 在工业界是秒批的。STTS 的设计哲学很优雅：不需要复杂的文本条件 token 选择机制，让 ViT 和 LLM 在同一套打分标准下协同剪枝。对于做视频理解产品的团队来说，这可能直接把推理成本砍掉一半。简单方法解决复杂问题，这才是好的工程研究。

3. TDAD: Test-Driven Agentic Development

作者： Pepe Alonso
arXiv： 2603.17973
摘要： AI 编码 Agent 虽能解决真实世界的软件问题，但经常引入回归 Bug。本文提出 TDAD，一个结合 AST 代码 - 测试图构建和加权影响分析的开源工具和基准方法。在 SWE-bench Verified 上，TDAD 的 GraphRAG 工作流将测试级回归减少了 70%（从 6.08% 降至 1.82%），解决率从 24% 提升至 32%。一个意外发现是：TDD 提示反而增加了回归（9.94%），这表明小模型从上下文信息中获益更多，而非程序化指令。

🔬 锐评： 这篇论文的最大贡献不是 TDAD 本身，而是那个"意外发现"：告诉小模型"该怎么做 TDD"反而有害，不如直接告诉它"哪些测试需要验证"。这个结论对整个 AI Agent 工具设计领域都有指导意义——上下文信息 > 程序化指令。回归减少 70% 是硬指标，对于想在生产环境中使用 AI 编码 Agent 的团队来说，这可能是发布前必须集成的安全网。

4. Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

作者： Raghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott
arXiv： 2603.17942
摘要： 大型语言模型虽只训练了 next-token 预测，却潜藏着多 token 预测（MTP）能力。本文提出一种无需训练的 MTP 方法，通过在嵌入空间中即时插入 mask token 来探测 LLM，实现未来 token 的并行预测，无需修改模型权重或依赖辅助草稿模型。在 LLaMA3 上接受长度提升约 12%，Qwen3 上提升 8-12%，吞吐量提升高达 15-19%。

🔬 锐评： 这是一篇"四两拨千斤"的论文。不训练、不改权重、不要额外模型，只靠在 embedding 空间里插 mask token 就能提速 15-19%——如果能复现，这对所有做 LLM 推理优化的团队都是好消息。论文还附带了一个有趣的理论发现：decoder 层会自然地将 mask-token 表征对齐到 next-token 状态。这暗示 Transformer 的内部表征远比我们理解的更有结构性。免费午餐虽然少见，但偶尔确实存在。

5. RAMP: Reinforcement Adaptive Mixed Precision Quantization

作者： Arpit Singh Gautam, Saurabh Jha
arXiv： 2603.17891
摘要： 现有量化方法对所有层强制使用统一比特宽度，导致次优的精度 - 效率权衡。本文提出 RAMP，使用 Soft Actor-Critic 强化学习框架学习每层的比特宽度分配，在全局比特预算约束下最小化困惑度。在 Llama 2 7B 上，RAMP 以 3.68GB（3.65 有效比特）达到 5.54 困惑度，超越统一 4-bit AWQ。关键发现：在 Llama 2 7B 上训练的策略可以零样本迁移到 Llama 2 13B 和 Mistral 7B。

🔬 锐评： 用强化学习来做量化比特分配，思路很 elegant。核心发现是"量化敏感度主要是架构性的"——这意味着一个模型上学到的量化策略可以直接用到其他模型上，大幅降低了混合精度量化的工程成本。3.65 有效比特就超过了 4-bit AWQ，这在端侧部署场景中意味着实打实的内存节省。对于做 Edge AI 的团队来说，RAMP 可能是下一代量化工具链的核心算法。

6. Governed Memory: A Production Architecture for Multi-Agent Workflows

作者： Hamed Taheri
arXiv： 2603.17787
摘要： 企业 AI 部署了大量自主 Agent 节点，但它们之间没有共享内存和统一治理。本文识别了五个结构性挑战，并提出 Governed Memory——一个共享内存与治理层，通过双模式记忆模型、分层治理路由、反思有界检索和闭环 schema 生命周期四种机制来解决。系统实现 99.6% 的事实召回率、92% 的治理路由精度、50% 的 token 削减，以及 500 条对抗查询下零跨实体泄漏。

🚀 锐评： Multi-Agent 系统最被忽视的问题终于有人认真解决了：Agent 之间怎么共享记忆？怎么确保 Agent A 的输出不会误导 Agent B？这不是一篇空中楼阁的论文——它已经在 Personize.ai 的生产环境中跑了。99.6% 的事实召回 + 零跨实体泄漏是工程级别的硬指标。Multi-Agent 系统要从玩具走向生产，"治理"是绕不过去的一关。这篇论文可能成为这个领域的基础参考架构。

7. DebugLM: Learning Traceable Training Data Provenance for LLMs

作者： Wenjie Jacky Mo, Qin Liu, Xiaofei Wen 等
arXiv： 2603.17884
摘要： LLM 通过多阶段管线在异构数据源上训练，但开发者缺乏定位导致特定行为的具体数据的方法。本文提出 DebugLM，为 LLM 内置数据溯源能力，让模型显式追踪其行为到特定训练数据源。模型学习将其回应与唯一的溯源标签关联，开发者可以精确识别不良行为的学习来源，并支持测试时的定向修复——无需重训或修改参数。

🔬 锐评： 这篇论文解决的是一个 LLM 工程化的核心问题：当模型出了问题，到底是哪批训练数据惹的祸？目前的做法要么是盲猜、要么是全量重训——DebugLM 提供了第三条路：溯源 + 定向修复。不重训就能"关闭"某个数据源的影响，这对企业级 LLM 部署的意义巨大。想象一下：发现模型的某些输出有版权风险，不用重训就能定向屏蔽。这可能是 LLM 合规领域的杀手级技术。

8. CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

作者： Lintang Sutawika, Aditya Bharat Soni 等
arXiv： 2603.17829
摘要： 在大型代码库上执行任务的前提是代码定位——识别需要处理的相关文件、类和函数。本文证明，通过有效的强化学习策略，只配备标准 Unix 终端的编码 Agent 就能达到强大的代码搜索性能。在 SWE-Bench Verified、Pro 和 Lite 三个基准上，CodeScout 持续优于 2-18 倍大的基础和后训练 LLM，有时接近 Claude Sonnet 的专用 scaffold 性能。

🔬 锐评： 这篇论文传递了一个反直觉但重要的信息：你不需要给 Agent 装一堆花哨的静态分析工具，一个 Unix 终端 + 好的 RL 训练策略就够了。CodeScout 用小模型在代码搜索任务上逼近了 Claude Sonnet，这说明"工具简单 + 策略聪明"的范式可能比"堆料"更有效。对于做 AI 编程助手的团队来说，这篇论文是一个重要的工程参考：与其设计复杂的工具链，不如在 RL 训练上多花功夫。

📊 今日总结

2026 年 3 月 18 日的 AI 领域呈现出"基础设施疯狂扩张、应用层急剧分化"的特征。Meta 270 亿美元的基础设施订单和 Micron 创纪录的营收，证明算力军备竞赛仍在全速推进；OpenAI 借道 AWS 进入政府市场，标志着 AI 商业化的战场正从消费端扩展到公共部门。

GitHub Trending 上，superpowers（Agent 技能框架）的爆发式增长和 claude-hud（AI 可观测性工具）的崛起，揭示了开发者社区的新共识：AI 编程的下一个瓶颈不是模型能力，而是工作流管理和透明度。

arXiv 论文方面，AgentFactory 的"可执行子 Agent"范式、TDAD 的"上下文信息优于程序化指令"发现、以及 DebugLM 的数据溯源能力，共同指向一个趋势：AI 系统正在从"能跑起来"走向"能管得住"。可控性、可溯源性、可治理性——这些听起来不性感的工程命题，正在成为 AI 落地的真正分水岭。

一句话总结：2026 年的 AI 不缺钱、不缺模型、不缺算力——缺的是让这一切可靠运转的"基础设施中间层"。谁先填上这个空白，谁就能在下一轮洗牌中站稳脚跟。

🔥 行业热点 ​

1. Meta 与 Nebius 签署 270 亿美元 AI 基础设施协议 ​

2. Micron 财报超预期：AI 需求推动创纪录 239 亿美元营收 ​

3. OpenAI 通过 AWS 扩大政府 AI 业务 ​

4. 北京 AI 和机器人博览会：医疗智能机器人成焦点 ​

5. Thoma Bravo 联合创始人警告：AI 将大规模颠覆软件公司 ​

6. AI 创业融资两个月突破 2200 亿美元 ​

7. Morgan Stanley 预测 2026 年上半年将出现"重大 AI 突破" ​

8. GPT-5.4 发布：百万 token 上下文窗口，统一编码能力 ​

🚀 GitHub Trending ​

1. obra / superpowers ⭐ 97,164（+4,089 today） ​

2. jarrodwatts / claude-hud ⭐ 7,684（+1,038 today） ​

3. unslothai / unsloth ⭐ 56,142（+1,005 today） ​

4. langchain-ai / open-swe ⭐ 6,611（+481 today） ​

5. newton-physics / newton ⭐ 3,023（+26 today） ​

6. alibaba / higress ⭐ 7,829（+20 today） ​

7. xszyou / Fay ⭐ 12,540（+9 today） ​

📄 arXiv 前沿论文 ​

1. AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse ​

2. Unified Spatio-Temporal Token Scoring for Efficient Video VLMs ​

3. TDAD: Test-Driven Agentic Development ​

4. Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing ​

5. RAMP: Reinforcement Adaptive Mixed Precision Quantization ​

6. Governed Memory: A Production Architecture for Multi-Agent Workflows ​

7. DebugLM: Learning Traceable Training Data Provenance for LLMs ​

8. CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents ​

📊 今日总结 ​