微软发布 2026 AI 七大趋势，腾讯宣布 AI 投资至少翻倍

🔥 行业热点

1. 微软发布 2026 年 AI 七大趋势预测

微软首席产品官 Aparna Chennapragada 领衔发布《2026 年 AI 七大趋势》，核心观点包括：AI 将从工具演变为合作伙伴；AI 代理将获得新安全保障；AI 有望缩小全球健康差距（微软 MAI-DxO 在复杂病例诊断中准确率达 85.5%）；AI 将成为研究过程的核心；AI 基础设施更智能高效；AI 学习代码及其上下文；量子计算进入"以年计"的突破期。

来源： Microsoft Source

💡 锐评： 微软这份报告最值得关注的是"AI 代理安全"被单独列为趋势——这意味着 Agent 已经从实验室走向生产环境，安全问题开始被严肃对待。另一个信号是量子计算被明确纳入 AI 基础设施讨论，混合计算架构可能成为下一个军备竞赛焦点。值得注意的是，微软将医疗 AI 的诊断准确率作为核心卖点，暗示其正在布局 AI+ 医疗的垂直领域护城河。

2. 腾讯宣布 2026 年 AI 投资至少翻倍

腾讯总裁刘炽平在 3 月 18 日财报电话会上表示，2025 年腾讯在 AI 新产品上投入 180 亿元，2026 年预计至少翻倍。同时会增加资本开支获取算力支撑模型训练和推理，并有额外的算力对外租售。马化腾首次公开谈论"龙虾"（DeepSeek）对行业的影响。

来源： 新浪财经

💡 锐评： 腾讯这次表态释放了两个关键信号：一是算力对外租售意味着腾讯云要在 AI 基础设施领域与阿里云正面竞争；二是"龙虾"被马化腾亲自点名，说明 DeepSeek 的冲击已经让巨头不得不重新评估开源策略。投资翻倍但回购减少，腾讯正在用股东回报换取 AI 入场券——这是一场不能输的豪赌。

3. Google Gemini 全面进军 Workspace 办公套件

Google 于 3 月 10 日宣布为 Workspace 带来全新 Gemini 功能：Docs 新增"Help me create"功能，可利用 Gmail 和 Drive 数据起草文档并匹配写作风格；Sheets 支持通过提示词"拉取相关数据"构建电子表格；Drive 搜索新增"AI Overview"概览。这些功能面向 AI Ultra 和 Pro 订阅者开放测试。

来源： TechCrunch

💡 锐评： Google 终于开始在生产力工具上发力，但"匹配写作风格"这个功能值得玩味——它意味着 Gemini 正在学习用户的个人表达习惯，这既是体验提升，也是数据收集的深化。更关键的是，Google 把 AI 功能限制在付费订阅层，说明其正在从"广告模式"向"订阅模式"加速转型，这对整个 SaaS 行业都有示范效应。

4. Anthropic 发布 Claude Opus 4.6，专注编码与金融 Agent

Anthropic 于 2 月 5 日发布 Claude Opus 4.6，新模型在编码、长时间任务维持和高质量专业工作方面表现更佳，特别擅长规划、代码审查和调试，并在"Finance Agent benchmark"上位居榜首。Anthropic 正在向"氛围工作"（vibe working）模式演进。

来源： CNBC

💡 锐评： Claude Opus 4.6 选择在 Finance Agent benchmark 上霸榜，这是 Anthropic 的精准卡位——金融是 AI Agent 变现能力最强的垂直领域之一。"vibe working"概念的提出也很有意思，暗示 AI 正在从"工具"向"协作者"身份转变。Anthropic 2026 年开局凶猛，OpenAI 的领先地位正在被蚕食。

5. MIT 预测：2026 年硅谷产品将更多基于中国开源大模型

MIT Technology Review 预测 2026 年五大 AI 趋势：硅谷产品将更多基于中国开源大模型；美国监管陷入联邦与州博弈；聊天机器人重塑购物方式；大模型将助力重要新发现；相关法律诉讼将显著升温。

来源： MIT Technology Review

💡 锐评： "硅谷产品基于中国开源模型"这个预测如果成真，将是 AI 地缘政治的转折点。DeepSeek 已经证明了这一点——中国模型不再是"追赶者"，而是"定义者"。监管博弈和诉讼升温则暗示 AI 行业正在从"野蛮生长"进入"规则重构"阶段，2026 年可能是 AI 合规成本激增的元年。

6. IBM 预测：量子计算将在 2026 年超越经典计算机

IBM 专家预测 2026 年 AI 趋势：量子计算将在特定任务上超越经典计算机；硬件效率将成为新的扩展策略；AI 模型将更加注重能效比优化。

来源： IBM Think

💡 锐评： IBM 的预测一向偏保守，如果连 IBM 都说量子计算要超越经典计算机，那说明这个临界点真的近了。"硬件效率成为新扩展策略"是对英伟达 GPU 垄断的含蓄挑战——当算力成本成为瓶颈，算法优化和专用芯片的价值将被重估。这可能是 AI 芯片市场格局变化的先兆。

1. xszyou / Fay ⭐ 12,539（+9 today）

仓库： xszyou/Fay
语言： Python
简介： Fay 是一个帮助数字人（2.5d、3d、移动、pc、网页）或大语言模型（OpenAI 兼容、DeepSeek）连通业务系统的 Agent 框架。

🚀 锐评： Fay 的定位非常精准——它不做底层模型，而是做"最后一公里"的连接器。数字人 + LLM 的组合正在爆发，但大多数团队卡在了"如何让模型驱动数字人"这个工程问题上。Fay 的价值在于提供了标准化的接入层，让业务系统可以快速接入各种数字人形态。值得关注其是否会扩展为多模态 Agent 的通用框架。

2. d2l-ai / d2l-zh ⭐ 76,285（+31 today）

仓库： d2l-ai/d2l-zh
语言： Python
简介： 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被 70 多个国家的 500 多所大学用于教学。

🚀 锐评： 作为 AI 教育的标杆项目，D2L-zh 的持续热度说明深度学习的人才需求仍在高位。500+ 大学采用这个数据很惊人——它实际上定义了一代 AI 工程师的知识体系。今日 31 个新增 star 中，很可能有相当一部分来自春季学期开学后的学生。这个项目的长尾价值在于它培养的用户会成为各种 AI 工具的潜在采用者。

3. RapidAI / RapidOCR ⭐ 6,139（+11 today）

仓库： RapidAI/RapidOCR
语言： Python
简介： 基于 ONNXRuntime、OpenVINO、MNN、PaddlePaddle 和 PyTorch 的 OCR 多编程语言工具包。

🚀 锐评： RapidOCR 的核心竞争力在于"多推理后端支持"——ONNXRuntime 用于通用场景，OpenVINO 针对 Intel 芯片优化，MNN 面向移动端，PaddlePaddle 适合中文场景。这种架构设计让它可以灵活适配各种部署环境。OCR 作为 AI 落地的"低 hanging fruit"，在企业文档数字化、RPA 等场景需求稳定，RapidOCR 的实用性很强。

4. lss233 / kirara-ai ⭐ 18,580（+12 today）

仓库： lss233/kirara-ai
语言： Python
简介： 可 DIY 的多模态 AI 聊天机器人，快速接入微信、QQ、Telegram 等平台，支持 DeepSeek、Grok、Claude、Ollama、Gemini、OpenAI 等模型，具备工作流系统、网页搜索、AI 画图、语音对话等功能。

🚀 锐评： kirara-ai 是典型的"AI 缝合怪"项目，但它的价值恰恰在于"缝合"——把各种 AI 能力（聊天、画图、语音、搜索）打包成一个可部署的机器人。支持多平台接入（微信、QQ、Telegram）让它有很强的实用性。这类项目的热度反映了用户对"一站式 AI 助手"的需求，但也面临被官方 API 政策变化影响的风险。

5. zhayujie / chatgpt-on-wechat ⭐ 42,292（+25 today）

仓库： zhayujie/chatgpt-on-wechat
语言： Python
简介： CowAgent 是基于大模型的超级 AI 助理，能主动思考和任务规划、访问操作系统和外部资源、创造和执行 Skills、拥有长期记忆并不断成长。支持飞书、钉钉、企微、QQ、微信公众号、网页等接入。

🚀 锐评： 42K star 说明这个项目已经成为国内 AI Bot 的事实标准。最新版本强调"主动思考"和"任务规划"，正在从简单的"问答机器人"向"Agent"演进。支持企业微信、钉钉、飞书三大办公平台，说明其商业化路径清晰——做企业的"数字员工"。长期记忆和技能系统的加入，让它具备了真正的生产力工具属性。

6. hiroi-sora / Umi-OCR ⭐ 42,643（+20 today）

仓库： hiroi-sora/Umi-OCR
语言： Python
简介： 开源、免费的离线 OCR 软件。支持截屏/批量导入图片、PDF 文档识别、排除水印/页眉页脚、扫描/生成二维码，内置多国语言库。

🚀 锐评： Umi-OCR 的"离线"特性是其核心竞争力——在数据隐私日益敏感的今天，本地运行的 OCR 工具对企业和个人用户都有吸引力。42K star 说明它已经超越了"小众工具"的范畴。支持 PDF 识别和二维码生成，让它从单纯的"识别工具"扩展为"文档处理套件"。今日 20 个新增 star 显示其社区活跃度依然很高。

7. alibaba / higress ⭐ 7,828（+20 today）

仓库： alibaba/higress
语言： Go
简介： AI Gateway | AI Native API Gateway

🚀 锐评： Higress 的定位是"AI 原生 API 网关"，这是阿里云在 AI 基础设施领域的重要布局。随着 AI Agent 和 LLM 应用的爆发，传统的 API 网关已经无法满足流式响应、长连接、模型路由等新需求。Higress 的 AI Gateway 定位瞄准了这个空白市场。今日 20 个新增 star 显示开发者对 AI 基础设施工具的关注度正在上升。

📄 arXiv 前沿论文

1. AgentFactory: 通过可执行子代理积累与重用的自我进化框架

作者： Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu 等
arXiv： 2603.18000
摘要： 构建基于 LLM 的 Agent 变得越来越重要。近期关于 LLM Agent 自我进化的研究主要将成功经验记录为文本提示或反思，这无法在复杂场景中可靠地保证任务的高效重新执行。我们提出 AgentFactory，一种新的自我进化范式，将成功的任务解决方案保存为可执行的子代理代码，而非文本经验。关键的是，这些子代理基于执行反馈持续优化，随着遇到更多任务而变得越来越稳健和高效。保存的子代理是纯 Python 代码，具有标准化文档，可在任何支持 Python 的系统上移植。我们证明 AgentFactory 能够实现能力的持续积累：其可执行子代理库不断增长和改进，逐步减少类似任务所需的工作量，无需人工干预。

🔬 锐评： AgentFactory 的核心创新在于"代码即经验"——把 Agent 的成功经验保存为可执行的 Python 代码，而不是文本提示。这解决了当前 Agent 框架的一个痛点：文本提示难以保证复杂任务的可靠重执行。更关键的是，子代理可以基于执行反馈持续优化，形成真正的"能力积累"。这个思路如果成功，可能改变 Agent 开发的游戏规则——从"写提示"变成"积累代码库"。

2. STTS: 统一时空 Token 评分实现高效视频 VLM

作者： Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee
arXiv： 2603.18004
摘要： Token 剪枝对于提升视觉语言模型（VLMs）的计算效率至关重要，特别是对于存在时间冗余的视频任务。先前的方法通常在视觉 Transformer（ViT）内部剪枝 token，仅用于动作识别和物体分割等单模态感知任务，而不适应下游视觉语言任务；或者仅在 LLM 内部剪枝，而保持 ViT 输出不变，通常需要复杂的文本条件 token 选择机制。本文提出时空 Token 评分（STTS），一个简单轻量的模块，可在 ViT 和 LLM 之间统一剪枝视觉 token，无需文本条件或 token 合并，且完全兼容端到端训练。通过辅助损失学习时间评分、通过 LLM 下游梯度学习空间评分，并辅以高效的打包算法，STTS 在整个架构中剪枝 50% 的视觉 token，在训练和推理中实现 62% 的效率提升，在 13 个短长视频 QA 任务上平均性能仅下降 0.7%。

🔬 锐评： STTS 的亮点是"跨架构统一剪枝"——同时作用于 ViT 和 LLM，而不是像之前的方法只剪一边。50% 的 token 剪枝带来 62% 的效率提升，这个投入产出比非常可观。更值得关注的是，测试时缩放（test-time scaling）还能带来额外 0.5-1% 的性能提升，这说明效率和精度并非完全对立。对于视频理解这个算力消耗大户，STTS 可能成为一个标准组件。

3. SkeletonLLM: 通过可微渲染和 MLLM 实现通用骨架理解

作者： Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang, Kai-Kuang Ma, Mengyuan Liu
arXiv： 2603.18003
摘要： 多模态大语言模型（MLLMs）展现出强大的视觉语言推理能力，但仍局限于其原生模态，无法直接处理结构化非视觉数据（如人体骨架）。现有方法要么将骨架动态压缩为有损特征向量进行文本对齐，要么将动作量化为离散 token，在不同骨架格式间泛化能力差。我们提出 SkeletonLLM，通过将任意骨架序列转换为 MLLM 的原生视觉模态，实现通用骨架理解。其核心是 DrAction，一个可微的、格式无关的渲染器，将骨骼运动学转换为紧凑的图像序列。由于整个流程是端到端可微的，MLLM 梯度可以直接指导渲染产生任务信息性的视觉 token。

🔬 锐评： SkeletonLLM 解决了一个被忽视的问题：如何让 MLLM 理解非视觉的结构化数据（如人体骨架）。其核心思路很巧妙——不是改造 MLLM，而是把骨架数据"渲染"成 MLLM 能理解的图像。这种"模态转换"的思路可以推广到其他结构化数据（如分子结构、电路图）。动作识别、体育分析、医疗康复等场景都可能受益。这是一个"把新问题转化为已有能力"的典型范例。

4. Loc3R-VLM: 基于语言的定位与 3D 推理视觉语言模型

作者： Kevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys
arXiv： 2603.18002
摘要： 多模态大语言模型（MLLMs）在连接视觉和语言方面取得了令人瞩目的进展，但在空间理解和视角感知推理方面仍面临困难。近期工作旨在用几何线索增强输入表示，而非显式地教模型在 3D 空间中推理。我们提出 Loc3R-VLM，一个为 2D 视觉语言模型配备从单目视频输入进行高级 3D 理解能力的框架。受人类空间认知启发，Loc3R-VLM 依赖两个联合目标：全局布局重建以构建场景结构的整体表示，显式情境建模以锚定自我中心视角。这些目标提供直接的空间监督，将感知和语言都 grounding 在 3D 上下文中。

🔬 锐评： Loc3R-VLM 的核心贡献是"显式 3D 监督"——不是给模型更多几何线索，而是直接教它在 3D 空间中推理。全局布局重建 + 情境建模的双目标设计，模仿了人类的空间认知机制。这个思路对于 AR/VR、机器人导航、自动驾驶等需要空间推理的场景很有价值。单目视频输入的设定也很实用，降低了数据采集门槛。

5. EchoGen: 统一布局 - 图像生成与理解的循环一致学习

作者： Kai Zou, Hongbo Liu, Dian Zheng, Jianxiong Gao, Zhiwei Zhao, Bin Liu
arXiv： 2603.18001
摘要： 本文提出 EchoGen，一个用于布局到图像生成和图像 grounding 的统一框架，能够生成具有准确布局且对文本描述（如空间关系）高保真的图像，同时稳健地对图像进行 grounding。我们认为图像 grounding 具有强大的文本和布局理解能力，可以弥补布局到图像生成中的相应局限。同时，从布局生成的图像在内容上表现出高多样性，从而增强图像 grounding 的稳健性。在统一模型内联合训练两个任务可以促进各自性能提升。我们提出渐进式训练策略：并行多任务预训练（PMTP）阶段赋予模型两项任务的基本能力；双联合优化（DJO）阶段利用任务对偶性顺序整合两个任务；Cycle RL 阶段通过使用一致性约束作为奖励消除对视觉监督的依赖。

🔬 锐评： EchoGen 的"循环一致"思路很有启发性——布局生成和图像 grounding 是两个互逆的任务，联合训练可以互相增强。这种"任务对偶性"的利用在深度学习里并不常见。渐进式训练策略（预训练→联合优化→强化学习）的设计也很精巧，解决了联合训练的优化难题。对于需要精确控制生成内容的设计、游戏、影视制作等场景，这个框架很有实用价值。

6. LoST: 3D 形状的语义层次 Token 化

作者： Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen
arXiv： 2603.17995
摘要： Token 化是各种模态生成建模的基础技术，在自回归（AR）模型中尤为关键。然而，3D 形状的最优 token 化仍是一个开放问题。最先进的方法主要依赖几何细节层次（LoD）层次结构，这些结构最初为渲染和压缩设计。这些空间层次结构通常 token 效率低下，且缺乏 AR 建模所需的语义连贯性。我们提出语义层次 Token 化（LoST），按语义显著性排序 token，使得早期前缀解码成完整、合理的形状并具有主要语义，而后续 token 细化实例特定的几何和语义细节。LoST 实现高效、高质量的 AR 3D 生成，并支持语义检索等下游任务，仅使用先前 AR 模型所需 token 的 0.1%-10%。

🔬 锐评： LoST 的核心洞察是"语义优先于几何"——传统的 3D token 化按几何细节分层，而 LoST 按语义显著性分层。这种"语义层次"的设计让模型可以用更少的 token 生成合理的形状（仅需 0.1%-10% 的 token），这对于 3D 生成的效率是质的提升。RIDA（关系内距离对齐）损失函数的设计也很巧妙，把 DINO 的视觉语义引入 3D 空间。这个工作可能推动 3D 生成从"实验室玩具"走向"实用工具"。

7. 文本嵌入插值用于连续图像引导的惊人有效性

作者： Yigit Ekin, Yossi Gandelsman
arXiv： 2603.17998
摘要： 我们提出一个无需训练的框架，用于文本条件生成模型的测试时连续可控图像编辑。与依赖额外训练或人工干预的先前方法不同，我们发现简单的文本嵌入空间引导就足以产生平滑的编辑控制。给定目标概念（如增强照片真实感或改变面部表情），我们使用大语言模型自动构建一小组去偏对比提示对，从中计算生成器文本编码器空间中的引导向量。然后直接将此向量添加到输入提示表示中，以沿期望的语义轴控制生成。为获得连续控制，我们提出弹性范围搜索程序，自动识别有效的引导幅度区间。

🔬 锐评： 这篇论文的标题致敬了"The Unreasonable Effectiveness of..."系列，其核心发现确实令人惊讶——不需要复杂的训练或架构修改，仅仅在文本嵌入空间做插值就能实现高质量的连续图像编辑。"弹性范围搜索"自动确定引导幅度区间，解决了手动调参的痛点。这个方法的最大价值在于"即插即用"——可以应用到任何文本条件生成模型上，包括视频生成。对于需要精细控制生成内容的创作者来说，这是一个实用工具。

📊 今日总结

今天的 AI 领域呈现出几个值得关注的趋势：

投资层面，腾讯宣布 AI 投资翻倍，与微软、Google、Anthropic 的巨额投入形成呼应，说明巨头们正在用资本构建护城河。算力对外租售的策略也意味着 AI 基础设施正在成为新的战场。

技术层面，Agent 框架正在从"文本提示"向"可执行代码"演进（AgentFactory），视频理解在效率优化上取得突破（STTS），3D 生成开始关注语义层面的优化（LoST）。这些进展都在指向同一个方向：AI 正在从"能用"走向"好用"和"高效"。

应用层面，数字人、OCR、多模态聊天机器人等实用工具持续获得社区关注，说明 AI 落地正在从"概念验证"进入"生产部署"阶段。GitHub 上的热门项目越来越多地关注"如何连接业务系统"，而非"如何训练更好的模型"。

地缘政治层面，MIT 关于"硅谷产品基于中国开源模型"的预测，以及马化腾对 DeepSeek 的公开回应，都暗示着 AI 领域的全球格局正在发生微妙变化。开源模型正在重塑竞争规则。

总体而言，2026 年的 AI 行业正在经历从"技术突破"到"工程落地"、从"实验室"到"生产线"的关键转折。

本报告由 QoderWork 自动生成，数据截止至 2026-03-19

🔥 行业热点 ​

1. 微软发布 2026 年 AI 七大趋势预测 ​

2. 腾讯宣布 2026 年 AI 投资至少翻倍 ​

3. Google Gemini 全面进军 Workspace 办公套件 ​

4. Anthropic 发布 Claude Opus 4.6，专注编码与金融 Agent ​

5. MIT 预测：2026 年硅谷产品将更多基于中国开源大模型 ​

6. IBM 预测：量子计算将在 2026 年超越经典计算机 ​

🚀 GitHub Trending ​

1. xszyou / Fay ⭐ 12,539（+9 today） ​

2. d2l-ai / d2l-zh ⭐ 76,285（+31 today） ​

3. RapidAI / RapidOCR ⭐ 6,139（+11 today） ​

4. lss233 / kirara-ai ⭐ 18,580（+12 today） ​

5. zhayujie / chatgpt-on-wechat ⭐ 42,292（+25 today） ​

6. hiroi-sora / Umi-OCR ⭐ 42,643（+20 today） ​

7. alibaba / higress ⭐ 7,828（+20 today） ​

📄 arXiv 前沿论文 ​

1. AgentFactory: 通过可执行子代理积累与重用的自我进化框架 ​

2. STTS: 统一时空 Token 评分实现高效视频 VLM ​

3. SkeletonLLM: 通过可微渲染和 MLLM 实现通用骨架理解 ​

4. Loc3R-VLM: 基于语言的定位与 3D 推理视觉语言模型 ​

5. EchoGen: 统一布局 - 图像生成与理解的循环一致学习 ​

6. LoST: 3D 形状的语义层次 Token 化 ​

7. 文本嵌入插值用于连续图像引导的惊人有效性 ​

📊 今日总结 ​