Skip to content

🔥 行业热点

1. 微软发布 2026 年 AI 七大趋势预测

微软首席产品官 Aparna Chennapragada 领衔发布《2026 年 AI 七大趋势》,核心观点包括:AI 将从工具演变为合作伙伴;AI 代理将获得新安全保障;AI 有望缩小全球健康差距(微软 MAI-DxO 在复杂病例诊断中准确率达 85.5%);AI 将成为研究过程的核心;AI 基础设施更智能高效;AI 学习代码及其上下文;量子计算进入"以年计"的突破期。

来源: Microsoft Source

💡 锐评: 微软这份报告最值得关注的是"AI 代理安全"被单独列为趋势——这意味着 Agent 已经从实验室走向生产环境,安全问题开始被严肃对待。另一个信号是量子计算被明确纳入 AI 基础设施讨论,混合计算架构可能成为下一个军备竞赛焦点。值得注意的是,微软将医疗 AI 的诊断准确率作为核心卖点,暗示其正在布局 AI+ 医疗的垂直领域护城河。


2. 腾讯宣布 2026 年 AI 投资至少翻倍

腾讯总裁刘炽平在 3 月 18 日财报电话会上表示,2025 年腾讯在 AI 新产品上投入 180 亿元,2026 年预计至少翻倍。同时会增加资本开支获取算力支撑模型训练和推理,并有额外的算力对外租售。马化腾首次公开谈论"龙虾"(DeepSeek)对行业的影响。

来源: 新浪财经

💡 锐评: 腾讯这次表态释放了两个关键信号:一是算力对外租售意味着腾讯云要在 AI 基础设施领域与阿里云正面竞争;二是"龙虾"被马化腾亲自点名,说明 DeepSeek 的冲击已经让巨头不得不重新评估开源策略。投资翻倍但回购减少,腾讯正在用股东回报换取 AI 入场券——这是一场不能输的豪赌。


3. Google Gemini 全面进军 Workspace 办公套件

Google 于 3 月 10 日宣布为 Workspace 带来全新 Gemini 功能:Docs 新增"Help me create"功能,可利用 Gmail 和 Drive 数据起草文档并匹配写作风格;Sheets 支持通过提示词"拉取相关数据"构建电子表格;Drive 搜索新增"AI Overview"概览。这些功能面向 AI Ultra 和 Pro 订阅者开放测试。

来源: TechCrunch

💡 锐评: Google 终于开始在生产力工具上发力,但"匹配写作风格"这个功能值得玩味——它意味着 Gemini 正在学习用户的个人表达习惯,这既是体验提升,也是数据收集的深化。更关键的是,Google 把 AI 功能限制在付费订阅层,说明其正在从"广告模式"向"订阅模式"加速转型,这对整个 SaaS 行业都有示范效应。


4. Anthropic 发布 Claude Opus 4.6,专注编码与金融 Agent

Anthropic 于 2 月 5 日发布 Claude Opus 4.6,新模型在编码、长时间任务维持和高质量专业工作方面表现更佳,特别擅长规划、代码审查和调试,并在"Finance Agent benchmark"上位居榜首。Anthropic 正在向"氛围工作"(vibe working)模式演进。

来源: CNBC

💡 锐评: Claude Opus 4.6 选择在 Finance Agent benchmark 上霸榜,这是 Anthropic 的精准卡位——金融是 AI Agent 变现能力最强的垂直领域之一。"vibe working"概念的提出也很有意思,暗示 AI 正在从"工具"向"协作者"身份转变。Anthropic 2026 年开局凶猛,OpenAI 的领先地位正在被蚕食。


5. MIT 预测:2026 年硅谷产品将更多基于中国开源大模型

MIT Technology Review 预测 2026 年五大 AI 趋势:硅谷产品将更多基于中国开源大模型;美国监管陷入联邦与州博弈;聊天机器人重塑购物方式;大模型将助力重要新发现;相关法律诉讼将显著升温。

来源: MIT Technology Review

💡 锐评: "硅谷产品基于中国开源模型"这个预测如果成真,将是 AI 地缘政治的转折点。DeepSeek 已经证明了这一点——中国模型不再是"追赶者",而是"定义者"。监管博弈和诉讼升温则暗示 AI 行业正在从"野蛮生长"进入"规则重构"阶段,2026 年可能是 AI 合规成本激增的元年。


6. IBM 预测:量子计算将在 2026 年超越经典计算机

IBM 专家预测 2026 年 AI 趋势:量子计算将在特定任务上超越经典计算机;硬件效率将成为新的扩展策略;AI 模型将更加注重能效比优化。

来源: IBM Think

💡 锐评: IBM 的预测一向偏保守,如果连 IBM 都说量子计算要超越经典计算机,那说明这个临界点真的近了。"硬件效率成为新扩展策略"是对英伟达 GPU 垄断的含蓄挑战——当算力成本成为瓶颈,算法优化和专用芯片的价值将被重估。这可能是 AI 芯片市场格局变化的先兆。


1. xszyou / Fay ⭐ 12,539(+9 today)

  • 仓库: xszyou/Fay
  • 语言: Python
  • 简介: Fay 是一个帮助数字人(2.5d、3d、移动、pc、网页)或大语言模型(OpenAI 兼容、DeepSeek)连通业务系统的 Agent 框架。

🚀 锐评: Fay 的定位非常精准——它不做底层模型,而是做"最后一公里"的连接器。数字人 + LLM 的组合正在爆发,但大多数团队卡在了"如何让模型驱动数字人"这个工程问题上。Fay 的价值在于提供了标准化的接入层,让业务系统可以快速接入各种数字人形态。值得关注其是否会扩展为多模态 Agent 的通用框架。


2. d2l-ai / d2l-zh ⭐ 76,285(+31 today)

  • 仓库: d2l-ai/d2l-zh
  • 语言: Python
  • 简介: 《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被 70 多个国家的 500 多所大学用于教学。

🚀 锐评: 作为 AI 教育的标杆项目,D2L-zh 的持续热度说明深度学习的人才需求仍在高位。500+ 大学采用这个数据很惊人——它实际上定义了一代 AI 工程师的知识体系。今日 31 个新增 star 中,很可能有相当一部分来自春季学期开学后的学生。这个项目的长尾价值在于它培养的用户会成为各种 AI 工具的潜在采用者。


3. RapidAI / RapidOCR ⭐ 6,139(+11 today)

  • 仓库: RapidAI/RapidOCR
  • 语言: Python
  • 简介: 基于 ONNXRuntime、OpenVINO、MNN、PaddlePaddle 和 PyTorch 的 OCR 多编程语言工具包。

🚀 锐评: RapidOCR 的核心竞争力在于"多推理后端支持"——ONNXRuntime 用于通用场景,OpenVINO 针对 Intel 芯片优化,MNN 面向移动端,PaddlePaddle 适合中文场景。这种架构设计让它可以灵活适配各种部署环境。OCR 作为 AI 落地的"低 hanging fruit",在企业文档数字化、RPA 等场景需求稳定,RapidOCR 的实用性很强。


4. lss233 / kirara-ai ⭐ 18,580(+12 today)

  • 仓库: lss233/kirara-ai
  • 语言: Python
  • 简介: 可 DIY 的多模态 AI 聊天机器人,快速接入微信、QQ、Telegram 等平台,支持 DeepSeek、Grok、Claude、Ollama、Gemini、OpenAI 等模型,具备工作流系统、网页搜索、AI 画图、语音对话等功能。

🚀 锐评: kirara-ai 是典型的"AI 缝合怪"项目,但它的价值恰恰在于"缝合"——把各种 AI 能力(聊天、画图、语音、搜索)打包成一个可部署的机器人。支持多平台接入(微信、QQ、Telegram)让它有很强的实用性。这类项目的热度反映了用户对"一站式 AI 助手"的需求,但也面临被官方 API 政策变化影响的风险。


5. zhayujie / chatgpt-on-wechat ⭐ 42,292(+25 today)

  • 仓库: zhayujie/chatgpt-on-wechat
  • 语言: Python
  • 简介: CowAgent 是基于大模型的超级 AI 助理,能主动思考和任务规划、访问操作系统和外部资源、创造和执行 Skills、拥有长期记忆并不断成长。支持飞书、钉钉、企微、QQ、微信公众号、网页等接入。

🚀 锐评: 42K star 说明这个项目已经成为国内 AI Bot 的事实标准。最新版本强调"主动思考"和"任务规划",正在从简单的"问答机器人"向"Agent"演进。支持企业微信、钉钉、飞书三大办公平台,说明其商业化路径清晰——做企业的"数字员工"。长期记忆和技能系统的加入,让它具备了真正的生产力工具属性。


6. hiroi-sora / Umi-OCR ⭐ 42,643(+20 today)

  • 仓库: hiroi-sora/Umi-OCR
  • 语言: Python
  • 简介: 开源、免费的离线 OCR 软件。支持截屏/批量导入图片、PDF 文档识别、排除水印/页眉页脚、扫描/生成二维码,内置多国语言库。

🚀 锐评: Umi-OCR 的"离线"特性是其核心竞争力——在数据隐私日益敏感的今天,本地运行的 OCR 工具对企业和个人用户都有吸引力。42K star 说明它已经超越了"小众工具"的范畴。支持 PDF 识别和二维码生成,让它从单纯的"识别工具"扩展为"文档处理套件"。今日 20 个新增 star 显示其社区活跃度依然很高。


7. alibaba / higress ⭐ 7,828(+20 today)

  • 仓库: alibaba/higress
  • 语言: Go
  • 简介: AI Gateway | AI Native API Gateway

🚀 锐评: Higress 的定位是"AI 原生 API 网关",这是阿里云在 AI 基础设施领域的重要布局。随着 AI Agent 和 LLM 应用的爆发,传统的 API 网关已经无法满足流式响应、长连接、模型路由等新需求。Higress 的 AI Gateway 定位瞄准了这个空白市场。今日 20 个新增 star 显示开发者对 AI 基础设施工具的关注度正在上升。


📄 arXiv 前沿论文

1. AgentFactory: 通过可执行子代理积累与重用的自我进化框架

  • 作者: Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu 等
  • arXiv: 2603.18000
  • 摘要: 构建基于 LLM 的 Agent 变得越来越重要。近期关于 LLM Agent 自我进化的研究主要将成功经验记录为文本提示或反思,这无法在复杂场景中可靠地保证任务的高效重新执行。我们提出 AgentFactory,一种新的自我进化范式,将成功的任务解决方案保存为可执行的子代理代码,而非文本经验。关键的是,这些子代理基于执行反馈持续优化,随着遇到更多任务而变得越来越稳健和高效。保存的子代理是纯 Python 代码,具有标准化文档,可在任何支持 Python 的系统上移植。我们证明 AgentFactory 能够实现能力的持续积累:其可执行子代理库不断增长和改进,逐步减少类似任务所需的工作量,无需人工干预。

🔬 锐评: AgentFactory 的核心创新在于"代码即经验"——把 Agent 的成功经验保存为可执行的 Python 代码,而不是文本提示。这解决了当前 Agent 框架的一个痛点:文本提示难以保证复杂任务的可靠重执行。更关键的是,子代理可以基于执行反馈持续优化,形成真正的"能力积累"。这个思路如果成功,可能改变 Agent 开发的游戏规则——从"写提示"变成"积累代码库"。


2. STTS: 统一时空 Token 评分实现高效视频 VLM

  • 作者: Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee
  • arXiv: 2603.18004
  • 摘要: Token 剪枝对于提升视觉语言模型(VLMs)的计算效率至关重要,特别是对于存在时间冗余的视频任务。先前的方法通常在视觉 Transformer(ViT)内部剪枝 token,仅用于动作识别和物体分割等单模态感知任务,而不适应下游视觉语言任务;或者仅在 LLM 内部剪枝,而保持 ViT 输出不变,通常需要复杂的文本条件 token 选择机制。本文提出时空 Token 评分(STTS),一个简单轻量的模块,可在 ViT 和 LLM 之间统一剪枝视觉 token,无需文本条件或 token 合并,且完全兼容端到端训练。通过辅助损失学习时间评分、通过 LLM 下游梯度学习空间评分,并辅以高效的打包算法,STTS 在整个架构中剪枝 50% 的视觉 token,在训练和推理中实现 62% 的效率提升,在 13 个短长视频 QA 任务上平均性能仅下降 0.7%。

🔬 锐评: STTS 的亮点是"跨架构统一剪枝"——同时作用于 ViT 和 LLM,而不是像之前的方法只剪一边。50% 的 token 剪枝带来 62% 的效率提升,这个投入产出比非常可观。更值得关注的是,测试时缩放(test-time scaling)还能带来额外 0.5-1% 的性能提升,这说明效率和精度并非完全对立。对于视频理解这个算力消耗大户,STTS 可能成为一个标准组件。


3. SkeletonLLM: 通过可微渲染和 MLLM 实现通用骨架理解

  • 作者: Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang, Kai-Kuang Ma, Mengyuan Liu
  • arXiv: 2603.18003
  • 摘要: 多模态大语言模型(MLLMs)展现出强大的视觉语言推理能力,但仍局限于其原生模态,无法直接处理结构化非视觉数据(如人体骨架)。现有方法要么将骨架动态压缩为有损特征向量进行文本对齐,要么将动作量化为离散 token,在不同骨架格式间泛化能力差。我们提出 SkeletonLLM,通过将任意骨架序列转换为 MLLM 的原生视觉模态,实现通用骨架理解。其核心是 DrAction,一个可微的、格式无关的渲染器,将骨骼运动学转换为紧凑的图像序列。由于整个流程是端到端可微的,MLLM 梯度可以直接指导渲染产生任务信息性的视觉 token。

🔬 锐评: SkeletonLLM 解决了一个被忽视的问题:如何让 MLLM 理解非视觉的结构化数据(如人体骨架)。其核心思路很巧妙——不是改造 MLLM,而是把骨架数据"渲染"成 MLLM 能理解的图像。这种"模态转换"的思路可以推广到其他结构化数据(如分子结构、电路图)。动作识别、体育分析、医疗康复等场景都可能受益。这是一个"把新问题转化为已有能力"的典型范例。


4. Loc3R-VLM: 基于语言的定位与 3D 推理视觉语言模型

  • 作者: Kevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys
  • arXiv: 2603.18002
  • 摘要: 多模态大语言模型(MLLMs)在连接视觉和语言方面取得了令人瞩目的进展,但在空间理解和视角感知推理方面仍面临困难。近期工作旨在用几何线索增强输入表示,而非显式地教模型在 3D 空间中推理。我们提出 Loc3R-VLM,一个为 2D 视觉语言模型配备从单目视频输入进行高级 3D 理解能力的框架。受人类空间认知启发,Loc3R-VLM 依赖两个联合目标:全局布局重建以构建场景结构的整体表示,显式情境建模以锚定自我中心视角。这些目标提供直接的空间监督,将感知和语言都 grounding 在 3D 上下文中。

🔬 锐评: Loc3R-VLM 的核心贡献是"显式 3D 监督"——不是给模型更多几何线索,而是直接教它在 3D 空间中推理。全局布局重建 + 情境建模的双目标设计,模仿了人类的空间认知机制。这个思路对于 AR/VR、机器人导航、自动驾驶等需要空间推理的场景很有价值。单目视频输入的设定也很实用,降低了数据采集门槛。


5. EchoGen: 统一布局 - 图像生成与理解的循环一致学习

  • 作者: Kai Zou, Hongbo Liu, Dian Zheng, Jianxiong Gao, Zhiwei Zhao, Bin Liu
  • arXiv: 2603.18001
  • 摘要: 本文提出 EchoGen,一个用于布局到图像生成和图像 grounding 的统一框架,能够生成具有准确布局且对文本描述(如空间关系)高保真的图像,同时稳健地对图像进行 grounding。我们认为图像 grounding 具有强大的文本和布局理解能力,可以弥补布局到图像生成中的相应局限。同时,从布局生成的图像在内容上表现出高多样性,从而增强图像 grounding 的稳健性。在统一模型内联合训练两个任务可以促进各自性能提升。我们提出渐进式训练策略:并行多任务预训练(PMTP)阶段赋予模型两项任务的基本能力;双联合优化(DJO)阶段利用任务对偶性顺序整合两个任务;Cycle RL 阶段通过使用一致性约束作为奖励消除对视觉监督的依赖。

🔬 锐评: EchoGen 的"循环一致"思路很有启发性——布局生成和图像 grounding 是两个互逆的任务,联合训练可以互相增强。这种"任务对偶性"的利用在深度学习里并不常见。渐进式训练策略(预训练→联合优化→强化学习)的设计也很精巧,解决了联合训练的优化难题。对于需要精确控制生成内容的设计、游戏、影视制作等场景,这个框架很有实用价值。


6. LoST: 3D 形状的语义层次 Token 化

  • 作者: Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen
  • arXiv: 2603.17995
  • 摘要: Token 化是各种模态生成建模的基础技术,在自回归(AR)模型中尤为关键。然而,3D 形状的最优 token 化仍是一个开放问题。最先进的方法主要依赖几何细节层次(LoD)层次结构,这些结构最初为渲染和压缩设计。这些空间层次结构通常 token 效率低下,且缺乏 AR 建模所需的语义连贯性。我们提出语义层次 Token 化(LoST),按语义显著性排序 token,使得早期前缀解码成完整、合理的形状并具有主要语义,而后续 token 细化实例特定的几何和语义细节。LoST 实现高效、高质量的 AR 3D 生成,并支持语义检索等下游任务,仅使用先前 AR 模型所需 token 的 0.1%-10%。

🔬 锐评: LoST 的核心洞察是"语义优先于几何"——传统的 3D token 化按几何细节分层,而 LoST 按语义显著性分层。这种"语义层次"的设计让模型可以用更少的 token 生成合理的形状(仅需 0.1%-10% 的 token),这对于 3D 生成的效率是质的提升。RIDA(关系内距离对齐)损失函数的设计也很巧妙,把 DINO 的视觉语义引入 3D 空间。这个工作可能推动 3D 生成从"实验室玩具"走向"实用工具"。


7. 文本嵌入插值用于连续图像引导的惊人有效性

  • 作者: Yigit Ekin, Yossi Gandelsman
  • arXiv: 2603.17998
  • 摘要: 我们提出一个无需训练的框架,用于文本条件生成模型的测试时连续可控图像编辑。与依赖额外训练或人工干预的先前方法不同,我们发现简单的文本嵌入空间引导就足以产生平滑的编辑控制。给定目标概念(如增强照片真实感或改变面部表情),我们使用大语言模型自动构建一小组去偏对比提示对,从中计算生成器文本编码器空间中的引导向量。然后直接将此向量添加到输入提示表示中,以沿期望的语义轴控制生成。为获得连续控制,我们提出弹性范围搜索程序,自动识别有效的引导幅度区间。

🔬 锐评: 这篇论文的标题致敬了"The Unreasonable Effectiveness of..."系列,其核心发现确实令人惊讶——不需要复杂的训练或架构修改,仅仅在文本嵌入空间做插值就能实现高质量的连续图像编辑。"弹性范围搜索"自动确定引导幅度区间,解决了手动调参的痛点。这个方法的最大价值在于"即插即用"——可以应用到任何文本条件生成模型上,包括视频生成。对于需要精细控制生成内容的创作者来说,这是一个实用工具。


📊 今日总结

今天的 AI 领域呈现出几个值得关注的趋势:

投资层面,腾讯宣布 AI 投资翻倍,与微软、Google、Anthropic 的巨额投入形成呼应,说明巨头们正在用资本构建护城河。算力对外租售的策略也意味着 AI 基础设施正在成为新的战场。

技术层面,Agent 框架正在从"文本提示"向"可执行代码"演进(AgentFactory),视频理解在效率优化上取得突破(STTS),3D 生成开始关注语义层面的优化(LoST)。这些进展都在指向同一个方向:AI 正在从"能用"走向"好用"和"高效"。

应用层面,数字人、OCR、多模态聊天机器人等实用工具持续获得社区关注,说明 AI 落地正在从"概念验证"进入"生产部署"阶段。GitHub 上的热门项目越来越多地关注"如何连接业务系统",而非"如何训练更好的模型"。

地缘政治层面,MIT 关于"硅谷产品基于中国开源模型"的预测,以及马化腾对 DeepSeek 的公开回应,都暗示着 AI 领域的全球格局正在发生微妙变化。开源模型正在重塑竞争规则。

总体而言,2026 年的 AI 行业正在经历从"技术突破"到"工程落地"、从"实验室"到"生产线"的关键转折。


本报告由 QoderWork 自动生成,数据截止至 2026-03-19