Prompt Caching:被忽视的非对称性
Prompt Caching 不是省钱的开关,而是对 LLM 推理成本结构的一次重新理解。从 KV Cache 的物理基础到三家厂商的设计哲学,再到工程实践的几条原则——一篇关于'重复计算就是浪费算力'的文章。
4897 字
|
24 分钟
Cover Image of the Post
2026 重读 Lilian Weng:Agent 的三年与那张未老的地图
2023 年 6 月,Lilian Weng 写下了「LLM Powered Autonomous Agents」。三年后重读,99% 的 AI 文章已成废墟,这篇不是——她画下的地图,至今还在指引方向。
2375 字
|
12 分钟
Cover Image of the Post
Ralph Loop:让 AI 编程 Agent 通宵干活的自主循环范式
你还在一轮一轮地给 AI 发指令?Ralph Loop 用一个 while true 循环加 Stop Hook,让 Claude Code 和 Codex CLI 变成了可以连续工作十几个小时的自主 Agent。这篇文章从原理到实操,拆解这个正在重塑 AI 编程工作流的范式。
3876 字
|
19 分钟
Cover Image of the Post
我的 2026 终端方案:Ghostty + Starship + Lazygit + Yazi + Claude Code
折腾终端这件事,本质上是在回答一个问题:日常开发中,你的手指在哪些操作上浪费了最多时间?这篇文章分享我当前的终端工具链——Ghostty 做渲染、Starship 做 prompt、Lazygit 管 Git、Yazi 管文件、Claude Code 做 AI 辅助——以及它们如何拼成一个流畅的工作流。
2896 字
|
14 分钟
Cover Image of the Post
Attention 架构演进:从 MHA 到 MLA,一场关于 KV Cache 的战争
标准 Attention 有两个可优化的自由度:KV 投影的特征维度,和每个 query 关注的序列范围。九年间,MQA、GQA、MLA 沿第一条轴将 KV Cache 压缩了 57 倍;SWA、NSA、DSA 沿第二条轴将注意力计算从 O(n) 降到 O(k)。2026 年,DeepSeek V4、MiMo V2、GLM-5.1、Kimi K2.6 在两条轴上做出了截然不同的选择。本文从数学公式出发,沿这两条轴线梳理完整脉络。
3265 字
|
16 分钟
Cover Image of the Post
Multi-Token Prediction:从下一个 Token 到下 N 个 Token 的范式跃迁
Next-Token Prediction 统治了 LLM 训练范式近十年。2024 年,Meta 提出 Multi-Token Prediction,用多个预测头同时预测未来 N 个 token,在代码生成上提升 17%,推理速度提升 3 倍。DeepSeek-V3 将其改造为因果链式架构,Qwen3.5 和小米 MiMo 纷纷跟进。MTP 正在成为 LLM 架构的标配。
4359 字
|
22 分钟
Cover Image of the Post
Claude Code 黑科技手册:10 个大多数人不知道的隐藏玩法
你以为 Claude Code 只是个聊天框?自定义命令、Hooks 自动化、多 Agent 并行、手机遥控、AI 审查 AI……这些骚操作才是它真正的杀手锏。
3320 字
|
17 分钟
Cover Image of the Post
LeetCode Biweekly Contest 92
Problem 1: 找规律可以发现,n为奇数时,由于不对称,无法进行过圆心的切分,所以只能切n刀;n为偶数时,可以通过切n/2刀。特殊的是n=1时不需要切分。
647 字
|
3 分钟
Cover Image of the Post