我的 2026 终端方案:Ghostty + Starship + Lazygit + Yazi + Claude Code
折腾终端这件事,本质上是在回答一个问题:日常开发中,你的手指在哪些操作上浪费了最多时间?这篇文章分享我当前的终端工具链——Ghostty 做渲染、Starship 做 prompt、Lazygit 管 Git、Yazi 管文件、Claude Code 做 AI 辅助——以及它们如何拼成一个流畅的工作流。
2896 字
|
14 分钟
Cover Image of the Post
Attention 架构演进:从 MHA 到 MLA,一场关于 KV Cache 的战争
标准 Attention 有两个可优化的自由度:KV 投影的特征维度,和每个 query 关注的序列范围。九年间,MQA、GQA、MLA 沿第一条轴将 KV Cache 压缩了 57 倍;SWA、NSA、DSA 沿第二条轴将注意力计算从 O(n) 降到 O(k)。2026 年,DeepSeek V4、MiMo V2、GLM-5.1、Kimi K2.6 在两条轴上做出了截然不同的选择。本文从数学公式出发,沿这两条轴线梳理完整脉络。
3265 字
|
16 分钟
Cover Image of the Post
Multi-Token Prediction:从下一个 Token 到下 N 个 Token 的范式跃迁
Next-Token Prediction 统治了 LLM 训练范式近十年。2024 年,Meta 提出 Multi-Token Prediction,用多个预测头同时预测未来 N 个 token,在代码生成上提升 17%,推理速度提升 3 倍。DeepSeek-V3 将其改造为因果链式架构,Qwen3.5 和小米 MiMo 纷纷跟进。MTP 正在成为 LLM 架构的标配。
4359 字
|
22 分钟
Cover Image of the Post
Claude Code 黑科技手册:10 个大多数人不知道的隐藏玩法
你以为 Claude Code 只是个聊天框?自定义命令、Hooks 自动化、多 Agent 并行、手机遥控、AI 审查 AI……这些骚操作才是它真正的杀手锏。
3320 字
|
17 分钟
Cover Image of the Post
LeetCode Biweekly Contest 92
Problem 1: 找规律可以发现,n为奇数时,由于不对称,无法进行过圆心的切分,所以只能切n刀;n为偶数时,可以通过切n/2刀。特殊的是n=1时不需要切分。
647 字
|
3 分钟
Cover Image of the Post
LeetCode Weekly Contest 321
Problem 1: 普通做法:遍历每个数,判断左边和右边的和是否相等,时间复杂度$O(n^2)$,用等比数列求和公式可以将复杂度降到$O(n)$。从 1 到 n 枚举 x 即可。
689 字
|
3 分钟
Cover Image of the Post
如何在 M 系芯片的 MacBook 上玩原神
在用上M系芯片之后苹果开始在自家的Mac系列电脑上使用新的M系芯片(也就是所谓的Apple Silicon Chip)之后,iPhone、iPad、Mac的芯片就被统一成了ARM架构,使用同一套RISC指令集。这意味着,我们甚至可能在iPhone运行MacOs。当然,我觉得刀法精准的厨子不会这么做。
801 字
|
4 分钟
Cover Image of the Post
Utilize Apple Silicon's GPU by PyTorch Nightly
Pytorch nightly 已经支持了 Apple Silicon 的 GPU,可以通过以下方式来使用它: 首先,你的 Macbook 应该是使用 Apple Silicon (M系列芯片) 新款笔记本,而不是使用 Intel 的笔记本。另外,需要 Mac OS 是 12.3 或更高版本。
211 字
|
1 分钟
Cover Image of the Post