Posts

2026
注:$\odot$ 代表逐元素乘法。
DeepSeek发布了最新的魔改版Residual Connection:Manifold Constrained Hyper-Connection.
2025
DSL(Domain-Specific Language,领域特定语言)是一种专为特定问题领域设计的编程语言。
原本第一集应该是语法和随便找个bmm,flash-attn2的kernel来实现一下并且进行benchmark的,因为所以gpu编程博客都是这样的。
首先,(在通常意义上来说)cuTile不是一个库,是一门语言,因为他劫持捕获了Python的源码并且使用了自己的编译器对这段代码进行编译、Lower、执行等操作。这一点在宏观上可以对比triton。
今天我们来介绍茴字的第3种写法
花点时间配置一下我的Mac Mini.
Brew 换源
原文:
可以看我和Gemini的对话
注:本文用LLM辅助写作的地方主要在:我认为LLM比我理解的更好的地方,会用LLM的表述代替。
免责声明:我主要在 Windows 上使用最新的稳定版 Rust 工具链和 CPython 3.13 进行开发和测试。
在使用 PyTorch 训练模型时,内存不足(OOM)错误是很常见的,因此需要对 GPU 内存进行优化。当简单的方法(如减少batch size)不再有效时,就需要分析模型本身的内存占用情况。
Lsm Tree 是一种内存-磁盘的层级式数据结构,常用于实现写多读少的存储引擎。
2024
Symars Rust代码生成库和 Raddy 自动求导库的来龙去脉
本文没有任何数学推导。我们从直观上理解这个算法,然后直接介绍算法的流程。希望了解数学推导的读者可以查看 CMU 的教案及其翻译。