Snapviewer Devlog #3: 性能优化

June 7, 2025

#torch

#deep-learning

#rust

内存与速度性能问题排查

免责声明：我主要在 Windows 上使用最新的稳定版 Rust 工具链和 CPython 3.13 进行开发和测试。

SnapViewer 能够高效处理大型内存快照——例如，支持高达 500 MB 的压缩快照。然而，在处理 1.3 GB的snapshot的时，我发现了严重的内存和速度瓶颈：

频繁的 page fault 和强烈的磁盘 I/O（在任务管理器中观察到）导致应用程序响应迟缓，甚至频繁卡顿。为了解决这一问题，我们采用了 Profile-Guided Optimization（PGO，基于性能分析的优化）方法。

PGO 需要通过实证分析来识别真正的热点。我首先使用 memory-stats crate 进行内存分析，在早期优化阶段进行轻量级检查。随后，我将数据加载流水线拆解为若干离散步骤：

性能分析揭示了两个主要的内存问题：过度使用 clone 和多个中间数据结构。以下是我实施的优化措施。

在快速原型开发阶段，调用 .clone() 非常方便，但代价高昂。性能分析显示，克隆大型 Vec 显著加剧了内存峰值和 CPU 时间。

仅此一项改动就显著降低了内存使用, 降低了启动耗时。

构建三角网格涉及多个临时表示形式：

每个阶段都会保留其前驱数据直至作用域结束，从而推高了峰值内存占用。为及时释放这些中间数据，我们采取了以下措施：

经过这些调整，峰值内存大约减少了三分之一。

对包含超过 50,000 个条目的调用栈 JSON 进行反序列化时，内存使用急剧飙升。为缓解此问题：

这种流式处理方法使每个分片的内存占用保持在较低水平，避免了之前的大规模单次分配。

值得注意的是，serde_json::StreamDeserializer 是另一个值得尝试的选项。

即使经过上述优化，调用栈数据仍然是内存中最大的组件——在 Rust 中和内存 SQLite 数据库中各存一份，造成重复。

为消除冗余，我重新思考了每种表示形式的用途：

由于 SnapViewer 是单线程的，且可容忍偶尔的磁盘 I/O，我将快照拆分为两个文件：

这两个文件被一起压缩打包。运行时：

SQLite 高效的磁盘索引使这些查询非常迅速，对帧率几乎没有可感知的影响。

我对快照转换脚本进行了如下更新：

虽然转换过程略慢，但生成的快照加载更快，且内存占用大幅降低。

经过这些优化，SnapViewer 实现了以下改进：

我学到的经验：