CHAPTER 03 ≈ 20 MIN READ

第一章补充：术语速查与常见问题

第一章额外补充

附录：本章关键术语速查

本章涉及的专有名词较多，这里按照出现顺序整理成速查表，方便复习。

存储相关术语

术语	英文全称	解释
硬盘	Hard Disk Drive (HDD)	长期存储数据的部件，机械结构，速度慢但价格低
固态硬盘	Solid State Drive (SSD)	基于闪存的存储设备，无活动部件，速度快
闪存	Flash Memory	一种可在断电后保持数据的半导体存储器
NVMe	Non-Volatile Memory Express	专为SSD设计的高速传输协议，走PCIe总线
SATA	Serial ATA	较老的数据传输接口，机械硬盘和部分SSD使用
M.2	—	一种物理接口形状（不是传输协议），可承载SATA或NVMe协议
分区	Partition	将一块物理硬盘逻辑划分为多个独立区域
文件系统	File System	组织和管理硬盘数据的系统（NTFS、APFS、ext4等）
NTFS	New Technology File System	Windows主流文件系统
APFS	Apple File System	苹果现代文件系统，专为SSD优化
FAT32	File Allocation Table 32	老旧文件系统，单文件最大4GB，兼容性好
exFAT	Extended FAT	FAT32继承者，解除4GB限制，适合U盘
碎片化	Fragmentation	文件存储不连续，影响机械硬盘读写速度
TBW	Total Bytes Written	SSD写入寿命指标，总可写入字节数
P/E循环	Program/Erase Cycle	闪存单元的读写擦除次数限制
寻道时间	Seek Time	机械硬盘磁头移动到目标磁道所需时间
寄存器	Register	CPU内部最快的存储单元，容量极小

内存相关术语

术语	英文全称	解释
内存 / RAM	Random Access Memory	临时存放运行中程序数据，断电清空
DRAM	Dynamic RAM	内存使用的技术，用电容存储，需定期刷新
SRAM	Static RAM	缓存使用的技术，速度更快但更贵
DDR4/DDR5	Double Data Rate 4/5	不同代数的内存规格，不可混用
LPDDR	Low Power DDR	手机/平板用的低功耗内存版本
SO-DIMM	Small Outline DIMM	笔记本使用的小型内存条
虚拟内存	Virtual Memory	用硬盘空间模拟内存的机制
页面文件	Pagefile	Windows的虚拟内存文件（pagefile.sys）
交换空间	Swap Space	Linux/Mac的虚拟内存空间
换出/换入	Page Out / Page In	数据在内存和硬盘虚拟内存之间的迁移
缺页错误	Page Fault	程序访问不在物理内存的数据时触发的异常
抖动	Thrashing	内存极度不足导致系统大量换页、性能崩溃
内存压缩	Memory Compression	macOS的优化技术，压缩不活跃内存而非立即换页

缓存相关术语

术语	英文全称	解释
缓存	Cache	用于缓冲速度差异的快速小容量存储
CPU缓存	CPU Cache	集成在CPU芯片上的高速缓存
L1/L2/L3缓存	Level 1/2/3 Cache	CPU缓存的三个层次，L1最快最小，L3最慢最大
缓存行	Cache Line	缓存读写的基本单位，通常64字节
缓存命中	Cache Hit	所需数据在缓存中找到
缓存未命中	Cache Miss	所需数据不在缓存中，需去下层存储
局部性原理	Principle of Locality	缓存有效的理论基础
时间局部性	Temporal Locality	最近用过的数据很快还会再用
空间局部性	Spatial Locality	用了某地址的数据，很快会用附近地址的数据
缓存替换策略	Cache Replacement Policy	缓存满时决定淘汰哪条数据的策略
LRU	Least Recently Used	淘汰最长时间未访问的数据
缓存一致性	Cache Coherence	多核CPU各自缓存保持数据一致的机制
MESI协议	MESI Protocol	经典缓存一致性协议（Modified/Exclusive/Shared/Invalid）
伪共享	False Sharing	不同核心修改同一缓存行的不同变量导致性能损耗
内存墙	Memory Wall	CPU速度提升远快于内存，两者速度差距持续扩大的问题
页缓存	Page Cache	操作系统用空闲内存缓存硬盘数据的机制
CDN	Content Delivery Network	内容分发网络，在各地部署缓存服务器加速访问
DNS缓存	DNS Cache	本地缓存的域名解析结果，加快连接速度
TTL	Time To Live	DNS缓存的有效时间

附录：常见问题解答

Q：SSD会突然坏掉，不像机械硬盘会有预兆，这是真的吗？

A：有一定道理，但不完全准确。机械硬盘在失效前通常有一些预兆，比如读写速度变慢、出现奇怪的咔嗒声、SMART（硬盘健康监测）报告坏道等。SSD的失效有时候确实比较突然——某天直接就检测不到了，没有太多预兆。

但现代SSD有S.M.A.R.T.监控机制，可以报告剩余寿命、已写入总量等信息。用 CrystalDiskInfo（Windows）或者 DriveDx（Mac）这类工具可以查看SSD的健康状态。如果剩余寿命指标已经很低，建议提前备份数据。

无论哪种硬盘，重要数据都要备份。 硬盘是会坏的，这不是"会不会"而是"什么时候"的问题。科大学生建议养成定期把重要文件备份到云端（OneDrive、腾讯文档、iCloud）或者另一块硬盘的习惯。

Q：为什么我的C盘明明有上百GB，但软件装多了还是会满？能不能把程序装到D盘？

A：可以。很多软件在安装时会让你选择安装路径，选D盘即可。但有些系统组件和部分软件会强制安装到C盘，或者运行时会在C盘生成缓存和配置文件，所以即使把主程序装在D盘，C盘还是会被占用一部分。

如果C盘经常满，可以考虑：

把大型游戏和软件安装到D盘
把Chrome、WeChat等的缓存目录改到D盘（在软件设置里找"存储位置"或"缓存路径"）
定期清理Windows的临时文件（Win+R 输入 %temp% 打开临时文件夹，全选删除）
用磁盘清理工具（cleanmgr 命令）清理系统文件
调整分区（需要专业操作，谨慎处理）

Q：买电脑时说的"双通道内存"是什么意思？

A：现代主板有多个内存插槽，如果在成对的插槽（通常是第1和第3槽，或第2和第4槽）里插入相同规格的两根内存条，可以开启**双通道（Dual Channel）**模式。

双通道允许内存控制器同时访问两根内存条，理论上将内存带宽翻倍（比如两根 DDR4-3200 各 16GB，单通道带宽约 25 GB/s，双通道约 50 GB/s）。

在实际使用中，双通道对 CPU 性能的提升因任务类型而异——内存带宽敏感的任务（如视频编辑、机器学习、集成显卡游戏）提升明显，而独立显卡游戏、代码编译等提升可能只有 5-15%。

但 AMD 的 APU（集成显卡的 Ryzen 处理器）和苹果 M 系列芯片（GPU 和 CPU 共享内存）对内存带宽非常敏感，双通道或高带宽内存在这些平台上能带来明显的性能提升。

Q：内存频率越高越好吗？买 DDR5-6000 比 DDR5-4800 值得多花钱吗？

A：取决于使用场景。对于大多数日常使用（上网、文档、普通编程），DDR5-4800 和 DDR5-6000 几乎没有体验差别，日常任务的瓶颈不在内存带宽。

但对于 AMD CPU + 高性能游戏、机器学习推理、视频编辑等内存带宽敏感的场景，高频内存确实有帮助。AMD 的 Ryzen 7000 系列对内存频率有明显响应，高频率可以带来数个百分点的帧率提升。

结论：如果预算紧张，优先提高内存容量（16GB→32GB），而不是提高频率（DDR5-4800→DDR5-6000）。容量不够的影响比频率低更直接。

Q：NVMe SSD 过热降速（Thermal Throttling）是什么现象？

A：高速 NVMe SSD 在高负载下（如复制大文件、解压缩）会产生大量热量。当温度超过阈值（通常 70-80°C），固件会主动降低读写速度来控温，这就叫热降速（Thermal Throttling）。

现象是：复制文件时，起初速度很快（接近标称速度），但持续几分钟后速度明显下降，变成一半甚至更少。

解决方案：

高速 NVMe SSD 建议加散热片（M.2散热片，几十元）
笔记本用户确保散热通道畅通，不要堵住通风口
避免长时间高负载持续读写

苹果 M 系列芯片的 SSD 由于集成设计和高效散热，通常不存在这个问题。

动手项目——建立你自己的存储性能档案

这是一个可以自己完成的小项目，能让你对本章的概念有更直观的感受。

第一步：记录你的存储配置

用任务管理器或系统信息工具，记录以下信息：

我的电脑存储配置档案
=====================
硬盘型号：_______________
接口类型：___ (SATA / NVMe)
硬盘容量：_______________
内存容量：_______________
内存类型：___ (DDR4 / DDR5)
内存频率：___ MHz
内存通道：___ (单通道 / 双通道)
CPU型号：_______________
L1缓存：_______________
L2缓存：_______________
L3缓存：_______________

第二步：测试你的硬盘速度

Windows 用户（使用 CrystalDiskMark，免费软件）：

下载并安装 CrystalDiskMark
运行默认测试，记录以下数据：
- Sequential Read（顺序读取）：___ MB/s
- Sequential Write（顺序写入）：___ MB/s
- Random Read 4K（4KB随机读取）：___ MB/s
- Random Write 4K（4KB随机写入）：___ MB/s
把你的结果和以下参考值对比：

硬盘类型	顺序读	顺序写	4K随机读
机械硬盘（7200rpm）	100-180 MB/s	100-180 MB/s	0.5-1 MB/s
SATA SSD	400-550 MB/s	400-520 MB/s	30-60 MB/s
NVMe SSD（PCIe 3.0）	2000-3500 MB/s	1500-3000 MB/s	30-60 MB/s
NVMe SSD（PCIe 4.0）	4000-7000 MB/s	3000-6000 MB/s	40-80 MB/s

观察：顺序读和4K随机读的差距有多大？（机械硬盘的差距会特别明显，因为随机访问需要频繁移动磁头。）

第三步：测试内存速度

可以用 AIDA64（有试用版）的内存测试功能，或者运行下面的 Python 脚本作粗略估计：

import time
import array
import random

# 创建一个大数组，约等于 L3 缓存大小的10倍（大多数情况）
# 这样确保大部分访问都从内存读取，不从缓存读取
N = 100_000_000  # 1亿个字节 = 100MB
data = array.array('b', [0] * N)

# 写入测试
t1 = time.perf_counter()
for i in range(0, N, 64):  # 每次跳64字节（一个缓存行）
    data[i] = 1
t2 = time.perf_counter()

elements_written = N // 64
bytes_written = elements_written * 64
bandwidth = bytes_written / (t2 - t1) / 1e9  # GB/s

print(f"估算内存带宽（顺序写入）: {bandwidth:.2f} GB/s")
print("（注：Python开销大，实际内存带宽远高于此估算，仅供对比参考）")

第四步：感受缓存效应

如果你学过 C 语言，可以用 C 写一个更精确的缓存效应测试：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <string.h>

#define N (64 * 1024 * 1024)  // 64MB，超过大多数L3缓存

int main() {
    char *data = (char*)malloc(N);
    memset(data, 0, N);
    
    // 测试不同步长的访问时间
    // 步长小：缓存友好；步长大：缓存不友好
    int strides[] = {1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024};
    int num_strides = sizeof(strides) / sizeof(strides[0]);
    
    printf("%-10s  %-15s  %-10s\n", "步长(字节)", "访问次数", "耗时(ms)");
    printf("-------------------------------------------\n");
    
    for (int s = 0; s < num_strides; s++) {
        int stride = strides[s];
        long count = 0;
        volatile int sink = 0;
        
        clock_t start = clock();
        for (int i = 0; i < N; i += stride) {
            sink += data[i];
            count++;
        }
        clock_t end = clock();
        
        double ms = (double)(end - start) / CLOCKS_PER_SEC * 1000;
        printf("%-10d  %-15ld  %-10.2f\n", stride, count, ms);
    }
    
    free(data);
    return 0;
}

观察输出：随着步长从1增加到64（缓存行大小），每次访问的时间可能先增加后趋于平稳——因为步长超过缓存行大小后，每次访问的缓存效果差不多，基本都是缓存未命中，时间主要取决于内存延迟。

将你的测试结果和本章的数据对比，看看和理论值差多少，思考为什么会有差异（Python 的开销、操作系统的干扰、实际使用的缓存效果等）。这是一个很好的培养计算机直觉的练习。

深度拓展：存储技术的演进历史

从打孔卡到NVMe：人类如何存储信息

理解今天的存储技术，从历史视角看会更有意思。

打孔卡时代（1890s-1970s）

计算机诞生之前，就有信息存储的需求。19世纪末，Herman Hollerith 发明了打孔卡（Punched Card），用纸卡上的孔洞位置来编码信息。卡片上有孔代表1，没孔代表0。这套系统被广泛用于人口普查数据处理——1890年的美国人口普查，正是用打孔卡把处理时间从8年缩短到了1年。

早期计算机用打孔卡作为输入和存储媒介。一盒打孔卡可能存储几千字节的信息——相当于今天一封短邮件的大小。

磁带时代（1950s-至今）

1951年，UNIVAC I 计算机引入了磁带作为存储介质。磁带是一种记录介质，和今天的音频磁带原理相同——通过磁性材料记录信息。

磁带的优点是容量大、成本低；缺点是只能顺序读取（要读第1000个文件，必须先把前999个卷过去），访问时间极长。

今天，磁带并没有消失。大型数据中心（如 Google、Facebook、Amazon）仍然用磁带做冷备份——它每TB成本极低，存放大量不常访问的归档数据完全够用。Netflix 早期就是把影片存在磁带上的。

磁鼓存储器（1950s）

磁鼓（Magnetic Drum）是早期计算机的随机存取存储器，一个圆柱形的磁性表面旋转，通过固定的读写头访问。它是机械硬盘的"祖先"。

磁芯存储器（1950s-1970s）

在晶体管和集成电路没有普及之前，计算机的随机存取存储器用的是磁芯（Magnetic Core）——一个个微小的铁氧体环，用导线穿过，通过电流方向控制磁化方向来存储比特。

磁芯存储器的特点：有物理实体（你真的能用手感觉到），非常可靠，并且是非易失性的——断电不丢数据。这和今天的内存完全不同。

阿波罗制导计算机（1969年把人类送上月球的那台）就用磁芯存储器。宇航员的飞行程序被手工编织进磁芯——字面上是"编织"，因为要把导线一根一根穿过磁芯环。

第一代硬盘（1956年）

IBM 于1956年推出了第一块商用硬盘：IBM 350，作为 IBM 305 RAMAC 计算机的一部分。

规格数据今天看来令人震惊：

存储容量：5MB（5兆字节）
物理尺寸：相当于两个冰箱大小
重量：约 1 吨
价格：每月租金约 3,200 美元（相当于2024年的 35,000 美元）
磁盘直径：24英寸（约61厘米），共50个盘片

每MB的存储成本：约 640 美元/月。

相比之下，2024年的1TB NVMe SSD，每MB成本约 0.0001 美分，容量大了 20 万倍，速度快了数万倍，体积小了数万倍。这就是"摩尔定律"在存储领域的缩影。

软盘（1970s-2000s）

软盘（Floppy Disk）是便携式存储的早期解决方案，一片可弯曲的磁性介质封在方形塑料壳里。

从8英寸到5.25英寸到3.5英寸，容量从几十KB增长到1.44MB（3.5英寸高密软盘的标准容量）。

今天你在各种软件的"保存"图标上看到的方块，就是3.5英寸软盘的样子——一个已经从日常生活中消失了20年的物件，却成了"保存"这个概念的永久图标。

光盘（1980s-2010s）

CD（1980年代）、DVD（1990年代）、蓝光（2000年代）用激光在光盘上写入和读取数据。

CD：约700MB
DVD：单层4.7GB，双层8.5GB
蓝光：单层25GB，双层50GB

光盘的优点是生产成本极低（大量压制后），适合发行媒体（音乐CD、电影DVD）；缺点是写入速度慢，可擦写型（CD-RW、DVD-RW）耐用性差。随着流媒体的兴起，光盘正在快速退出消费市场。

闪存的崛起（1980s-至今）

闪存技术由东芝工程师 Masuoka Fujio（舛岡富士雄）于1984年发明，并于1988年商业化。早期的闪存容量只有几百KB，主要用于BIOS芯片（存储电脑启动程序）。

随着工艺进步，闪存密度飞速提升。到了2000年代，U盘（USB Flash Drive）出现，用闪存替代软盘；随后是内存卡（用于相机和手机）；到了2010年代，SSD开始进入笔记本电脑主流。

今天，闪存已经是存储市场的绝对主力，从手机、平板、笔记本，到企业数据中心，无处不在。

3D NAND：向上堆叠的革命（2010s-至今）

传统的平面NAND闪存，所有存储单元排列在一个二维平面上。当工艺缩小到极限，物理层面的量子效应开始影响存储可靠性，进一步缩小变得很难。

解决方案是：不再往平面上挤，而是向上堆叠——把多层存储单元垂直叠在一起，叫做 3D NAND（或 V-NAND，垂直 NAND）。

三星于2013年率先商业化3D NAND，今天主流消费级SSD已经堆叠到 200+ 层，部分企业级产品超过 300 层。这让单位面积的存储容量大幅提升，SSD的价格持续下降。

AI时代的新型存储技术

随着大模型的爆发，存储行业也在发生新的变化。

HBM（High Bandwidth Memory，高带宽存储器）

这是 AI 芯片（如 NVIDIA H100/H200、AMD MI300）使用的特殊内存技术。

HBM 的原理是把多个DRAM芯片垂直堆叠，再通过硅穿孔（TSV）技术连接，最后和GPU芯片封装在一起。结果是：

内存带宽从 DDR5 的约 100 GB/s，飙升到 3-5 TB/s（高出30-50倍）
延迟更低（距离更近）
功耗更低（不需要通过长线路传输）

这对于大模型推理至关重要——LLM（大语言模型）在推理时，主要瓶颈不是计算，而是不断地把模型权重从显存（内存）搬到计算单元。HBM 的超高带宽让这个搬运过程大幅提速。

NVIDIA H100 GPU 配备 80GB 的 HBM3，带宽高达 3.35 TB/s。而 NVIDIA H200 把 HBM 换成 HBM3e，容量增加到 141GB，带宽提高到 4.8 TB/s，专门针对大模型推理优化。

苹果统一内存（Unified Memory Architecture）

苹果 M 系列芯片（M1/M2/M3/M4）采用的统一内存架构，让 CPU、GPU、NPU（AI 加速器）共享同一块内存池，消除了传统架构中 CPU 内存和 GPU 显存之间的数据复制开销。

对于大模型本地推理（用 llama.cpp 运行模型），苹果 M 芯片有独特优势：CPU 和 GPU 共享内存，内存带宽高（M4 Max 达到 400 GB/s），16-192GB 的统一内存可以装下更大的模型。这也是为什么 macOS 上的本地 AI 推理生态（Ollama、LM Studio）体验相对完善。

LPDDR5X 和下一代移动内存

手机的内存也在快速进化。LPDDR5X（2022年）的带宽达到 77 GB/s，相比 LPDDR4X 几乎翻倍，为手机端运行小型 AI 模型（如 Gemini Nano）提供了足够的内存带宽。

未来的 LPDDR6 预计在 2025-2026 年出现，带宽可能达到 100 GB/s 以上。

存储的未来：几个值得关注的方向

持久内存（Persistent Memory / NVM）

传统内存（DRAM）断电就丢失数据；传统硬盘（SSD）持久保存但很慢。能不能有一种存储，既有接近内存的速度，又能持久保存数据？

这就是持久内存的追求。英特尔的 Optane（傲腾）就是一个尝试——基于 3D XPoint 技术，延迟介于 DRAM 和 NVMe SSD 之间，并且断电不丢数据。可惜由于成本过高、生态不成熟，英特尔于 2022 年宣布放弃 Optane 业务。

但持久内存的研究还在继续，包括相变存储器（PCM）、铁电存储器（FeRAM）等技术，都在探索这个领域。

存储级内存（Storage Class Memory）

这是一个更宽泛的概念，泛指那些填补 DRAM 和 NAND 之间速度鸿沟的新型存储技术。随着大模型对内存容量和带宽的需求持续增长，这个领域的研究会越来越重要。

DNA 存储

一个极具科幻感但真实存在的研究方向：用 DNA 分子存储数字数据。DNA 的存储密度极其惊人——理论上 1g DNA 能存储约 215 PB（215,000 TB）的数据，是硬盘的数百万倍。

2017 年，微软研究院成功把一段视频编码进 DNA，并读取出来。但目前 DNA 的写入（DNA合成）和读取（基因测序）速度极慢、成本极高，离实用还很遥远。

量子存储

量子计算需要量子比特（Qubit）的存储，这是一个全新的领域，和传统存储完全不同。量子信息的存储面临"退相干"（Decoherence）的根本挑战——量子态极其脆弱，稍有干扰就会崩溃。目前量子比特的相干时间还很短，是量子计算走向实用的关键瓶颈之一。

专题讨论：为什么 AI 时代的内存需求爆炸了？

这个话题在开篇就提过，现在学完存储体系，可以更深入地理解。

大语言模型（LLM）到底有多"重"？

当你用 ChatGPT、Claude、通义千问这些 AI 时，背后运行的是大语言模型（Large Language Model，LLM）。这些模型有多大？

以参数量来衡量：

模型	参数量	存储大小（FP16精度）
GPT-3（2020年）	1750亿	约 350 GB
LLaMA 2 7B	70亿	约 14 GB
LLaMA 2 70B	700亿	约 140 GB
GPT-4（估计）	约1.8万亿	约 3.6 TB

什么叫"参数量 700亿"？简单来说，这个模型有 700 亿个需要存储的浮点数（模型权重）。以 FP16（16位浮点数，每个2字节）存储，700亿参数需要：

$700 \times 10^9 \times 2\text{字节} = 1400 \times 10^9\text{字节} = 1.4\text{TB}$

1.4TB，放不进任何消费级设备的内存，甚至单张 GPU 的显存也不够。

这就是为什么：

运行大模型需要多张昂贵的 GPU（如 NVIDIA H100，单卡 80GB 显存，约 25-35 万元）
数据中心的 GPU 服务器内存需求急剧增加
HBM 高带宽内存的需求暴增，NVIDIA 和 SK海力士、三星抢 HBM 产能
普通内存（DRAM）价格也随之上涨

本地运行大模型需要什么配置？

随着量化技术（Quantization）的发展，大模型可以被压缩到更小的体积，勉强在消费级设备上运行。

量化的基本思想：把模型权重从 FP16（16位浮点数）压缩到 INT8（8位整数）或者 INT4（4位整数），存储大小减半或四分之一，精度略有损失但通常可以接受。

用量化后的 LLaMA 2 7B（Q4 量化，4位整数）举例：

$700 \times 10^9 \times 0.5\text{字节} = 3.5\text{GB}$

加上推理时需要的额外内存，总共约需要 4-8GB RAM，勉强能在普通电脑上运行（但速度很慢）。

模型（Q4量化）	所需RAM	推理速度（普通CPU）
7B 参数	~6 GB	约 5-15 token/秒
13B 参数	~10 GB	约 2-8 token/秒
70B 参数	~48 GB	约 1-3 token/秒
8x7B（MoE）	~32 GB	约 2-6 token/秒

（token 大约对应半个中文字或 3/4 个英文单词，生成一句话约需 20-50 token）

这就是为什么：

想在本地流畅运行 AI，32GB 内存起步（13B 模型勉强可以，7B 更舒适）
Mac M 系列因为 CPU/GPU 共享统一内存（最高 192GB），本地 AI 体验特别好
运行 70B 及以上的模型，对消费级设备来说还是很勉强

为什么推理时内存带宽比计算能力更重要？

这是一个反直觉的结论，但对于理解 AI 硬件选型非常重要。

LLM 推理的过程，大量时间花在把模型权重从内存（或显存）搬运到计算单元，而不是在做实际的矩阵乘法计算。

用一个类比：你有一道非常复杂的数学题（矩阵乘法），但题目写在一本很厚的书里（模型权重），你每解一步都要翻书找对应的数字。解题速度的瓶颈不在你的计算能力，而在你翻书的速度。

这就是为什么：

HBM（带宽 3-5 TB/s） 对 AI 推理提升巨大，比增加计算核心更有效
苹果 M 系列的统一内存带宽（M4 Max 为 400 GB/s）在消费级产品里遥遥领先
NVIDIA 的 NVLink 技术（连接多张 GPU，合并显存和带宽）对大模型部署至关重要

这个概念叫做运算强度（Arithmetic Intensity），即每字节数据能做多少次计算。当运算强度低（即每搬一次数据只做很少计算），系统是**内存受限（Memory Bound）的，此时内存带宽是瓶颈；当运算强度高（一次搬运，大量计算），系统是计算受限（Compute Bound）**的。

大模型推理（尤其是单 batch 推理）是典型的内存受限场景，这是 AI 芯片设计的核心考量之一。

专题：当你"清理内存"时，真正发生了什么？

你可能见过"手机内存清理"或"电脑一键清理内存"的功能，也可能有"定期清理内存让电脑更快"的习惯。这些操作真的有用吗？

手机的"内存清理"

Android 手机的"一键清理"，通常是把后台运行的 APP 全部杀掉，强制释放它们占用的 RAM。

但这其实往往是错误的操作：

Android（和 iOS）的内存管理系统非常聪明。当 APP 退到后台，系统会把它们保留在内存里，这样下次你切回这个 APP 时，它能瞬间恢复（不需要重新加载，因为数据还在内存里）。这是刻意为之的设计，不是"内存泄漏"。

当内存不足时，系统会自动把长时间不用的 APP 从内存里清除，给新 APP 腾出空间。

你手动清理内存，其实是：

强制把 APP 从内存里清除
下次打开那个 APP，需要重新从存储（闪存）加载到内存，启动时间更长
手机为了重新建立状态，反而消耗了更多的 CPU 和能量

结论：不要强迫症式地清理手机内存，系统会自动管理好的。 真正影响手机流畅度的，是存储空间不足（闪存快满了系统各种操作变慢）、系统版本过旧、后台恶意常驻进程等，不是"内存太满"。

电脑的"内存优化"

类似地，Windows 的内存管理也非常智能。它会把空闲内存用来缓存最近使用过的文件（操作系统页缓存），让第二次打开文件更快。你看到"可用内存只有2GB了"，不代表系统在告急——那些"已使用"的内存大部分是页缓存，随时可以腾出来给应用程序用。

第三方"内存优化"工具通常是把这些页缓存强制清空，让"可用内存"数字变大，但实际效果是让下次打开文件更慢，还增加了硬盘读写次数。这类工具几乎是有百害而无一利的。

真正有效的内存管理技巧：

关闭你真正不需要的后台程序（在任务管理器里看排名靠前的内存占用）
浏览器只保留你真正在用的标签页（Chrome 每个标签页可能用几十到几百 MB）
如果内存经常不够用，考虑升级内存条，不是装优化软件

专题：数据恢复的可能性与局限

删了重要文件怎么办？这是一个很现实的问题，值得专门说一说。

什么情况下数据可以恢复？

机械硬盘（HDD）：

删除文件后，只要没有大量写入新数据覆盖那个区域，数据通常可以用软件恢复（如 Recuva、R-Studio、DiskGenius 的恢复功能）。时间越短、后续写入越少，恢复成功率越高。

如果是快速格式化（Format），文件系统被清空了，但数据还在，专业软件通常能恢复大部分内容。

完整格式化（Full Format）会对整个分区进行写入验证，真正覆盖了数据，恢复难度极大。

固态硬盘（SSD）：

SSD 的 TRIM 机制会告诉固件哪些块可以被擦除，SSD 在空闲时会预先擦除这些块（叫做 Garbage Collection）。一旦 TRIM 执行完成，数据真正消失，即使专业数据恢复公司也基本无力回天。

TRIM 何时执行取决于固件和操作系统，有时是实时的，有时有延迟。所以 SSD 上删除文件后，有可能在短时间内（几分钟到几小时）还能恢复，但成功率远低于机械硬盘，且难以预测。

实用建议：

如果刚刚误删了重要文件，立刻停止对该硬盘的任何写入操作（包括不要继续用那台电脑）
用另一台电脑下载数据恢复软件，或者把硬盘接到另一台电脑上
尽快扫描和恢复，等待越久成功率越低
付费的专业数据恢复服务（如 DriveSavers）可以在物理损坏情况下恢复数据，但费用很高（可能几千到几万元）

如何真正销毁数据？

如果你要出售或捐赠旧电脑，仅仅格式化是不够的：

机械硬盘： 使用覆写工具（如 Eraser、DBAN）对整个磁盘进行多次随机数据覆写。美国国防部标准（DoD 5220.22-M）要求7次覆写，一般用户做3次就足够了。

固态硬盘： SSD 厂商提供的"安全擦除（Secure Erase）"命令最有效，它通过底层固件对所有块进行加密并丢弃密钥（类似于加密擦除），速度很快且彻底。在 Windows 中可以用 Samsung Magician（三星SSD）、Kingston SSD Manager 等厂商工具执行，或者在 Linux 中用 hdparm 或 nvme-cli 命令。

最彻底的方案： 物理销毁——用锤子砸碎（适合机械硬盘），或者送专业销毁机构（有机密数据的企业选择）。

主题

字号

第一章补充：术语速查与常见问题

第一章额外补充

附录：本章关键术语速查

存储相关术语

内存相关术语

缓存相关术语

附录：常见问题解答

动手项目——建立你自己的存储性能档案

第一步：记录你的存储配置

第二步：测试你的硬盘速度

第三步：测试内存速度

第四步：感受缓存效应

深度拓展：存储技术的演进历史

从打孔卡到NVMe：人类如何存储信息

AI时代的新型存储技术

存储的未来：几个值得关注的方向

专题讨论：为什么 AI 时代的内存需求爆炸了？

大语言模型（LLM）到底有多"重"？

本地运行大模型需要什么配置？

为什么推理时内存带宽比计算能力更重要？

专题：当你"清理内存"时，真正发生了什么？

手机的"内存清理"

电脑的"内存优化"

专题：数据恢复的可能性与局限

什么情况下数据可以恢复？

如何真正销毁数据？