第一章数据库基础概念与系统架构

1. 存储体系与磁盘 I/O 基础

数据库之所以被发明出来，从根本上说是为了解决计算机内存容量有限与人类需要持久化保存的数据量日益增长之间的矛盾。在现代信息系统中，几乎所有的业务应用都需要对数据进行可靠的存储和高效的检索。为了达成这一目标，我们必须首先理解计算机存储体系的层次结构以及数据在各层级之间的流转方式，因为这些硬件基础直接决定了数据库在索引设计、缓冲管理、并发控制和故障恢复等方面的架构选择。

初学数据库时，很多读者会把数据库简单理解为“一个装数据的软件”。这种理解只抓住了结果，没有抓住本质。更准确地说，数据库首先是一种把现实世界中的对象、关系、规则和变化组织成可计算结构的方法，其次才是一套软件与硬件协同工作的系统。正因为它既面对真实业务，又依赖底层存储，所以学习数据库必须同时建立两种视角：一种是抽象视角，关注现实对象如何转化为实体、属性和联系；另一种是工程视角，关注数据页如何读写、缓存如何命中、故障如何恢复。若只看到表和语句，后续很多章节会变成机械记忆；若从一开始就把数据库放回“现实问题如何被计算机稳定表达”这一背景中理解，后续内容就会更连贯。

1.1 存储介质的层次结构

现代计算机系统采用分级存储体系结构。这种设计的核心思想是利用不同特性的存储介质组成一个层次分明的体系，在速度、容量和成本之间取得最佳平衡。自上而下，各层级的特征如下：

CPU 寄存器 (Registers)：位于处理器内部，速度最快，访问时间在纳秒级别以下，但容量极小，通常只有几十到几百字节。寄存器用于保存 CPU 当前正在执行的指令和运算中直接使用的数据。对于数据库应用层而言，寄存器的使用是完全透明的，程序员无法也不需要直接管理寄存器中的内容。
高速缓存 (Cache)：分为 L1、L2、L3 三级，位于 CPU 内部或紧邻 CPU 的位置。缓存利用了计算机科学中的局部性原理来加速数据访问。时间局部性是指刚被访问过的数据在短时间内很可能再次被访问；空间局部性是指与当前访问数据地址相邻的数据在短时间内也很可能被访问。L1 缓存容量最小但速度最快，通常只有几十 KB；L3 缓存容量可达数十 MB，但速度相对较慢。尽管数据库软件本身不能直接控制缓存的内容，但高质量的数据库引擎代码会通过合理的数据布局和访问模式来提高缓存命中率。
主存储器 (Main Memory / RAM)：即通常所说的内存，容量在 GB 到 TB 级别，访问时间约为几十纳秒。内存是数据库运行的核心战场。数据库管理系统的缓冲池 (Buffer Pool) 驻留在内存中。所有需要读取或修改的数据页都必须先从磁盘加载到缓冲池中才能被处理。内存属于易失性存储器，即一旦断电，其中的数据将全部丢失。数据库事务的持久性机制正是为了应对这一特性而设计的。缓冲池的大小直接影响数据库的性能。如果缓冲池足够大，大部分数据页可以常驻内存，从而大幅减少对磁盘的访问次数。
固态硬盘 (SSD / Flash Memory)：基于闪存技术，没有机械运动部件。SSD 的随机读写性能远优于传统机械硬盘，读取延迟通常在微秒级别。这使得 SSD 成为当前在线事务处理系统 (OLTP) 的主流存储介质。SSD 属于非易失性存储器，数据在断电后不会丢失。其使用寿命受到写入次数的限制（存在写入放大问题），但在现代企业级 SSD 产品中这一问题已经得到了较好的工程解决。
机械硬盘 (HDD / Magnetic Disks)：依靠磁头臂在高速旋转的磁盘盘片上进行数据读写。HDD 的主要性能瓶颈在于寻道时间和旋转延迟。寻道时间是指磁头从当前位置移动到目标磁道所需的时间；旋转延迟是指目标扇区旋转到磁头下方所需的时间。这两个因素导致 HDD 的随机读写性能远低于顺序读写性能。然而，HDD 凭借极低的每 GB 存储成本，在数据仓库、日志归档和冷备份等对容量需求大但对访问速度要求不高的场景中仍然广泛使用。
磁带和光盘：容量大、成本极低，但只能进行顺序存取。主要用于企业级的离线归档存储，例如银行保存多年前的历史交易记录，或者作为灾难恢复方案中的最后一道防线。在实际数据库运行中基本不直接参与。

1.2 数据库的 I/O 模型与块存取机制

理解了存储层次结构之后，一个关键的问题随之而来：数据库与磁盘之间的数据交换是如何进行的？

在关系型数据库中，数据的读写并非以行为单位进行，而是以一个固定大小的数据页 (Page) 或数据块 (Block) 作为最小传输单元。不同的数据库系统默认的页大小有所不同，例如 MySQL InnoDB 引擎的默认页大小为 16KB，Oracle 默认为 8KB，PostgreSQL 默认为 8KB。

即便应用程序只需要查询表中的一条记录，DBMS 的存储引擎也会将该记录所在的整个数据页一并从磁盘加载到内存缓冲池中。这种以页为单位的读写方式称为块存取机制。

为什么要采用这种看似浪费的方式？原因主要有两个：第一，对于机械硬盘而言，一次 I/O 操作的主要开销在于寻道和旋转等待，一旦磁头到达了目标位置，顺序读取连续的若干 KB 数据的边际成本非常低；第二，根据空间局部性原理，与被请求的记录物理相邻的记录（即同一页中的其他行）在后续操作中被访问的概率较高，提前加载可以有效减少后续的磁盘 I/O 次数。

在此基础上，缓冲管理器 (Buffer Manager) 在内存中维护一个缓冲池，用于缓存最近使用过的数据页。当某个数据页被请求时，缓冲管理器首先检查该页是否已经在缓冲池中。如果在（称为缓冲命中），则直接返回内存中的数据；如果不在（称为缓冲未命中），则需要从磁盘读取该页，并可能需要通过页面置换算法（如 LRU，即最近最少使用算法）淘汰缓冲池中某个不再活跃的页以腾出空间。

理解了以数据页为核心的 I/O 模型后，后续学习 B 加树索引为何能有效减少磁盘 I/O、Hash 索引为何不支持范围查询、以及聚簇索引的设计原理时，就会自然得多。

2. 数据管理技术的历史演进

人类对数据的管理方式经历了从原始到成熟的渐进过程。了解这段历史有助于深入理解数据库系统各项核心特性的设计动机。

2.1 人工管理阶段（20 世纪 50 年代中叶以前）

在计算机发展的早期阶段，计算机主要用于科学计算和军事用途。这一时期的硬件环境十分有限，外部存储设备只有纸带和卡片等，尚不具备磁盘等大容量的直接存取存储设备。软件方面，既没有操作系统，也没有专门用于管理数据的系统性软件。

这一阶段的数据管理方式具有以下特点：

第一，数据不能长期保存。程序运行结束后，其所使用的数据就随之消失，无法供其他程序或后续使用。第二，没有专门的软件来管理数据，程序员必须在代码中自行规划数据的物理存储位置和读取方式。第三，数据完全面向特定的应用程序，不同应用之间无法共享数据。如果两个实验项目需要用到相同的数据集，只能各自准备一份拷贝。第四，数据与程序高度耦合。数据的存储格式一旦发生变化（例如在记录中增加一个字段），所有依赖该数据格式的程序都必须进行相应的修改。

2.2 文件系统阶段（20 世纪 50 年代末至 60 年代中）

随着磁鼓和磁盘等直接存取存储设备的出现以及操作系统的发展，数据可以以文件的形式长期保存在计算机的外部存储器中。文件系统为应用程序提供了统一的打开 (Open)、关闭 (Close)、读取 (Read) 和写入 (Write) 等操作接口，程序员不再需要关心数据在磁盘上的物理位置。

这一阶段相比人工管理有了显著进步。数据可以长期保存并反复使用。程序与数据之间有了一定程度的独立性，因为文件系统屏蔽了部分底层细节。

然而，文件系统阶段仍然存在三个突出的问题：

第一，数据冗余度高、共享性差。不同部门或应用程序各自维护自己的数据文件，相同的信息可能被重复存储多次。例如，人事部门和财务部门可能各自保存一份员工基本信息的文件。这种重复存储不仅浪费存储空间，更严重的问题在于它为数据不一致性埋下了隐患。

第二，数据不一致性。由于同一数据存在多份拷贝，当其中一份被更新而其他拷贝未被同步更新时，就会出现数据前后矛盾的情况。例如，员工更改了住址后，如果只在人事文件中做了修改而忘记同步到财务文件，就会导致工资单寄送出错。

第三，数据独立性仍然不够。虽然文件系统隐藏了部分物理存储细节，但如果文件的记录格式发生变化（例如在每条记录中增加一个字段），依赖该文件的应用程序仍然需要修改其数据读取和解析逻辑。

2.3 数据库系统阶段（20 世纪 60 年代末至今）

进入 20 世纪 60 年代后期，随着应用规模的不断扩大，多个部门和应用需要共享和交叉使用大量相互关联的数据。文件系统的局限性在这种大规模数据共享需求面前变得越来越难以接受。在此背景下，数据库管理系统 (DBMS) 应运而生，标志着数据管理技术进入了数据库系统的新阶段。

与文件系统相比，数据库系统具有以下根本性的改进：

第一，数据实现了整体结构化。这是数据库系统与文件系统最本质的区别。在文件系统中，数据的组织仅限于文件内部的记录结构，文件与文件之间没有内在的联系。而在数据库中，数据不仅在单个表内部有严格的列定义和类型约束，表与表之间还通过外键等引用完整性机制建立了明确的逻辑关联。整个数据库作为一个统一的整体来进行组织、描述和管理。

第二，数据的共享度高、冗余度低。数据库系统的所有应用程序都通过 DBMS 这个统一的入口来访问同一份数据，从根本上减少了数据的重复存储。同时，由于数据集中管理，当数据发生变更时只需修改一处，消除了由冗余拷贝引起的数据不一致风险。

第三，数据独立性高。通过三级模式与两级映像的体系结构，数据的逻辑结构与应用程序之间、数据的物理存储结构与逻辑结构之间都实现了高度的解耦。当数据的逻辑或物理组织方式发生变化时，应用程序可以不做修改或只做少量修改。

第四，数据由 DBMS 进行统一管理和控制。DBMS 提供了数据的安全性保护（防止非授权用户访问）、完整性检查（保证数据满足语义约束条件）、并发控制（协调多个用户同时访问数据时的冲突）以及故障恢复（在系统崩溃后将数据恢复到一致状态）等功能。应用程序开发人员不必自行实现这些复杂且极易出错的功能。

从认识论角度看，数据库系统阶段真正完成的跨越，并不只是“文件更多了”或者“接口更方便了”，而是把原本分散在程序中的数据定义、约束规则和访问控制集中收回到系统层统一管理。文件系统时期，程序员往往既负责业务逻辑，又负责数据格式和存取路径；数据库系统出现后，数据开始被当作一种相对独立、可共享、可治理的资源来组织。也正因为有了这种统一管理，数据才不再只是程序的附属物，而成为多个应用、多个部门、多个角色共同依赖的基础设施。

第一章数据库基础概念与系统架构

1. 存储体系与磁盘 I/O 基础

1.1 存储介质的层次结构

1.2 数据库的 I/O 模型与块存取机制

2. 数据管理技术的历史演进

2.1 人工管理阶段（20 世纪 50 年代中叶以前）

2.2 文件系统阶段（20 世纪 50 年代末至 60 年代中）

2.3 数据库系统阶段（20 世纪 60 年代末至今）

3. 数据库系统的基本概念

3.1 核心术语辨析

3.2 数据库管理员 (DBA) 的职责

4. 三级模式与两级映像

4.1 三级模式

4.2 两级映像与数据独立性

5. 数据模型

5.1 层次模型

5.2 网状模型

5.3 关系模型

5.4 其他数据模型简介

6. DBMS 的内部组成与数据字典

6.1 DBMS 的主要功能模块

6.2 数据字典 (Data Dictionary)

第一章 数据库基础概念与系统架构 ​

1. 存储体系与磁盘 I/O 基础 ​

1.1 存储介质的层次结构 ​

1.2 数据库的 I/O 模型与块存取机制 ​

2. 数据管理技术的历史演进 ​

2.1 人工管理阶段（20 世纪 50 年代中叶以前） ​

2.2 文件系统阶段（20 世纪 50 年代末至 60 年代中） ​

2.3 数据库系统阶段（20 世纪 60 年代末至今） ​

3. 数据库系统的基本概念 ​

3.1 核心术语辨析 ​

3.2 数据库管理员 (DBA) 的职责 ​

4. 三级模式与两级映像 ​

4.1 三级模式 ​

4.2 两级映像与数据独立性 ​

5. 数据模型 ​

5.1 层次模型 ​

5.2 网状模型 ​

5.3 关系模型 ​

5.4 其他数据模型简介 ​

6. DBMS 的内部组成与数据字典 ​

6.1 DBMS 的主要功能模块 ​

6.2 数据字典 (Data Dictionary) ​

第一章数据库基础概念与系统架构

1. 存储体系与磁盘 I/O 基础

1.1 存储介质的层次结构

1.2 数据库的 I/O 模型与块存取机制

2. 数据管理技术的历史演进

2.1 人工管理阶段（20 世纪 50 年代中叶以前）

2.2 文件系统阶段（20 世纪 50 年代末至 60 年代中）

2.3 数据库系统阶段（20 世纪 60 年代末至今）

3. 数据库系统的基本概念

3.1 核心术语辨析

3.2 数据库管理员 (DBA) 的职责

4. 三级模式与两级映像

4.1 三级模式

4.2 两级映像与数据独立性

5. 数据模型

5.1 层次模型

5.2 网状模型

5.3 关系模型

5.4 其他数据模型简介

6. DBMS 的内部组成与数据字典

6.1 DBMS 的主要功能模块

6.2 数据字典 (Data Dictionary)