王珊、萨师煊《数据库系统概论》考研考点讲义.pdf

文件大小： 12.14MB
文件类型： pdf
上传日期： 2025-08-25
下载次数： 0
概要信息：

目　录
第一章　绪论 （１）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第二章　关系数据库 （２０）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第三章　关系数据库标准语言ＳＱＬ （３６）
!!!!!!!!!!!!!!!!!!!!!!!!!
第四章　数据库安全性 （６０）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第五章　数据库完整性 （７０）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第六章　关系数据理论 （７８）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第七章　数据库设计 （９８）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第九章　关系查询处理和查询优化 （１２２）
!!!!!!!!!!!!!!!!!!!!!!!!!
第十章　数据库恢复技术 （１３１）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第十一章　并发控制 （１４１）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第十二章　现代数据库 （１５５）
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
第一章　绪论
第１讲　 数据库系统概述
第一部分　知识点回顾
１．１　数据库系统概述
１．１．１　 四个基本概念
·数据（Ｄａｔａ）
·数据库（Ｄａｔａｂａｓｅ）
·数据库管理系统（ＤＢＭＳ）
·数据库系统（ＤＢＳ）
１、数据
数据（Ｄａｔａ）是数据库中存储的基本对象
数据的定义：描述事物的符号记录
数据的种类：文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等
数据的特点：数据的含义称为数据的语义，数据与其语义是不可分的
２、数据库
数据库的定义：数据库（Ｄａｔａｂａｓｅ，简称ＤＢ）是长期储存在计算机内、有组织的、可共享的大量数据
的集合。
数据库的基本特征：
·数据按一定的数据模型组织、描述和储存
·可为各种用户共享
·冗余度较小
·数据独立性较高
·易扩展
３、数据库管理系统
ＤＢＭＳ：位于用户与操作系统之间的一层数据管理软件；是基础软件，是一个大型复杂的软件系统
ＤＢＭＳ的用途：科学地组织和存储数据、高效地获取和维护数据
ＤＢＭＳ的主要功能：
·数据定义功能
—１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　提供数据定义语言（ＤＤＬ）
　定义数据库中的数据对象
·数据组织、存储和管理
　分类组织、存储和管理各种数据
　确定组织数据的文件结构和存取方式
　实现数据之间的联系
　提供多种存取方法提高存取效率
·数据操纵功能
　提供数据操纵语言（ＤＭＬ）
　实现对数据库的基本操作（查询、插入、删除和修改）
·数据库的事务管理和运行管理
　数据库在建立、运行和维护时由 ＤＢＭＳ统一管理和控制保证数据的安全性、完整性、多用户对
数据的并发使用发生故障后的系统恢复
·数据库的建立和维护功能（实用程序）
　数据库初始数据装载转换
　数据库转储
　介质故障恢复
　数据库的重组织
　性能监视分析等
·其它功能
　ＤＢＭＳ与网络中其它软件系统的通信
　两个ＤＢＭＳ系统的数据转换
　异构数据库之间的互访和互操作
１．１．２　 数据管理技术的产生和发展
数据管理：
·对数据进行分类、组织、编码、存储、检索和维护
·数据处理的中心问题
数据管理技术的发展过程：
·人工管理阶段（２０世纪４０年代中———５０年代中）
·文件系统阶段（２０世纪５０年代末———６０年代中）
·数据库系统阶段（２０世纪６０年代末———现在）
１、人工管理阶段
特点：
·数据的管理者：用户（程序员），数据不保存
·数据面向的对象：某一应用程序　
—２—
·数据的共享程度：无共享、冗余度极大
·数据的独立性：不独立，完全依赖于程序
·数据的结构化：无结构
·数据控制能力：应用程序自己控制
人工管理阶段应用程序与数据的对应关系
２、文件系统阶段
特点：
·数据的管理者：文件系统，数据可长期保存
·数据面向的对象：某一应用程序　
·数据的共享程度：共享性差、冗余度大
·数据的结构化：记录内有结构，整体无结构
·数据的独立性：独立性差，数据的逻辑结构改变必须修改应用程序
·数据控制能力：应用程序自己控制
文件系统阶段应用程序与数据的对应关系
文件系统中数据的结构
·记录内有结构。
·数据的结构是靠程序定义和解释的。
·数据只能是定长的。
　可以间接实现数据变长要求，但访问相应数据的应用程序复杂了。
·文件间是独立的，因此数据整体无结构。
　可以间接实现数据整体的有结构，但必须在应用程序中对描述数据间的联系。
·数据的最小存取单位是记录。
３、数据库系统阶段
时期：
—３—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·２０世纪６０年代末以来
产生的背景：
·应用背景———大规模管理
·硬件背景———大容量磁盘、磁盘阵列
·软件背景———有数据库管理系统
·处理方式———联机实时处理，分布处理，批处理
１．１．３　数据库系统的特点
·数据结构化：
　整体结构化
·数据的共享性高，冗余度低，易扩充：
　从整体角度看待和描述数据，数据面向整个系统，可以被多个用户、多个应用共享使用。
·数据独立性高：
　物理独立性：当数据的物理存储改变了，应用程序不用改变。
　逻辑独立性：数据的逻辑结构改变了，用户程序也可以不变。
·数据由ＤＢＭＳ统一管理和控制
　数据的安全性保护、完整性检查、并发控制、数据库恢复
数据库系统应用程序与数据的对应关系
第二部分　考点试题分析
一、选择题：
１．在数据管理技术的发展过程中，经历了人工管理阶段、文件系统阶段和数据库系统阶段。在这
几个阶段中，数据独立性最高的是　　 阶段。
Ａ．数据库系统　　　　Ｂ．文件系统　　　　Ｃ．人工管理　　　　　Ｄ．数据项管理
２．下面列出的数据库管理技术发展的三个阶段中，没有专门的软件对数据进行管理的是　　。
Ⅰ．人工管理阶段　　　　　 Ⅱ．文件系统阶段　　 　　　　 Ⅲ．数据库阶段
Ａ．Ⅰ和Ⅱ Ｂ．只有Ⅱ Ｃ．Ⅱ和Ⅲ Ｄ．只有Ⅰ
３．数据库的基本特点是　　 。
Ａ．（１）数据可以共享　　　　　　　　（２）数据独立性高
—４—
（３）数据冗余大，易移植　　　　　 （４）统一管理和控制
Ｂ．（１）数据可以共享　　　　　　　　（２）数据独立性高
（３）数据冗余小，易扩充　　　　　 （４）统一管理和控制
Ｃ．（１）数据可以共享　　　　　　　　（２）数据互换性
（３）数据冗余小，易扩充　　　　　 （４）统一管理和控制
Ｄ．（１）数据非结构化　　　　　　　　（２）数据独立性高
（３）数据冗余小，易扩充　　　　　 （４）统一管理和控制
４．　　 是存储在计算机内有结构的数据的集合。
Ａ．数据库系统 Ｂ．数据库
Ｃ．数据库管理系统 Ｄ．数据结构
５．数据库中存储的是　　　　。
Ａ．数据 Ｂ．数据模型　
Ｃ．数据以及数据之间的联系 Ｄ．信息　
６．数据库中，数据的物理独立性是指 　　　　。
Ａ．数据库与数据库管理系统的相互独立
Ｂ．用户程序与ＤＢＭＳ的相互独立
Ｃ．用户的应用程序与存储在磁盘上数据库中的数据是相互独立的
Ｄ．应用程序与数据库中数据的逻辑结构相互独立
７．数据库的特点之一是数据的共享，严格地讲，这里的数据共享是指　　　　。
Ａ．同一个应用中的多个程序共享一个数据集合　
Ｂ．多个用户、同一种语言共享数据
Ｃ．多个用户共享一个数据文件　
Ｄ．多种应用、多种语言、多个用户相互覆盖地使用数据集合
８．据库系统的核心是　　　　 。
Ａ．数据库 Ｂ．数据库管理系统
Ｃ．数据模型 Ｄ．软件工具
９．下述关于数据库系统的正确叙述是　　　　。
Ａ．数据库系统减少了数据冗余
Ｂ．数据库系统避免了一切冗余
Ｃ．数据库系统中数据的一致性是指数据类型一致
Ｄ．数据库系统比文件系统能管理更多的数据
１０．数据库系统的特点是　　　　 、数据独立、减少数据冗余、避免数据不一致和加强了数据保
护。
Ａ．数据共享 Ｂ．数据存储 Ｃ．数据应用 Ｄ．数据保密
１１．据库系统的最大特点是　　　　 。
Ａ．数据的三级抽象和二级独立性 Ｂ．数据共享性
—５—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
Ｃ．数据的结构化 Ｄ．数据独立性
１２．数据库管理系统能实现对数据库中数据的查询、插入、修改和删除等操作，这种功能称为
　　　　 。
Ａ．数据定义功能　 Ｂ．数据管理功能
Ｃ．数据操纵功能　 Ｄ．数据控制功能　
１３．数据库管理系统是　　　　。
Ａ．操作系统的一部分
Ｂ．在操作系统支持下的系统软件
Ｃ．一种编译程序
Ｄ．一种操作系统　
二、填空题
１．数据管理技术经历了　　　　　　、　　　　　和　　　　　　　　 三个阶段。
２．数据库是长期存储在计算机内、有　　　　　　的、可　　　　　　　的数据集合。
３．ＤＢＭＳ是指　　　　　　 ，它是位于　　　　　　和　　　　　　　　 之间的一层管理软
件。
４．数据库管理系统的主要功能有 　　　　　　　　　　　　、　　　　　　　　　　 、数据库
的运行管理和数据库的建立以及维护等４个方面。
５．数据独立性又可分为　　　　　　　　和 　　　　　　。　
６．当数据的物理存储改变了，应用程序不变，而由 ＤＢＭＳ处理这种改变，这是指数据的　　　　
　　　　　　　　　　 。
三、简答题
１．什么是数据库？
２．什么是数据库的数据独立性？
３．什么是数据字典？数据字典包含哪些基本内容？
第２讲　数据模型
第一部分　知识点回顾
数据模型
·在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。
·通俗地讲数据模型就是现实世界的模拟。
·数据模型应满足三方面要求
　能比较真实地模拟现实世界
　容易为人所理解
—６—
　便于在计算机上实现
１．２　数据模型
１．２．１　两大类数据模型
数据模型分为两类（分属两个不同的层次）
（１）概念模型，也称信息模型，它是按用户的观点来对数据和信息建模，用于数据库设计。
（２）逻辑模型和物理模型　
·逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型等，按计算机系统的观点对数
据建模，用于ＤＢＭＳ实现。
·物理模型是对数据最底层的抽象，描述数据在系统内部的表示方式和存取方法，在磁盘或磁带
上的存储方式和存取方法。
１．２．２　数据模型的组成要素
·数据结构 （描述数据库的组成对象，以及对象之间的联系）
·数据操作 （对数据库中各种对象（型）的实例（值）允许执行的操作及有关的操作规则）
·完整性约束条件（给定的数据模型中数据及其联系所具有的制约和储存规则，用以限定符合数
据模型的数据库状态以及状态的变化，以保证数据的正确、有效、相容。）
１．２．３　概念模型
·信息世界中的基本概念
·两个实体型之间的联系
·两个以上实体型之间的联系
·单个实体型内的联系
·概念模型的一种表示方法
·一个实例
１、信息世界中的基本概念
（１）实体（Ｅｎｔｉｔｙ）
客观存在并可相互区别的事物称为实体。
可以是具体的人、事、物或抽象的概念。
（２）属性（Ａｔｒｉｂｕｔｅ）
实体所具有的某一特性称为属性。
一个实体可以由若干个属性来刻画。　
（３）码（Ｋｅｙ）
唯一标识实体的属性集称为码。
（４）域（Ｄｏｍａｉｎ）
属性的取值范围称为该属性的域。
（５）实体型（ＥｎｔｉｔｙＴｙｐｅ）
—７—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
用实体名及其属性名集合来抽象和刻画同类实体称为实体型
（６）实体集（ＥｎｔｉｔｙＳｅｔ）
同一类型实体的集合称为实体集
（７）联系（Ｒｅｌａｔｉｏｎｓｈｉｐ）　
现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联
系。
实体内部的联系通常是指组成实体的各属性之间的联系
实体之间的联系通常是指不同实体集之间的联系
２、两个实体型之间的联系
用图形来表示两个实体型之间的这三类联系
３、两个以上实体型之间的联系
·两个以上实体型之间一对多联系
若实体集Ｅ１，Ｅ２，．．．，Ｅｎ存在联系，对于实体集Ｅｊ（ｊ＝１，２，．．．，ｉ－１，ｉ＋１，．．．，ｎ）中的给定实体，
最多只和Ｅｉ中的一个实体相联系，则我们说Ｅｉ与 Ｅ１，Ｅ２，．．．，Ｅｉ－１，Ｅｉ＋１，．．．，Ｅｎ之间的联系是一对多
的。
·实例
课程、教师与参考书三个实体型，一门课程可以有若干个教师讲授，使用若干本参考书，每一个教
师只讲授一门课程，每一本参考书只供一门课程使用
４、单个实体型内的联系
·一对多联系
—８—
实例
职工实体型内部具有领导与被领导的联系，某一职工（干部）“领导”若干名职工，一个职工仅被
另外一个职工直接领导，这是一对多的联系
５、概念模型的一种表示方法
·实体－联系方法（Ｅ－Ｒ方法）
　用Ｅ－Ｒ图来描述现实世界的概念模型
　Ｅ－Ｒ方法也称为Ｅ－Ｒ模型
一个实例
１．２．４　最常用的数据模型
·非关系模型
　层次模型（ＨｉｅｒａｒｃｈｉｃａｌＭｏｄｅｌ）
　网状模型（ＮｅｔｗｏｒｋＭｏｄｅｌ）
·关系模型（ＲｅｌａｔｉｏｎａｌＭｏｄｅｌ）
·面向对象模型（ＯｂｊｅｃｔＯｒｉｅｎｔｅｄＭｏｄｅｌ）
·对象关系模型（ＯｂｊｅｃｔＲｅｌａｔｉｏｎａｌＭｏｄｅｌ）
１．２．５　层次模型
１．２．６　网状模型
—９—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
１．２．７　关系模型
１、关系数据模型的数据结构
·在用户观点下，关系模型中数据的逻辑结构是一张二维表，它由行和列组成。
学生登记表
学　号 姓　名 年　龄 性　别 系　名 年　级
２００５００４ 王小明 １９ 女 社会学 ２００５
２００５００６ 黄大鹏 ２０ 男 商品学 ２００５
２００５００８ 张文斌 １８ 女 法律 ２００５
… … … … … …
·关系（Ｒｅｌａｔｉｏｎ）
　一个关系对应通常说的一张表
·元组（Ｔｕｐｌｅ）
　表中的一行即为一个元组
·属性（Ａｔｒｉｂｕｔｅ）
　表中的一列即为一个属性，给每一个属性起一个名称即属性名
·主码（Ｋｅｙ）
　表中的某个属性组，它可以唯一确定一个元组。
·域（Ｄｏｍａｉｎ）
　属性的取值范围。
·分量
　元组中的一个属性值。
·关系模式
　对关系的描述
　关系名（属性１，属性２，…，属性ｎ）
　学生（学号，姓名，年龄，性别，系，年级）
·关系必须是规范化的，满足一定的规范条件
　最基本的规范条件：关系的每一个分量必须是一个不可分的数据项，不允许表中还有表
　图１．２７中工资和扣除是可分的数据项 ，不符合关系模型要求
职工号 姓名 职 称
工 资 扣 除
基 本 津 贴 职务 房 租 水 电
实 发
８６０５１ 陈 平 讲 师 １３０５ １２００ ５０ １６０ １１２ ２２８３
　　 图１．２７一个工资表（表中有表）实例
表１．２　术语对比
关系术语 一般表格的术语
—０１—
关系名 表名
关系模式 表头（表格的描述）
关系 （一张）二维表
元组 记录或行
属性 列
属性名 列名
属性值 列值
分量 一条记录中的一个列值
非规范关系 表中有表（大表中嵌有小表）
２、关系数据模型的操纵与完整性约束
·数据操作是集合操作，操作对象和操作结果都是关系，即若干元组的集合
　查询
　插入
　删除
　更新
·关系的完整性约束条件
　实体完整性
　参照完整性
　用户定义的完整性
３、关系数据模型的存储结构
·实体及实体间的联系都用表来表示
·表以文件形式存储
　有的ＤＢＭＳ一个表对应一个操作系统文件
　有的ＤＢＭＳ自己设计文件结构
４、关系数据模型的优缺点
·优点
　建立在严格的数学概念的基础上
　概念单一
　实体和各类联系都用关系来表示
　对数据的检索结果也是关系
　关系模型的存取路径对用户透明
　具有更高的数据独立性，更好的安全保密性
—１１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　简化了程序员的工作和数据库开发建立的工作
·缺点
　存取路径对用户透明导致查询效率往往不如非关系数据模型
　为提高性能，必须对用户的查询请求进行优化，增加了开发ＤＢＭＳ的难度
第二部分　考点试题解析
一、选择题
１．信息世界中的术语，与之对应的数据库术语为　　　　。
Ａ．文件 Ｂ．数据库 Ｃ．字段 Ｄ．记录
２．层次型、网状型和关系型数据库划分原则是 　　　　 。
Ａ．记录长度　　　 Ｂ．文件的大小
Ｃ．联系的复杂程度 Ｄ．数据之间的联系
３．传统的数据模型分类，数据库系统可以分为三种类型　　　　。
Ａ．大型、中型和小型 Ｂ．西文、中文和兼容　
Ｃ．层次、网状和关系　 Ｄ．数据、图形和多媒体
４．层次模型不能直接表示　　　　　 。
Ａ．１：１关系　 Ｂ．１：ｍ关系
Ｃ．ｍ：ｎ关系 Ｄ．１：１和１：ｍ关系
５．数据库技术的奠基人之一Ｅ．Ｆ．Ｃｏｄｄ从１９７０年起发表过多篇论文，主要论述的是　　　　 。
Ａ．层次数据模型 Ｂ．网状数据模型　
Ｃ．关系数据模型 Ｄ．面向对象数据模型
６．在数据库中，产生数据不一致的根本原因是　　　　。
Ａ．数据存储量太大　 Ｂ．没有严格保护数据　
Ｃ．未对数据进行完整性控制 Ｄ．数据冗余　
７．数据库的概念模型独立于 　　　　 。
Ａ．具体的机器和ＤＢＭＳ Ｂ．Ｅ－Ｒ图
Ｃ．信息世界 Ｄ．现实世界
８．描述数据库全体数据的全局逻辑结构和特性的是　　　　　 。
Ａ．模式 Ｂ．内模式 Ｃ．外模式 Ｄ．用户模式
９．要保证数据库的数据独立性，需要修改的是　　　　 。
Ａ．模式与外模式 Ｂ．模式与内模式
Ｃ．三层之间的两种映射 Ｄ．三层模式
１０．用户或应用程序看到的那部分局部逻辑结构和特征的描述是　　　　，它是模式的逻辑子集。
Ａ．模式 Ｂ．物理模式 Ｃ．子模式 Ｄ．内模式
二、填空题
１．数据模型是由　　　　　　　、　　　　　　和 　　　　　　　　 三部分组成的。　　
—２１—
２．　　　　　　　　　　 是对数据系统的静态特性的描述，　　　　　　　　　是对数据库系
统的动态特性的描述。
３．数据库体系结构按照　　　　　　　 、　　　　　　　　　和　　　　　　　　　三级结构
进行组织。
４．实体之间的联系可抽象为三类，它们是　　　　　　 、　　　　　　　和　　　　　 。
５．数据冗余可能导致的问题有 　　　　　　　 和　　　　　　　。
三、简答题
１．使用数据库系统有什么好处？
２．试述文件系统与数据库系统的区别和联系。
３．试述数据库系统的特点。
４．试述数据模型的概念、数据模型的作用和数据模型的三个要素。
５．试述概念模型的作用。
６．试给出三个实际部门的Ｅ－Ｒ图，要求实体型之间具有一对一，一对多，多对多各种不同的联
系。
第３讲　 数据库系统结构及组成
第一部分　知识点回顾
·从数据库管理系统角度看，数据库系统通常采用三级模式结构，是数据库系统内部的系统结构
·从数据库最终用户角度看（数据库系统外部的体系结构），数据库系统的结构分为：
　单用户结构
　主从式结构
　分布式结构
　客户／服务器
　浏览器／应用服务器／数据库服务器多层结构等
１．３　数据库系统结构
１．３．１　 数据库系统模式的概念
·“型”和“值”的概念
　型（Ｔｙｐｅ）：对某一类数据的结构和属性的说明
　值（Ｖａｌｕｅ）：是型的一个具体赋值
例如：
学生记录型：（学号，姓名，性别，系别，年龄，籍贯）
一个记录值：（９００２０１，李明，男，计算机，２２，江苏）
·模式（Ｓｃｈｅｍａ）
—３１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　数据库逻辑结构和特征的描述
　是型的描述
　反映的是数据的结构及其联系
　模式是相对稳定的
·实例（Ｉｎｓｔａｎｃｅ）
　模式的一个具体值
　反映数据库某一时刻的状态
　同一个模式可以有很多实例
　实例随数据库中的数据的更新而变动
１．３．２　数据库系统的三级模式结构
图１．２８　数据库系统的三级模式结构
１、模式（Ｓｃｈｅｍａ）
·模式（也称逻辑模式）
　数据库中全体数据的逻辑结构和特征的描述
　所有用户的公共数据视图，综合了所有用户的需求
·一个数据库只有一个模式
·模式的地位：是数据库系统模式结构的中间层
　与数据的物理存储细节和硬件环境无关
　与具体的应用程序、开发工具及高级程序设计语言无关
·模式的定义
　数据的逻辑结构（数据项的名字、类型、取值范围等）
　数据之间的联系
　数据有关的安全性、完整性要求
—４１—
２、外模式（ＥｘｔｅｒｎａｌＳｃｈｅｍａ）
·外模式（也称子模式或用户模式）
　数据库用户（包括应用程序员和最终用户）使用的局部数据的逻辑结构和特征的描述
　数据库用户的数据视图，是与某一应用有关的数据的逻辑表示
·外模式的地位：介于模式与应用之间
　模式与外模式的关系：一对多
　外模式通常是模式的子集
　一个数据库可以有多个外模式。反映了不同的用户的应用需求、看待数据的方式、对数据保密
的要求
　对模式中同一数据，在外模式中的结构、类型、长度、保密级别等都可以不同
·外模式与应用的关系：一对多
　同一外模式也可以为某一用户的多个应用系统所使用
　但一个应用程序只能使用一个外模式
·外模式的用途
　保证数据库安全性的一个有力措施
　每个用户只能看见和访问所对应的外模式中的数据
３、内模式（ＩｎｔｅｒｎａｌＳｃｈｅｍａ）
·内模式（也称存储模式）
　是数据物理结构和存储方式的描述
　是数据在数据库内部的表示方式
　记录的存储方式（顺序存储，按照Ｂ树结构存储，按ｈａｓｈ方法存储）
　索引的组织方式
　数据是否压缩存储
　数据是否加密
　数据存储记录结构的规定
·一个数据库只有一个内模式
例如：学生记录，如果按堆存储，则插入一条新记录总是放在学生记录存储的最后，如下图所
示：
·如果按学号升序存储，则插入一条记录就要找到它应在的位置插入。如图（ｂ）所示
·如果按照学生年龄聚簇存放，假如新插入的Ｓ３是１６岁，则应插入的位置。如图（ｃ）所示
—５１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
１．３．３　 数据库的二级映像功能与数据独立性
·三级模式是对数据的三个抽象级别
·二级映象在ＤＢＭＳ内部实现这三个抽象层次的联系和转换
　外模式／模式映像
　模式／内模式映像
１、外模式／模式映象
·模式：描述的是数据的全局逻辑结构
·外模式：描述的是数据的局部逻辑结构
·同一个模式可以有任意多个外模式
·每一个外模式，数据库系统都有一个外模式／模式映象，定义外模式与模式之间的对应关系
·映象定义通常包含在各自外模式的描述中
保证数据的逻辑独立性
·当模式改变时，数据库管理员修改有关的外模式／模式映象，使外模式保持不变
·应用程序是依据数据的外模式编写的，从而应用程序不必修改，保证了数据与程序的逻辑独立
性，简称数据的逻辑独立性。
２、模式／内模式映像
·模式／内模式映象定义了数据全局逻辑结构与存储结构之间的对应关系。
　例如，说明逻辑记录和字段在内部是如何表示的
·数据库中模式／内模式映象是唯一的
·该映象定义通常包含在模式描述中
保证数据的物理独立性
—６１—
·当数据库的存储结构改变了（例如选用了另一种存储结构），数据库管理员修改模式／内模式映
象，使模式保持不变
·应用程序不受影响。保证了数据与程序的物理独立性，简称数据的物理独立性。
图１．２８　数据库系统的三级模式结构
１．４　数据库系统的组成
·数据库
·数据库管理系统（及其开发工具）
·应用系统
·数据库管理员
·硬件平台及数据库
·软件
·人员
１．４．１数据库管理员（ＤＢＡ）
具体职责：
（１）决定数据库中的信息内容和结构
（２）决定数据库的存储结构和存取策略
（３）定义数据的安全性要求和完整性约束条件
（４）监控数据库的使用和运行
·周期性转储数据库（数据文件，日志文件）
·系统故障恢复；介质故障 恢复
·监视审计文件
（５）数据库的改进和重组
·性能监控和调优
—７１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·定期对数据库进行重组织，以提高系统的性能
·需求增加和改变时，数据库须需要重构造
１．４．２系统分析员和数据库设计人员
·系统分析员
　负责应用系统的需求分析和规范说明
　与用户及ＤＢＡ协商，确定系统的硬软件配置
　参与数据库系统的概要设计
·数据库设计人员
　参加用户需求调查和系统分析
　确定数据库中的数据
　设计数据库各级模式
１．４．３应用程序员及用户
·应用程序员
　设计和编写应用系统的程序模块
　进行调试和安装
·用户
用户是指最终用户（ＥｎｄＵｓｅｒ）。最终用户通过应用系统的用户接口使用数据库。
（１）偶然用户：不经常访问数据库，但每次访问数据库时往往需要不同的数据库信息 ，例如企业
或组织机构的高中级管理人员；
（２）简单用户：主要工作是查询和更新数据库 ，例如银行的职员、机票预定人员、旅馆总台服务
员；
（３）复杂用户：直接使用数据库语言访问数据库，甚至能够基于数据库管理系统的 ＡＰＩ编制自己
的应用程序，例如工程师、科学家、经济学家、科技工作者等。
１．５　小结
·数据库系统概述
　数据库的基本概念
　数据管理的发展过程
·数据模型
　数据模型的三要素
　概念模型，Ｅ－Ｒ模型
　三种主要数据库模型
·数据库系统的结构
　数据库系统三级模式结构
　数据库系统两层映像系统结构
·数据库系统的组成
—８１—
第二部分　考点例题解析
一、选择题
１．下述　　　　不是ＤＢＡ数据库管理员的职责 。
Ａ．完整性约束说明 Ｂ．定义数据库模式
Ｃ．数据库安全 Ｄ．数据库管理系统设计
２．数据库（ＤＢ），数据库系统（ＤＢＳ）和数据库管理系统（ＤＢＭＳ）之间的关系是　　　　 。
Ａ．ＤＢＳ包括ＤＢ和ＤＢＭＳ Ｂ．ＤＢＭＳ包括ＤＢ和ＤＢＳ
Ｃ．ＤＢ包括ＤＢＳ和ＤＢＭＳ Ｄ．ＤＢＳ就是ＤＢ，也就是ＤＢＭＳ
３．ＤＢＳ是采用了数据库技术的计算机系统，它是一个集合体，包含数据库、计算机硬件、软件和
　　　　 。
Ａ．系统分析员 Ｂ．程序员
Ｃ．数据库管理员 Ｄ．操作员
４．数将数据库的结构划分成多个层次，是为了提高数据库的　①　和　②　。
①Ａ．数据独立性 Ｂ．逻辑独立性
Ｃ．管理规范性　 Ｄ．数据的共享
②Ａ．数据独立性　　 Ｂ．物理独立性
Ｃ．逻辑独立性 Ｄ．管理规范性
５．数据库的三级模式结构中，描述数据库中全体数据的全局逻辑结构和特征的是　　　　。
Ａ．外模式 Ｂ．内模式 Ｃ．存储模式 Ｄ．模式
６．数据库系统的数据独立性是指　　　　。
Ａ．不会因为数据的变化而影响应用程序
Ｂ．不会因为系统数据存储结构与数据逻辑结构的变化而影响应用程序
Ｃ．不会因为存储策略的变化而影响存储结构
Ｄ．不会因为某些存储结构的变化而影响其他的存储结构
二、填空题
１．数据库管理系统是数据库系统的一个重要组成部分，它的功能包括 ：　　　　 、　　　　、数
据组织存储和管理、数据库运行管理和事物管理、数据库的建立和维护功能。
２．数据库系统是指在计算机系统中引入数据库后的系统，一般由数据库、　　　　　　　　　、
　　　　　　　　　和数据库管理员构成。
３．　　　　　　 模型是目前最常用也是最重要的一种数据模型。采用该模型作为数据的组织方
式的数据库系统称为 　　　　　　　　　　　。
４．数据冗余可能导致的问题有　　　　　　　　　　　　和 　　　　　　　　　　　 。
三、简答题
１．数据库管理系统的主要功能有哪些？
２．什么是数据库管理系统？
—９１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
第二章　关系数据库
第１讲　关系模型三要素
第一部分　知识点回顾
２．１　关系数据结构及形式化定义
２．１．１　关系
（１）域：域是一组具有相同数据类型的值的集合。
（２）笛卡尔积：给定一组域Ｄ１，Ｄ２，…，Ｄｎ，这些域中可以有相同的。
Ｄ１，Ｄ２，…，Ｄｎ的笛卡尔积为：
Ｄ１×Ｄ２×… ×Ｄｎ ＝｛（ｄ１，ｄ２，…，ｄｎ）｜ｄｉ　Ｄｉ，ｉ＝１，２，…，ｎ｝
所有域的所有取值的一个组合
不能重复
元组（Ｔｕｐｌｅ）
·笛卡尔积中每一个元素（ｄ１，ｄ２，…，ｄｎ）叫作一个ｎ元组（ｎ－ｔｕｐｌｅ）或简称元组（Ｔｕｐｌｅ）
·（张清玫，计算机专业，李勇）、（张清玫，计算机专业，刘晨）等都是元组
分量（Ｃｏｍｐｏｎｅｎｔ）
·笛卡尔积元素（ｄ１，ｄ２，…，ｄｎ）中的每一个值 ｄｉ叫作一个分量
·张清玫、计算机专业、李勇等都是分量
基数（Ｃａｒｄｉｎａｌｎｕｍｂｅｒ）
·若Ｄｉ（ｉ＝１，２，…，ｎ）为有限集，其基数为ｍｉ（ｉ＝１，２，…，ｎ），则Ｄ１×Ｄ２×…×Ｄｎ的基数Ｍ为：
Ｍ ＝Π
ｎ
ｉ＝１
ｍｉ
笛卡尔积的表示方法
·笛卡尔积可表示为一个二维表
·表中的每行对应一个元组，表中的每列对应一个域
表２．１　Ｄ１，Ｄ２，Ｄ３的笛卡尔积
ＳＵＰＥ　ＲＶＩＳＯＲ ＳＰＥＣＩＡＬＩＴＹ ＰＯＳＴＧＲＡＤＵＡＴＥ
张清玫 计算机专业 李　勇
张清玫 计算机专业 刘　晨
张清玫 计算机专业 王　敏
—０２—
续表
ＳＵＰＥ　ＲＶＩＳＯＲ ＳＰＥＣＩＡＬＩＴＹ ＰＯＳＴＧＲＡＤＵＡＴＥ
张清玫 信息专业 李　勇
张清玫 信息专业 刘　晨
张清玫 信息专业 王　敏
刘　逸 计算机专业 李　男
刘　逸 计算机专业 刘　晨
刘　逸 计算机专业 王　敏
刘　逸 信息专业 李　男
刘　逸 信息专业 刘　晨
刘　逸 信息专业 王　敏
３．关系（Ｒｅｌａｔｉｏｎ）
１）关系
Ｄ１×Ｄ２×… ×Ｄｎ的子集叫作在域Ｄ１，Ｄ２，…，Ｄｎ上的关系，表示为：
Ｒ（Ｄ１，Ｄ２，…，Ｄｎ），
其中：　　　　
　　　Ｒ：关系名
　　　ｎ：关系的目或度（Ｄｅｇｒｅｅ）
２）元组
关系中的每个元素是关系中的元组，通常用 ｔ表示。
３）单元关系与二元关系
当ｎ＝１时，称该关系为单元关系，或一元关系
当ｎ＝２时，称该关系为二元关系
４）关系的表示
关系也是一个二维表，表的每行对应一个元组，表的每列对应一个域
５）属性
关系中不同列可以对应相同的域
为了加以区分，必须对每列起一个名字，称为属性
ｎ目关系必有ｎ个属性
６）码
·候选码（Ｃａｎｄｉｄａｔｅｋｅｙ）
　若关系中的某一属性组的值能唯一地标识一个元组，则称该属性组为候选码
·全码（Ａｌ－ｋｅｙ）
　最极端的情况：关系模式的所有属性组是这个关系模式的候选码，称为全码（Ａｌ－ｋｅｙ）
·主码
—１２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　若一个关系有多个候选码，则选定其中一个为主码（Ｐｒｉｍａｒｙｋｅｙ）
·主属性
　候选码的诸属性称为主属性（Ｐｒｉｍｅａｔｒｉｂｕｔｅ）
　不包含在任何侯选码中的属性称为非主属性，或非码属性
７）三类关系
·基本关系（基本表或基表）：实际存在的表，是实际存储数据的逻辑表示
·查询表：查询结果对应的表
·视图表：由基本表或其他视图表导出的表，是虚表，不对应实际存储的数据
８）基本关系的性质
① 列是同质的（Ｈｏｍｏｇｅｎｅｏｕｓ）
② 不同的列可出自同一个域
·其中的每一列称为一个属性
·不同的属性要给予不同的属性名
③ 列的顺序无所谓，，列的次序可以任意交换
④ 任意两个元组的候选码不能相同
⑤ 行的顺序无所谓，行的次序可以任意交换
⑥ 分量必须取原子值
　这是规范条件中最基本的一条
表２．３　非规范化关系
２．１．２　关系模式
１．什么是关系模式
·关系模式（ＲｅｌａｔｉｏｎＳｃｈｅｍａ）是型
·关系是值
·关系模式是对关系的描述
·元组集合的结构
　属性构成
　属性来自的域
　属性与域之间的映象关系
·元组语义以及完整性约束条件
·属性间的数据依赖关系集合
—２２—
考试点（ｗｗｗ．ｋａｏｓｈｉｄｉａｎ．ｃｏｍ）名师精品课程　电话：４００６８８５３６５
２．定义关系模式
关系模式可以形式化地表示为：
Ｒ（Ｕ，Ｄ，ＤＯＭ，Ｆ）
Ｒ：关系名
Ｕ：组成该关系的属性名集合
Ｄ：属性组Ｕ中属性所来自的域
ＤＯＭ：属性向域的映象集合
Ｆ：属性间的数据依赖关系集合
关系模式通常可以简记为
Ｒ（Ｕ）　或　Ｒ（Ａ１，Ａ２，…，Ａｎ）
Ｒ：关系名
Ａ１，Ａ２，…，Ａｎ：属性名
注：域名及属性向域的映象常常直接说明为属性的类型、长度
３．关系模式与关系
·关系模式
　对关系的描述
　静态的、稳定的
·关系
　关系模式在某一时刻的状态或内容
　动态的、随时间不断变化的
·关系模式和关系往往统称为关系
　通过上下文加以区别
２．１．３　关系数据库
１．关系数据库
·在一个给定的应用领域中，所有关系的集合构成一个关系数据库
２．关系数据库的型与值
·关系数据库的型：关系数据库模式
　对关系数据库的描述。
·关系数据库模式包括
　若干域的定义
　在这些域上定义的若干关系模式
·关系数据库的值：关系模式在某一时刻对应的关系的集合，简称为关系数据库
—３２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
２．２　关系操作
２．２．１　基本关系操作
·常用的关系操作
　查询：选择、投影、连接、除、并、交、差
　数据更新：插入、删除、修改
　查询的表达能力是其中最主要的部分
　选择、投影、并、差、笛卡尔基是５种基本操作
·关系操作的特点
　集合操作方式：操作的对象和结果都是集合，一次一集合的方式
２．２．２　关系数据库语言的分类
·关系代数语言
　用对关系的运算来表达查询要求
　代表：ＩＳＢＬ
·关系演算语言：用谓词来表达查询要求
　元组关系演算语言
　谓词变元的基本对象是元组变量
　代表：ＡＰＬＨＡ，ＱＵＥＬ
　域关系演算语言　　
　谓词变元的基本对象是域变量
　代表：ＱＢＥ
·具有关系代数和关系演算双重特点的语言
　代表：ＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）
２．３　关系的完整性
２．３．１　关系的三类完整性约束
·实体完整性和参照完整性：
　关系模型必须满足的完整性约束条件
　称为关系的两个不变性，应该由关系系统自动支持
·用户定义的完整性：
　应用领域需要遵循的约束条件，体现了具体领域中的语义约束
２．３．２　实体完整性
·规则２．１　实体完整性规则（ＥｎｔｉｔｙＩｎｔｅｇｒｉｔｙ）
若属性Ａ是基本关系Ｒ的主属性，则属性Ａ不能取空值
例：
ＳＡＰ（ＳＵＰＥＲＶＩＳＯＲ，ＳＰＥＣＩＡＬＩＴＹ，ＰＯＳＴＧＲＡＤＵＡＴＥ）
—４２—
考试点（ｗｗｗ．ｋａｏｓｈｉｄｉａｎ．ｃｏｍ）名师精品课程　电话：４００６８８５３６５
ＰＯＳＴＧＲＡＤＵＡＴＥ：
主码（假设研究生不会重名）
不能取空值
注意：
实体完整性规则规定基本关系的所有主属性都不能取空值，而不仅是主码整体不能取空值。
【例】
选修（学号，课程号，成绩）
“学号、课程号”为主码，则学号和课程号两个属性都不能取空值
２．３．３　参照完整性
１．关系间的引用
·在关系模型中实体及实体间的联系都是用关系来描述的，因此可能存在着关系与关系间的引
用。
例１：学生实体、专业实体
学生（学号，姓名，性别，专业号，年龄）
专业（专业号，专业名）
·学生关系引用了专业关系的主码“专业号”。
·学生关系中的“专业号”值必须是确实存在的专业的专业号 ，即专业 关系中有该专业的记录。
２．外码（ＦｏｒｅｉｇｎＫｅｙ）
·设Ｆ是基本关系Ｒ的一个或一组属性，但不是关系Ｒ的码。如果Ｆ与基本关系Ｓ的主码Ｋｓ相
对应，则称Ｆ是基本关系Ｒ的外码
·基本关系Ｒ称为参照关系（ＲｅｆｅｒｅｎｃｉｎｇＲｅｌａｔｉｏｎ）
·基本关系Ｓ称为被参照关系（ＲｅｆｅｒｅｎｃｅｄＲｅｌａｔｉｏｎ）或目标关系（ＴａｒｇｅｔＲｅｌａｔｉｏｎ）
【例】　学生关系的“专业号与专业关系的主码“专业号”相对应。
·“专业号”属性是学生关系的外码
·专业关系是被参照关系，学生关系为参照关系
学生关系
专业号
（ｎ→
）
专业关系
·关系 Ｒ和 Ｓ不一定是不同的关系
·目标关系 Ｓ的主码 Ｋｓ和参照关系的外码Ｆ必须定义在同一个（或一组）域上
·外码并不一定要与相应的主码同名
　当外码与相应的主码属于不同关系时，往往取相同的名字，以便于识别
３．参照完整性规则
·规则２．２参照完整性规则
若属性（或属性组）Ｆ是基本关系Ｒ的外码它与基本关系Ｓ的主码Ｋｓ相对应（基本关系Ｒ和Ｓ不
一定是不同的关系），则对于Ｒ中每个元组在Ｆ上的值必须为：
—５２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·或者取空值（Ｆ的每个属性值均为空值）
·或者等于Ｓ中某个元组的主码值
【例】　学生关系中每个元组的“专业号”属性只取两类值：
（１）空值，表示尚未给该学生分配专业；
（２）非空值，这时该值必须是专业关系中某个元组的“专业号”值，表示该学生不可能分配一 不
存在的专业。
２．３．４　 用户定义的完整性
·针对某一具体关系数据库的约束条件，反映某一具体应用所涉及的数据必须满足的语义要求。
·关系模型应提供定义和检验这类完整性的机制，以便用统一的系统的方法处理它们，而不要由
应用程序承担这一功能。
【例】　课程（课程号，课程名，学分）
·“课程号”属性必须取唯一值
·非主属性“课程名”也不能取空值
·“学分”属性只能取值｛１，２，３，４｝
第二部分　考点试题解析
一、选择题
１．关系模型中，一个关键字是　　　　。
Ａ．可由多个任意属性组成　　　　
Ｂ．至多由一个属性组成　
Ｃ．可由一个或多个其值能惟一标识该关系模式中任何元组的属性组成
Ｄ．以上都不是　　　　　
２．关系模式的任何属性　　　　 。
Ａ．不可再分 Ｂ．可再分　
Ｃ．命名在该关系模式中可以不惟一 Ｄ．以上都不是　　
３．下面的选项不是关系数据库基本特征的是　　　　。
Ａ．不同的列应有不同的数据类型
Ｂ．不同的列应有不同的列名
Ｃ．与行的次序无关 　　
Ｄ．与列的次序无关
４．一个关系只有一个　　　　。
Ａ．候选码 Ｂ．外码 Ｃ．超码 Ｄ．主码
５．关系ＤＢＳ中，对外部关键字（外码）没有任何限制的操作是　　　　 。
Ａ．插入 Ｂ．删除 Ｃ．修改
６．现有如下关系：
患者（患者编号，患者姓名，性别，出生日起，所在单位）
—６２—
医疗（患者编号，患者姓名，医生编号，医生姓名，诊断日期，诊断结果）
其中，医疗关系中的外码是　　　　。
Ａ．患者编号 Ｂ．患者姓名 　
Ｃ．患者编号和患者姓名 Ｄ．医生编号和患者编号
７．现有一个关系：借阅（书号，书名，库存数，读者号，借期，还期），假如同一本书允许一个读者多
次借阅，但不能同时对一种书借多本，则该关系模式的主码是　　　　 。
Ａ．书号 Ｂ．读者号 　　
Ｃ．书号＋读者号 Ｄ．书号＋读者号＋借期
８．关系模型中实现实体间 Ｎ：Ｍ联系是通过增加一个　　　　。
Ａ．关系实现　　 Ｂ．属性实现
Ｃ．关系或一个属性实现 Ｄ．关系和一个属性实现
二、填空题
１．一个关系模式的定义格式为　　　　　　　　　　　　 。
２．一个关系模式的定义主要包括　　　　　　 、　　　　　　、　　　　　　 、　　　　　　和
　　　　　　 。
３．关系数据库中基于数学上两类运算是　　　　　　　　和　　　　　　　 。
４．已知系（系编号，系名称，系主任，电话，地点）和学生（学号，姓名，性别，入学日期，专业，系编
号）两个关系，系关系的主关键字是　　　　　　　　，系关系的外关键字　　　　　　　　 ，学生
关系的主关键字是　　　　　　　 ，外关键字　　　　　　　　　 。　
三、简答题
１．试述关系模型的三个组成部分。
２．试述关系数据语言的特点和分类。
３．试述关系模型的完整性规则。在参照完整性中，为什么外部码属性的值也可以为空？什么情
况下才可以为空？
第２讲　关系代数及关系演算
第一部分　知识点回顾
２．４　关系代数
·概述（集合运算符，比较运算符，专门关系运算符，逻辑运算符）
·传统的集合运算
·专门的关系运算
２．４．１　关系代数运算符
·集合运算符：　∪，　∩ ，　 －，　×
—７２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·关系运算符：　＜，　＜ ＝，　＝，　＜ ＞，　＞，　＞ ＝
·专门关系运算符：　σ，　 ∏，　 ∞，　÷
·逻辑运算符：　Λ，　 Ｖ，　 ˉ
２．４．２　传统的集合运算
Ｒ∪Ｓ＝｛ｔ｜ｔ∈Ｒ∨ｔ∈Ｓ｝
Ｒ－Ｓ＝｛ｔ｜ｔ∈Ｒ∧ｔＳ｝
Ｒ∩Ｓ＝｛ｔ｜ｔ∈Ｒ∧ｔ∈Ｓ｝
Ｒ∩Ｓ＝Ｒ－（Ｒ－Ｓ）
Ｒ×Ｓ＝｛ｔｒｔ
)
ｓ｜ｔｒ∈Ｒ∧ｔｓ∈Ｓ｝
２．４．３　专门的关系运算
先引入几个记号
（１）Ｒ，ｔ∈Ｒ，ｔ［Ａｉ］
（２）Ａ，ｔ［Ａ］，Ａ
（３）ｔｒｔ
)
ｓ
（４）象集Ｚｘ ＝｛ｔ［Ｚ］｜ｔ∈Ｒ，ｔ［Ｘ］＝ｘ｝
专门关系运算符含义
１．σＦ（Ｒ）＝｛ｔ｜ｔ∈Ｒ∧Ｆ（ｔ）＝‘真’｝
Ｆ：选择条件，是一个逻辑表达式，基本形式为：Ｘ１θＹ１
２．πＡ（Ｒ）＝｛ｔＡ｜ｔ∈Ｒ｝
Ａ：Ｒ中的属性列
３．Ｒ
!
Ｒ，ＡθＳ，Ｂ
Ｓ＝｛ｔｒｔ
)
ｓ｜ｔｒ∈Ｒ∧ｔｓ∈Ｓ∧ｔｒ Ａθｔｓ Ｂ｝
【例１】关系Ｒ和关系Ｓ如下所示：
—８２—
一般连接Ｒ
Ｃ＜Ｅ
Ｓ的结果如下：
等值连接Ｒ 
Ｒ，Ｂ＝Ｓ，Ｂ
Ｓ的结果如下：
—９２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　　自然连接ＲＳ的结果如下：
·外连接
　如果把舍弃的元组也保存在结果关系中，而在其他属性上填空值（Ｎｕｌ），这种连接就叫做外连
接（ＯＵＴＥＲＪＯＩＮ）。
·左外连接
　如果只把左边关系Ｒ中要舍弃的元组保留就叫做左外连接（ＬＥＦＴＯＵＴＥＲＪＯＩＮ或ＬＥＦＴＪＯＩＮ）
·右外连接
　如果只把右边关系 Ｓ中要舍弃的元组保留就叫做右外连接（ＲＩＧＨＴＯＵＴＥＲＪＯＩＮ或 ＲＩＧＨＴ
ＪＯＩＮ）
下图是【例１】中关系Ｒ和关系Ｓ的外连接
图（ｂ）是【例１】中关系Ｒ和关系Ｓ的左外连接，图（ｃ）是右外连接
４．除（Ｄｉｖｉｓｉｏｎ）
给定关系Ｒ（Ｘ，Ｙ）和Ｓ（Ｙ，Ｚ），其中Ｘ，Ｙ，Ｚ为属性组。
Ｒ÷Ｓ＝｛ｔｒ Ｘ｜ｔｒ∈Ｒ∧πＹ（Ｓ）ＹＸ｝
—０３—
ＹＸ：Ｘ在Ｒ中的象集，Ｘ＝ｔｒ｜Ｘ｜
【例２】设关系Ｒ、Ｓ分别为下图的（ａ）和（ｂ），Ｒ÷Ｓ的结果为图（ｃ）
分析：
·在关系Ｒ中，Ａ可以取四个值｛ａ１，ａ２，ａ３，ａ４｝
　ａ１的象集为 ｛（ｂ１，ｃ２），（ｂ２，ｃ３），（ｂ２，ｃ１）｝
　ａ２的象集为 ｛（ｂ３，ｃ７），（ｂ２，ｃ３）｝
　ａ３的象集为 ｛（ｂ４，ｃ６）｝
　ａ４的象集为 ｛（ｂ６，ｃ６）｝
·Ｓ在（Ｂ，Ｃ）上的投影为｛（ｂ１，ｃ２），（ｂ２，ｃ１），（ｂ２，ｃ３）｝
·只有ａ１的象集包含了Ｓ在（Ｂ，Ｃ）属性组上的投影，所以Ｒ÷Ｓ＝｛ａ１｝
【例３】查询选修了全部课程的学生号码和姓名。
ΠＳｎｏ，Ｃｎｏ（ＳＣ）÷ΠＣｎｏ（Ｃｏｕｒｓｅ）ΠＳｎｏ，Ｓｎａｍｅ（Ｓｔｕｄｅｎｔ）
２．４．４　小结
·关系代数运算
　并、差、交、笛卡尔积、投影、选择、连接、除
·基本运算
　并、差、笛卡尔积、投影、选择
·交、连接、除
　可以用５种基本运算来表达
　引进它们并不增加语言的能力，但可以简化表达
·关系代数表达式
　关系代数运算经有限次复合后形成的式子
·典型关系代数语言
　ＩＳＢＬ（ＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍＢａｓｅＬａｎｇｕａｇｅ）
　·由ＩＢＭＵｎｉｔｅｄＫｉｎｇｄｏｍ研究中心研制
　·用于ＰＲＴＶ（ＰｅｔｅｒｌｅｅＲｅｌａｔｉｏｎａｌＴｅｓｔＶｅｈｉｃｌｅ）实验系统
—１３—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
２．５　关系演算
·关系演算
　以数理逻辑中的谓词演算为基础
·按谓词变元不同进行分类
１．元组关系演算：
　以元组变量作为谓词变元的基本对象
　元组关系演算语言ＡＬＰＨＡ
２．域关系演算：
　以域变量作为谓词变元的基本对象
　域关系演算语言ＱＢＥ
２．６　小结
·关系数据库系统是目前使用最广泛的数据库系统
·关系数据库系统与非关系数据库系统的区别：
·关系数据结构
·关系操作
·关系的完整性约束
·关系数据语言
第二部分　考点试题解析
一、选择题
１．自然连接是构成新关系的有效方法。一般情况下，当对关系Ｒ和Ｓ使用自然连接时，要求Ｒ和
Ｓ含有一个或多个共有的　　　　。
Ａ．元组 Ｂ．行 Ｃ．记录 Ｄ．属性
２．关系运算中花费时间可能最长的运算是　　　　。
Ａ．投影　 Ｂ．选择 Ｃ．笛卡尔积 Ｄ．除
３．在关系代数运算中，五种基本运算为　　　　 。
Ａ．并、差、选择、投影、自然连接
Ｂ．并、差、交、选择、投影
Ｃ．并、差、选择、投影、乘积
Ｄ．并、差、交、选择、乘积
４．设有关系Ｒ，按条件ｆ对关系Ｒ进行选择，正确的是　　　　。
Ａ．Ｒ×Ｒ Ｂ．Ｒ
Ｆ
Ｒ Ｃ．σＦ（Ｒ） Ｄ．πＦ（Ｒ）
５．如图所示，两个关系Ｒ１和Ｒ２，它们进行　　　　运算后得到Ｒ３。
—２３—
Ａ．交 Ｂ．并 Ｃ．笛卡尔积 Ｄ．连接
６．关系代数运算是以　　　　 为基础的运算 。
Ａ．关系运算 Ｂ．谓词演算
Ｃ．集合运算 Ｄ．代数运算
７．关系数据库管理系统应能实现的专门关系运算包括　　　　。
Ａ．排序、索引、统计 Ｂ．选择、投影、连接
Ｃ．关联、更新、排序 Ｄ．显示、打印、制表
８．关系代数表达式的优化策略中，首先要做的是　　　　。
Ａ．对文件进行预处理 Ｂ．尽早执行选择运算 　　
Ｃ．执行笛卡尔积运算 Ｄ．投影运算
９．关系数据库中的投影操作是指从关系中　　　　。
Ａ．抽出特定记录 Ｂ．抽出特定字段 　　
Ｃ．建立相应的影像 　 Ｄ．建立相应的图形
１０．从一个数据库文件中取出满足某个条件的所有记录形成一个新的数据库文件的操作是
　　　　操作 。
Ａ．投影 Ｂ．联接 Ｃ．选择 Ｄ．复制
１１．关系代数中的联接操作是由　　　　操作组合而成 。
Ａ．选择和投影 Ｂ．选择和笛卡尔积 　　
Ｃ．投影、选择、笛卡尔积 Ｄ．投影和笛卡尔积
１２．自然联接是构成新关系的有效方法。一般情况下，当对关系 Ｒ和 Ｓ是用自然联接时，要求 Ｒ
和Ｓ含有一个或者多个共有的　　　　 。
Ａ．记录 Ｂ．行 Ｃ．属性 Ｄ．元组
１３．假设有关系 Ｒ和 Ｓ，关系代数表达式 Ｒ－（Ｒ－Ｓ）表示的是　　　　。
Ａ．Ｒ∩Ｓ Ｂ．Ｒ∪Ｓ Ｃ．Ｒ－Ｓ Ｄ．Ｒ×Ｓ
１４．下面列出的关系代数表达式中，那些式子能够成立　　　　。
Ⅰ．σｆ１（σｆ２（Ｅ））＝σｆ１∧ｆ２（Ｅ）
Ⅱ．Ｅ１∞Ｅ２＝Ｅ２∞Ｅ１
Ⅲ．（Ｅ１∞Ｅ２）∞Ｅ３＝Ｅ１∞ （Ｅ２∞Ｅ３）
Ⅳ．σｆ１（σｆ２（Ｅ））＝σｆ２（σｆ１（Ｅ））
Ａ．全部 Ｂ．Ⅱ和Ⅲ Ｃ．没有 Ｄ．Ⅰ和Ⅳ
二、填空题
１．关系代数运算中，传统的集合运算有　　　　 、　　　　　 、　　　　和　　　　　　　 。
２．关系代数运算中，基本的运算是　　　　　 、　　　　　、　　　　　 、和　　　　　　 。
３．关系代数运算中，专门的关系运算有　　　　　　　 、　　　　　　 、　　　　　和
　　　　　。
—３３—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
若对于Ｒ（Ｕ）的任意一个可能的关系 ｒ，ｒ中不可能存在两个元组在 Ｘ上的属性值相等，而在 Ｙ
上的属性值不等，则称 “Ｘ函数确定Ｙ”或“Ｙ函数依赖于Ｘ”，记作Ｘ→Ｙ。
２、平凡函数依赖与非平凡函数依赖
在关系模式Ｒ（Ｕ）中，对于Ｕ的子集Ｘ和Ｙ，
如果Ｘ→Ｙ，但ＹＸ，则称Ｘ→Ｙ是 非平凡的函数依赖
若Ｘ→Ｙ，但ＹＸ，则称Ｘ→Ｙ是平凡的函数依赖
例：在关系ＳＣ（Ｓｎｏ，Ｃｎｏ，Ｇｒａｄｅ）中，
　　非平凡函数依赖：（Ｓｎｏ，Ｃｎｏ）→ Ｇｒａｄｅ
　　平凡函数依赖：（Ｓｎｏ，Ｃｎｏ）→ Ｓｎｏ
　　　　　　　　　 （Ｓｎｏ，Ｃｎｏ）→ Ｃｎｏ
·若Ｘ→Ｙ，则Ｘ称为这个函数依赖的决定属性组，也称为决定因素（Ｄｅｔｅｒｍｉｎａｎｔ）。
·若Ｘ→Ｙ，Ｙ→Ｘ，则记作Ｘ←→Ｙ。
·若Ｙ不函数依赖于Ｘ，则记作Ｘ→Ｙ。
３、完全函数依赖与部分函数依赖
定义６．２　在Ｒ（Ｕ）中，如果Ｘ→Ｙ，并且对于Ｘ的任何一个真子集Ｘ＇，都有Ｘ＇→／Ｙ，则称Ｙ对Ｘ完
全函数依赖，记作Ｘ →
Ｆ
Ｙ。
若Ｘ→Ｙ，但Ｙ不完全函数依赖于Ｘ，则称Ｙ对Ｘ部分函数依赖，记作Ｘ →
Ｐ
Ｙ。
例如 ：（Ｓｎｏ，Ｃｎｏ）→ ｇｒａｄｅ（完全函数依赖）
　　　（Ｓｎｏ，Ｃｎｏ）→ｓｄｅｐｔ（部分函数依赖）
４、传递函数依赖
定义６．３　在Ｒ（Ｕ）中，如果Ｘ→Ｙ，（ＹＸ），Ｙ→／ＸＹ→Ｚ，则称Ｚ对Ｘ传递函数依赖。
记为：Ｘ →
传递
Ｚ
注：如果Ｙ→Ｘ，即Ｘ←→Ｙ，则Ｚ直接依赖于Ｘ。
例：在关系Ｓｔｄ（Ｓｎｏ，Ｓｄｅｐｔ，Ｍｎａｍｅ）中，有：
　　　 Ｓｎｏ→ Ｓｄｅｐｔ，Ｓｄｅｐｔ→ Ｍｎａｍｅ
　　　 Ｍｎａｍｅ传递函数依赖于Ｓｎｏ
６．２．２　 码
定义６．４　设Ｋ为Ｒ＜Ｕ，Ｆ＞中的属性或属性组合。若 Ｋ →
Ｆ
Ｃ，则 Ｋ称为 Ｒ的侯选码（Ｃａｎｄｉ
ｄａｔｅＫｅｙ）。
若候选码多于一个，则选定其中的一个做为主码（ＰｒｉｍａｒｙＫｅｙ）。
·主属性与非主属性
　包含在任何一个候选码中的属性 ，称为主属性（Ｐｒｉｍｅａｔｒｉｂｕｔｅ）
　不包含在任何码中的属性称为非主属性（Ｎｏｎｐｒｉｍｅａｔｒｉｂｕｔｅ）或非码属性（Ｎｏｎ－ｋｅｙａｔｒｉｂｕｔｅ）
—０８—
·全码
　整个属性组是码，称为全码（Ａｌ－ｋｅｙ）
外部码
定义６．５　关系模式 Ｒ中属性或属性组Ｘ并非 Ｒ的码，但 Ｘ是另一个关系模式的码，则称 Ｘ是
Ｒ的外部码（Ｆｏｒｅｉｇｎｋｅｙ）也称外码。
·如在ＳＣ（Ｓｎｏ，Ｃｎｏ，Ｇｒａｄｅ）中，Ｓｎｏ不是码，但Ｓｎｏ是关系模式Ｓ（Ｓｎｏ，Ｓｄｅｐｔ，Ｓａｇｅ）的码，则Ｓｎｏ是
关系模式ＳＣ的外部码
·主码与外部码一起提供了表示关系间联系的手段
６．２．３　范式
·范式是符合某一种级别的关系模式的集合
·关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式
·范式的种类：
第一范式（１ＮＦ）
第二范式（２ＮＦ）
第三范式（３ＮＦ）
ＢＣ范式（ＢＣＮＦ）
第四范式（４ＮＦ）
第五范式（５ＮＦ









）
·各种范式之间存在联系：
　１ＮＦ２ＮＦ３ＮＦＢＣＮＦ４ＮＦ５ＮＦ
·某一关系模式Ｒ为第ｎ范式，可简记为Ｒ∈ｎＮＦ。
·一个低一级范式的关系模式，通过模式分解可以转换为若干个高一级范式的关系模式的集合，
这种过程就叫规范化。
６．２．４　２ＮＦ
·１ＮＦ的定义
　如果一个关系模式Ｒ的所有属性都是不可分的基本数据项，则Ｒ∈１ＮＦ。
　第一范式是对关系模式的最起码的要求。不满足第一范式的数据库模式不能称为关系数据库。
　但是满足第一范式的关系模式并不一定是一个好的关系模式。
·２ＮＦ的定义
定义６．６　 若Ｒ∈１ＮＦ，且每一个非主属性完全函数依赖于码，则Ｒ∈２ＮＦ。
例：Ｓ－Ｌ－Ｃ（Ｓｎｏ，Ｓｄｅｐｔ，Ｓｌｏｃ，Ｃｎｏ，Ｇｒａｄｅ）∈１ＮＦ
　　Ｓ－Ｌ－Ｃ（Ｓｎｏ，Ｓｄｅｐｔ，Ｓｌｏｃ，Ｃｎｏ，Ｇｒａｄｅ）∈２ＮＦ
　　ＳＣ（Ｓｎｏ，Ｃｎｏ，Ｇｒａｄｅ）∈ ２ＮＦ
　　Ｓ－Ｌ（Ｓｎｏ，Ｓｄｅｐｔ，Ｓｌｏｃ）∈ ２ＮＦ
６．２．５　３ＮＦ
·３ＮＦ的定义
—１８—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
定义６．７　　关系模式Ｒ＜Ｕ，Ｆ＞中若不存在这样的码Ｘ、属性组Ｙ及非主属性Ｚ（ＺＹ），使得
Ｘ→Ｙ，Ｙ→Ｚ成立，Ｙ／→Ｘ，则称Ｒ＜Ｕ，Ｆ＞∈ ３ＮＦ。
若Ｒ∈３ＮＦ，则每一个非主属性既不部分依赖于码也不传递依赖于码。
６．２．６　ＢＣ范式（ＢＣＮＦ）
定义６．８　 关系模式Ｒ＜Ｕ，Ｆ＞∈１ＮＦ，若Ｘ→Ｙ且ＹＸ时Ｘ必含有码，则Ｒ＜Ｕ，Ｆ＞∈ＢＣＮＦ。
等价于：每一个决定属性因素都包含码。
注：当Ｘ含有码时，Ｘ被称为超键。
·若Ｒ∈ＢＣＮＦ
　所有非主属性对每一个码都是完全函数依赖
　所有的主属性对每一个不包含它的码，也是完全函数依赖
　没有任何属性完全函数依赖于非码的任何一组属性
·如果Ｒ∈３ＮＦ，且Ｒ只有一个候选码
第二部分　考点试题分析
一、判断题【２００２重庆大学】
１．设有关系模式Ｒ（ＡＢＣＤＥＦ），Ｆ＝｛ＡＢ　 ＣＦ，Ｅ　 ＡＢ，Ｃ　 Ｄ，Ｄ　 ＢＦ｝，问ＡＢ是Ｒ的候选码吗？
２．采用Ｅ－Ｒ数据模型方法对某一应用数据库系统进行需求分析和建立数据模型时，建立的数据
模型与将来采用的何种数据管理软件（ＤＢＭＳ）有关吗？
３．设有关系模式Ｒ（ＡＢＣＤＥ），Ｆ＝｛Ｃ　ＤＥ｝，问Ｒ为３ＮＦ吗？　
４．问下述ＳＱＬ语句语法正确吗（其中ｔｅｍｐ和ｓｐ均为表格）？
　　ｉｎｓｅｒｔｉｎｔｏｔｅｍｐ（ｐｎｏ）ａｓｓｅｌｅｃｔｐｎｏｆｒｏｍｓｐ
５．一个关系的外键可由多个属性构成吗？
二、选择题
１．只有两个属性的关系，其最高范式必属于（　　 ）？【２００２重大】
Ａ．１ＮＦ Ｂ．２ＮＦ Ｃ．３ＮＦ Ｄ．４ＮＦ
２．关系数据模型是当前最常用的一种数据模型，它是用（①）结构来表示实体类型及实体之间的
联系的。关系数据库的数据操作语言（ＤＭＬ）主要包括（②）两类操作，关系模型的关系运算是以关系
代数为理论基础的，关系代数的基本操作是（③ ）。【２００４北师大】
—２８—
① Ａ．树 Ｂ．图 Ｃ．网络 Ｄ．二维表
②Ａ．删除和插入 Ｂ．查询和检索
Ｃ．统计和修改　 Ｄ．检索和更新
③Ａ．并、差、笛卡尔积、投影、联接
Ｂ．并、差、笛卡尔积、选择、联接
Ｃ．并、差、笛卡尔积、投影、选择
Ｄ．并、差、笛卡尔积、除法、投影
３．设Ｒ和Ｓ为两个关系，则Ｒ｜Ｘ｜Ｓ表示Ｒ与Ｓ的（①）。若Ｒ和Ｓ的关系分别图示如下：
则Ｒ与Ｓ自然联接的结果是：（② ）
供选择的答案：
① Ａ．笛卡尔积 Ｂ．联接 Ｃ．Ｑ联接 Ｄ．自然连接
②
　　
　　
３．设有一图书管理数据库，其关系模式是Ｒ０（Ｌ＃，Ｂ＃，ＢＮＡＭＥ，ＢＰＲＩＣＥ，ＢＰＵＢ），其属性分别表示
个人借书证号、书号、书名、书价、图书出版社，则该关系模式（①）。他的主要问题是数据冗余。若把
—３８—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
Ｒ０分解成两个关系模式Ｒ１（②）和Ｒ２（③），则可以部分的解决这一问题。Ｒ１和Ｒ２是规范化程度较
差的范式（④）。另一种分解方法可得到３个分解模式Ｒ３（Ｌ＃，Ｂ＃），Ｒ４（Ｂ＃，ＢＮＡＭＥ），Ｒ５（ＢＮＡＭＥ，
ＢＰＲＩＣＥ，ＢＰＵＢ），则Ｒ３，Ｒ４，Ｒ５都（⑤）。
供选择的答案：
①④⑤
Ａ．属于第一范式，但不是第二范式　
Ｂ．属于第二范式，但不是第三范式
Ｃ．属于第三范式　　　　　　　　　　　　　　　　
Ｄ．不是范式
Ｅ．属于第二范式，但不属于第一范式　
Ｆ．属于第三范式，但不属于第二范式
②③
Ａ．（Ｌ＃，Ｂ＃，ＢＰＲＩＣＥ） Ｂ．（Ｌ＃，Ｂ＃）
Ｃ．（Ｂ＃，ＢＮＡＭＥ） Ｄ．（Ｂ＃，ＢＮＡＭＥ，ＢＰＲＩＣＥ，ＢＰＵＢ）
Ｅ．（ＢＮＡＭＥ，ＢＰＲＩＣＥ，ＢＰＵＢ） Ｆ．（Ｌ＃，ＢＮＡＭＥ，ＢＰＲＩＣＥ）
４．我们在一个关系中（　　）。【２０１２青岛大学】
Ａ．必须定义一个主关键字
Ｂ．只能创建一个聚集索引（ｃｌｕｓｔｅｒｉｎｄｅｘ）
Ｃ．只能创建一个稠密索引
Ｄ．只能定义一个约束
５．在ＤＢＭＳ的关系中（　　 ）。
Ａ．关键字属性值可以为空 Ｂ．外关键字属性值可以为空
Ｃ．任何属性值都可以为空 Ｄ．任何属性值都不可以为空
６．设有关系模式Ｒ（Ｂ，Ｉ，Ｓ，Ｑ，Ｄ），其上函数依赖集Ｆ＝｛Ｓ　Ｄ，Ｉ　Ｂ，ＩＳ　Ｑ，Ｂ　Ｑ，Ｂ　Ｉ｝，下面哪
个是Ｒ的关键字（　　）。
Ａ．ＩＳ Ｂ．ＩＢ Ｃ．ＩＱ Ｄ．ＩＳＢ
７．关于第三范式描述正确的是（　　 ）。
Ａ．一个关系属于第一范式，它就属于第三范式
Ｂ．一个关系模式属于ＢＣ范式，它就属于第三范式
Ｃ．一个关系实例有数据冗余，它就属于第三范式
Ｄ．一个关系实例没有数据冗余，它就属于第三范式
８．关系数据模型是目前最重要的一种数据模型，它的三个要素分别是（　　 ）。
Ａ．实体完整性、参照完整性、用户自定义完整性
Ｂ．数据结构、关系操作、完整性约束
Ｃ．数据增加、数据修改、数据查询
Ｄ．外模式、模式、内模式
—４８—
９．关于分布式数据库系统和并行数据库系统，下列说法正确的是（　　 ）。
Ａ．分布式数据库系统的目标是利用多处理机结点并行地完成数据库任务以提高数据库系统的
整体性能
Ｂ．并行数据库系统目的主要在于实现场地自治和数据全局透明共享
Ｃ．并行数据库系统经常采用负载平衡方法提供数据库系统的业务吞吐率
Ｄ．分布式数据库系统中，不存在全局应用时各局部应用的概念，各节点完全不独立，各个节点需
要协同工作
１０．有关系模式Ａ（Ｃ，Ｔ，Ｈ，Ｒ，Ｓ），其中各属性的含义是：Ｃ：课程，Ｔ：教员，Ｈ：上课时间，Ｒ：教室，Ｓ：
学生。根据语义有如下函数依赖集Ｆ＝｛Ｃ→Ｔ，（Ｈ，Ｒ）→Ｃ，（Ｈ，Ｔ）→Ｒ，（Ｈ，Ｓ）→Ｒ｝。关系模式Ａ的
规范化程度最高达到（　　 ）。
Ａ．１ＮＦ Ｂ．２ＮＦ Ｃ．３ＮＦ Ｄ．ＢＣＮＦ
第２讲 数据依赖的公理系统
第一部分　知识点回顾
６．２．７　 多值依赖
【例９】学校中某一门课程由多个教师讲授，他们使用相同的一套参考书。每个教员可以讲授多
门课程，每种参考书可以供多门课程使用。
·用二维表表示Ｔｅａｃｈｉｎｇ
Ｔｅａｃｈｉｎｇ模式中存在的问题：
（１）数据冗余度大
（２）插入操作复杂
（３）删除操作复杂
（４）修改操作复杂
定义６．９　
—５８—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
设Ｒ（Ｕ）是一个属性集Ｕ上的一个关系模式，Ｘ、Ｙ和Ｚ是Ｕ的子集，并且 Ｚ＝Ｕ－Ｘ－Ｙ。关系
模式Ｒ（Ｕ）中多值依赖 Ｘ→→Ｙ成立，当且仅当对Ｒ（Ｕ）的任一关系ｒ，给定的一对（ｘ，ｚ）值，有一组Ｙ
的值，这组值仅仅决定于ｘ值而与ｚ值无关。
例：Ｔｅａｃｈｉｎｇ（Ｃ，Ｔ，Ｂ）
对于一个（物理，光学原理）有一组Ｔ值｛李勇，王军｝，这组值仅由课程 Ｃ上的值（物理）决定，对
于另一个（物理，物理习题集）对应的Ｔ值仍是｛李勇，王军｝，因此Ｔ多值依赖于Ｃ。
·多值依赖的另一个等价的形式化的定义：
在Ｒ（Ｕ）的任一关系ｒ中，如果存在元组ｔ，ｓ使得ｔ［Ｘ］＝ｓ［Ｘ］，那么就必然存在元组 ｗ，ｖ，ｒ，（ｗ，
ｖ可以与ｓ，ｔ相同），使得ｗ［Ｘ］＝ｖ［Ｘ］＝ｔ［Ｘ］，而ｗ［Ｙ］＝ｔ［Ｙ］，ｗ［Ｚ］＝ｓ［Ｚ］，ｖ［Ｙ］＝ｓ［Ｙ］，ｖ［Ｚ］＝ｔ
［Ｚ］（即交换ｓ，ｔ元组的Ｙ值所得的两个新元组必在 ｒ中），则 Ｙ多值依赖于 Ｘ，记为 Ｘ→→Ｙ。这里，
Ｘ，Ｙ是Ｕ的子集，Ｚ＝Ｕ－Ｘ－Ｙ。
元组 课程 教员 参考书
Ｗ 物理 李明 物理习题集
Ｔ 物理 李明 物理数学方法
Ｓ 物理 赵海 物理习题集
Ｖ 物理 赵海 物理数学方法
·平凡多值依赖和非平凡的多值依赖
若Ｘ→→Ｙ，而Ｚ＝φ，则称 Ｘ→→Ｙ为平凡的多值依赖；否则称Ｘ→→Ｙ为非平凡的多值依赖
用下图表示这种对应
Ｗ→→Ｓ且Ｗ→→Ｃ
多值依赖的性质：
（１）多值依赖具有对称性
若Ｘ→→Ｙ，则Ｘ→→Ｚ，其中Ｚ＝Ｕ－Ｘ－Ｙ
（２）多值依赖具有传递性
若Ｘ→→Ｙ，Ｙ→→Ｚ，则Ｘ→→Ｚ－Ｙ
（３）函数依赖是多值依赖的特殊情况
若Ｘ→Ｙ，则Ｘ→→Ｙ
（４）若Ｘ→→Ｙ，Ｘ→→Ｚ，则Ｘ→→Ｙ∪Ｚ
—６８—
（５）若Ｘ→→Ｙ，Ｘ→→Ｚ，则Ｘ→→Ｙ∩Ｚ
（６）若Ｘ→→Ｙ，Ｘ→→Ｚ，则Ｘ→→Ｙ－Ｚ，Ｘ→→Ｚ－Ｙ。
多值依赖与函数依赖的区别：
（１）多值依赖的有效性与属性集的范围有关
（２）
·若函数依赖Ｘ→Ｙ在Ｒ（Ｕ）上成立，则对于任何Ｙ＇，Ｙ均有Ｘ→Ｙ＇成立
·多值依赖Ｘ→→Ｙ若在Ｒ（Ｕ）上成立，不能断言对于任何Ｙ＇，Ｙ有Ｘ→→Ｙ＇成立
６．２．８　４ＮＦ
·定义６．１０　关系模式Ｒ＜Ｕ，Ｆ＞∈１ＮＦ，如果对于Ｒ的每个非平凡多值依赖Ｘ→→Ｙ（Ｙ Ｘ），
Ｘ都含有码，则Ｒ∈４ＮＦ。
·如果Ｒ∈ ４ＮＦ，则Ｒ∈ ＢＣＮＦ
　不允许有非平凡且非函数依赖的多值依赖
　允许的非平凡多值依赖是函数依赖
６．３　数据依赖的公理系统
逻辑蕴含
定义６．１１　 对于满足一组函数依赖 Ｆ的关系模式Ｒ＜Ｕ，Ｆ＞，其任何一个关系ｒ，若函数依赖Ｘ
→Ｙ都成立，（即ｒ中任意两元组ｔ，ｓ，若ｔ［Ｘ］＝ｓ［Ｘ］，则ｔ［Ｙ］＝ｓ［Ｙ］），则称Ｆ逻辑蕴含Ｘ→Ｙ。
１．Ａｒｍｓｔｒｏｎｇ公理系统
关系模式Ｒ＜Ｕ，Ｆ＞来说有以下的推理规则：
·Ａ１．自反律（Ｒｅｆｌｅｘｉｖｉｔｙ）：若ＹＸ→ Ｕ，则Ｘ→Ｙ为Ｆ所蕴含。
·Ａ２．增广律（Ａｕｇｍｅｎｔａｔｉｏｎ）：若Ｘ→Ｙ为Ｆ所蕴含，且Ｚ→ Ｕ，则ＸＺ→ＹＺ为Ｆ所蕴含。
·Ａ３．传递律（Ｔｒａｎｓｉｔｉｖｉｔｙ）：若Ｘ→Ｙ及Ｙ→Ｚ为Ｆ所蕴含，则Ｘ→Ｚ为Ｆ所蕴含。
定理 ６．１　Ａｒｍｓｔｒｏｎｇ推理规则是正确的。
（ｌ）自反律：若ＹＸＵ，则Ｘ→Ｙ为Ｆ所蕴含。
证：设ＹＸＵ
　对Ｒ＜Ｕ，Ｆ＞的任一关系ｒ中的任意两个元组ｔ，ｓ：
　若ｔ［Ｘ］＝ｓ［Ｘ］，由于ＹＸ，有ｔ［ｙ］＝ｓ［ｙ］，
　所以Ｘ→Ｙ成立，自反律得证。
（２）增广律：若Ｘ→Ｙ为Ｆ所蕴含，且ＺＵ，则ＸＺ→ＹＺ为Ｆ所蕴含。
证：设Ｘ→Ｙ为Ｆ所蕴含，且ＺＵ。
　设Ｒ＜Ｕ，Ｆ＞的任一关系ｒ中任意的两个元组ｔ，ｓ：
　若ｔ［ＸＺ］＝ｓ［ＸＺ］，则有ｔ［Ｘ］＝ｓ［Ｘ］和ｔ［Ｚ］＝ｓ［Ｚ］；
　由Ｘ→Ｙ，于是有ｔ［Ｙ］＝ｓ［Ｙ］，所以ｔ［ＹＺ］＝ｓ［ＹＺ］，所以ＸＺ→ＹＺ为Ｆ所蕴含，增广律得证。
（３）传递律：若Ｘ→Ｙ及Ｙ→Ｚ为Ｆ所蕴含，则 Ｘ→Ｚ为 Ｆ所蕴含。
证：设Ｘ→Ｙ及Ｙ→Ｚ为Ｆ所蕴含。
—７８—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　对Ｒ＜Ｕ，Ｆ＞的任一关系 ｒ中的任意两个元组 ｔ，ｓ：
　若ｔ［Ｘ］＝ｓ［Ｘ］，由于Ｘ→Ｙ，有 ｔ［Ｙ］＝ｓ［Ｙ］；
　再由Ｙ→Ｚ，有ｔ［Ｚ］＝ｓ［Ｚ］，所以Ｘ→Ｚ为Ｆ所蕴含，传递律得证。
２．导出规则
１）根据Ａ１，Ａ２，Ａ３这三条推理规则可以得到下面三条推理规则：
·合并规则：由Ｘ→Ｙ，Ｘ→Ｚ，有Ｘ→ＹＺ。　　　　　 （Ａ２，Ａ３）
·伪传递规则：由Ｘ→Ｙ，ＷＹ→Ｚ，有ＸＷ→Ｚ。　　　 （Ａ２，Ａ３）
·分解规则：由Ｘ→Ｙ及 Ｚ→Ｙ，有Ｘ→Ｚ。　　　 　　（Ａ１，Ａ３）
２）根据合并规则和分解规则，可得引理６．１
引理６．１　Ｘ→Ａ１Ａ２…Ａｋ成立的充分必要条件是Ｘ→Ａｉ成立（ｉ＝ｌ，２，…，ｋ）
３．函数依赖闭包
定义６．１２　在关系模式Ｒ＜Ｕ，Ｆ＞中为 Ｆ所逻辑蕴含的函数依赖的全体叫作 Ｆ的闭包，记为 Ｆ
＋。
定义６．１３　 设Ｆ为属性集 Ｕ上的一组函数依赖，Ｘ Ｕ，ＸＦ＋ ＝｛Ａ｜Ｘ→Ａ能由 Ｆ根据 Ａｒｍ
ｓｔｒｏｎｇ公理导出｝，ＸＦ＋称为属性集Ｘ关于函数依赖集Ｆ的闭包。
Ａｒｍｓｔｒｏｎｇ公理系统：
·Ａｒｍｓｔｒｏｎｇ公理系统是有效的、完备的
·有效性：由Ｆ出发根据Ａｒｍｓｔｒｏｎｇ公理推导出来的每一个函数依赖一定在Ｆ＋中；
·完备性：Ｆ＋中的每一个函数依赖，必定可以由Ｆ出发根据Ａｒｍｓｔｒｏｎｇ公理推导出来
Ｆ的闭包
关于闭包的引理
·引理６．２　
　设Ｆ为属性集Ｕ上的一组函数依赖，Ｘ，ＹＵ，Ｘ→Ｙ能由Ｆ根据Ａｒｍｓｔｒｏｎｇ公理导出的充分必
—８８—
要条件是ＹＸＦ＋
·用途
将判定Ｘ→Ｙ是否能由Ｆ根据Ａｒｍｓｔｒｏｎｇ公理导出的问题，转化为求出ＸＦ＋、判定Ｙ是否为ＸＦ＋
的子集的问题。
求闭包的算法
算法６．１　求属性集Ｘ（ＸＵ）关于Ｕ上的函数依赖集Ｆ的闭包ＸＦ
＋
输入：Ｘ，Ｆ
输出：ＸＦ
＋
步骤：（１）令Ｘ（０） ＝Ｘ，ｉ＝０；
（２）求Ｂ，这里Ｂ＝｛Ａ｜（Ｖ）（Ｗ）（Ｖ→Ｗ∈Ｆ∧ＶＸ（ｉ）∧Ａ∈Ｗ）｝；
（３）Ｘ（ｉ＋１） ＝Ｂ∪Ｘ（ｉ）；
（４）判断Ｘ（ｉ＋１）＝Ｘ（ｉ）吗？
（５）若相等或Ｘ（ｉ）＝Ｕ，则Ｘ（ｉ）就是ＸＦ＋，算法终止。
（６）若否，则 ｉ＝ｉ＋１，返回第（２）步。
对于算法６．１　令ａｉ＝｜Ｘ
（ｉ）｜，｛ａｉ｝形成一个步长大于１的严格递增的序列，序列的上界是 ｜Ｕ
｜，因此该算法最多 ｜Ｕ｜－｜Ｘ｜次循环就会终止。
４．最小依赖集
定义６．１５　如果函数依赖集Ｆ满足下列条件，则称Ｆ为一个极小函数依赖集。亦称为最小依赖
集或最小覆盖。
（１）Ｆ中任一函数依赖的右部仅含有一个属性。
（２）Ｆ中不存在这样的函数依赖Ｘ→Ａ，使得Ｆ与Ｆ－｛Ｘ→Ａ｝等价。
（３）Ｆ中不存在这样的函数依赖Ｘ→Ａ，Ｘ有真子集Ｚ使得Ｆ－｛Ｘ→Ａ｝∪｛Ｚ→Ａ｝与Ｆ等价。
【例２】设有关系模式Ｓ＜Ｕ，Ｆ＞，其中：
　　　　　Ｕ＝｛ＳＮＯ，ＳＤＥＰＴ，ＭＮ，ＣＮＡＭＥ，Ｇ｝，
　　　　　Ｆ＝｛ＳＮＯ→ＳＤＥＰＴ，ＳＤＥＰＴ→ＭＮ，（ＳＮＯ，ＣＮＡＭＥ）→Ｇ｝
　　设Ｆ’＝｛ＳＮＯ→ＳＤＥＰＴ，ＳＮＯ→ＭＮ，
　　　　　　ＳＤＥＰＴ→ＭＮ，（ＳＮＯ，ＣＮＡＭＥ）→Ｇ，
　　　　　　（ＳＮＯ，ＳＤＥＰＴ）→ＳＤＥＰＴ｝
—９８—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
第２讲　逻辑与物理结构设计
第一部分　知识点回顾
７．４　逻辑结构设计
１、概念设计的回顾
根据需求分析的结果确定概念模型。
概念模型是对现实世界的一个真实模型，且能满足用户对数据的处理要求。
概念模型直观形象、容易和用户沟通。
概念模型易于修改。
概念模型与具体数据模型无关且容易向数据库模型转化。
２、逻辑结构设计的任务
·概念结构是各种数据模型的共同基础。
·为了能够用某一ＤＢＭＳ实现用户需求，还必须将概念结构进一步转化为相应的数据模型，这正
是数据库逻辑结构设计所要完成的任务。
Ｓｑｌｓｅｒｖｅｒ２０００中的表操作界面
—１１１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
班名 人数
软０５１ ２９
计０５１ ３２
… …
姓名 年龄 性别
王洋 ２７ 女
刘兴 ３２ 男
… … …
课名 学时 学分 先修课
数据库 ５６ ３．５ 数据结构
操作系统 ５６ ３．５ Ｃ语言
… … …
２）一个１：１联系可以转换为一个独立的关系模式，也可以与任意一端对应的关系模式合并。
①转换为一个独立的关系模式
·关系的属性：与该联系相连的各实体的码以及联系本身的属性。
·关系的候选码：每个实体的码均是该关系的候选码。
例如，独立关系模式：管理（姓名，班名）【详见课程视频】
②与某一端对应的关系模式合并
·合并后关系的属性：加入对应关系的码和联系本身的属性
·合并后关系的码：不变
注意：
·从理论上讲，１：１联系可以与任意一端对应的关系模式合并。
但在一些情况下，与不同的关系模式合并效率会大不一样。因此究竟应该与哪端的关系模式合
并需要依应用的具体情况而定。
·由于连接操作是最费时的操作，所以一般应以尽量减少连接操作为目标。
例如，如果经常要查询某个班级的班主任姓名，则将负责联系与班级关系合并更好些。
（３）一个１：ｎ联系可以转换为一个独立的关系模式，也可以与ｎ端对应的关系模式合并。
①转换为一个独立的关系模式
·关系的属性：与该联系相连的各实体的码以及联系本身的属性。
·关系的码：ｎ端实体的码。
②与ｎ端对应的关系模式合并
·合并后关系的属性：在ｎ端关系中加入１端关系的码和联系本身的属性．
·合并后关系的码：不变
以减少系统中的关系个数，一般情况下更倾向于采用这种方法．
—３１１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
例：“负责”联系为１：ｎ联系。将其转换为关系模式的两种方法：
①使其成为一个独立的关系模式：负责（班名，辅导员姓名）
②将其与班级关系模式合并 ：负责（班名，人数，辅导员姓名）
（４）一个ｍ：ｎ联系转换为一个关系模式。
关系的属性：与该联系相连的各实体的码以及联系本身的属性
关系的码：各实体码的组合
例，“开设”联系是一个ｍ：ｎ联系，可以将它转换为如下关系模式，其中班名与课程名为关系的组
合码：
开设（班名，课程名，开课时间）
班名 课名 时间
软０５１ Ｃ语言 ２００６年春季
软０５１ 数据结构 ２００６年春季
计０６１ Ｃ语言 ２００７年秋季
计０６２ 数据结构 ２００７年秋季
软０５１ 编译原理 ２００７年春季
（５）三个或三个以上实体间的一个多元联系转换为一个关系模式。
关系的属性：与该多元联系相连的各实体的码以及联系本身的属性
关系的码：各实体码的组合
例，“讲授”联系是一个三元联系，可以将它转换为如下关系模式，其中课程号、职工号和书号为关
系的组合码：
讲授（课程号，职工号，书号）
（６）具有相同码的关系模式可以合并
（７）同一实体集的实体间的联系，即自联系，也可按上述１：１、１：ｎ和ｍ：ｎ三种情况分别处理。
例，如果教师实体集内部存在领导与被领导的１：ｎ自联系，我们可以将该联系与教师实体合并，
这时主码职工号将多次出现，但作用不同，可用不同的属性名加以区分：
教师：｛职工号，姓名，性别，职称，系主任｝
５、向特定ＤＢＭＳ规定的模型进行转换
·一般的数据模型还需要向特定ＤＢＭＳ规定的模型进行转换。
·转换的主要依据是所选用的ＤＢＭＳ的功能及限制。没有通用规则。
·对于关系模型来说，这种转换通常都比较简单。
６、数据模型的优化
·数据库逻辑设计的结果不是唯一的。
·得到初步数据模型后，还应该适当地修改、调整数据模型的结构，以进一步提高数据库应用系
统的性能，这就是数据模型的优化。
—４１１—
　查询的投影属性
数据更新事务
　被更新的关系
　每个关系上的更新操作条件所涉及的属性
　修改操作要改变的属性值
每个事务在各关系上运行的频率和性能要求
·关系数据库物理设计的内容
（１）为关系模式选择存取方法（建立存取路径）
（２）设计关系、索引等数据库文件的物理存储结构
７．５．２　关系模式存取方法选择
·数据库系统是多用户共享的系统，对同一个关系要建立多条存取路径才能满足多用户的多种
应用要求。
·物理设计的第一个任务就是要确定选择哪些存取方法，即建立哪些存取路径。
·ＤＢＭＳ常用存取方法
　索引方法，目前主要是Ｂ＋树索引方法
　聚簇（Ｃｌｕｓｔｅｒ）方法
　ＨＡＳＨ方法
１、索引存取方法的选择
·选择索引存取方法的主要内容
根据应用要求确定
　对哪些属性列建立索引
　对哪些属性列建立组合索引
　对哪些索引要设计为唯一索引
·选择索引存取方法的一般规则
　如果一个（或一组）属性经常在查询条件中出现，则考虑在这个（或这组）属性上建立索引（或
组合索引）
　如果一个属性经常作为最大值和最小值等聚集函数的参数，则考虑在这个属性上建立索引
　如果一个（或一组）属性经常在连接操作的连接条件中出现，则考虑在这个（或这组）属性上建
立索引
·关系上定义的索引数过多会带来较多的额外开销（维护开销，查找开销）
２、聚簇存取方法的选择
·聚簇的用途
（１）大大提高按聚簇属性进行查询的效率
（２）节省存储空间
·聚簇的局限性
—６１１—
（１）聚簇只能提高某些特定应用的性能
（２）建立与维护聚簇的开销相当大
·聚簇的适用范围
（１）既适用于单个关系独立聚簇，也适用于多个关系组合聚簇
（２）当通过聚簇码进行访问或连接是该关系的主要应用，与聚簇码无关的其他访问很少或者是次
要的时，可以使用聚簇。
·选择聚簇存取方法
（１）设计候选聚簇
对经常在一起进行连接操作的关系可以建立组合聚簇；
如果一个关系的一组属性经常出现在相等比较条件中，则该单个关系可建立聚簇；
如果一个关系的一个（或一组）属性上的值重复率很高，则此单个关系可建立聚簇。即对应每个
聚簇码值的平均元组数不太少。太少了，聚簇的效果不明显。
（２）检查候选聚簇中的关系，取消其中不必要的关系
从独立聚簇中删除经常进行全表扫描的关系；
从独立／组合聚簇中删除更新操作远多于查询操作的关系；
从独立／组合聚簇中删除重复出现的关系
当一个关系同时加入多个聚簇时，必须从这多个聚簇方案（包括不建立聚簇）中选择一个较优的，
即在这个聚簇上运行各种事务的总代价最小。
３、ＨＡＳＨ存取方法的选择
·选择ＨＡＳＨ存取方法的规则
当一个关系满足下列两个条件时，可以选择ＨＡＳＨ存取方法
该关系的属性主要出现在等值连接条件中或主要出现在相等比较选择条件中
该关系的大小可预知，而且不变；或该关系的大小动态改变，但所选用的 ＤＢＭＳ提供了动态
ＨＡＳＨ存取方法。
７．５．３　确定数据库的存储结构
·确定数据库物理结构的内容
１．确定数据的存放位置
影响数据存放位置和存储结构的因素
·硬件环境
·应用需求
　存取时间
　存储空间利用率
　维护代价
这三个方面常常是相互矛盾的
—７１１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
例：消除一切冗余数据虽能够节约存储空间和减少维护代价，但往往会导致检索代价的增加。
必须进行权衡，选择一个折中方案。
·基本原则
根据应用情况将
　易变部分与稳定部分
　存取频率较高部分与存取频率较低部分分开存放，以提高系统性能
２．确定系统配置
·ＤＢＭＳ产品一般都提供了一些存储分配参数
　同时使用数据库的用户数
　同时打开的数据库对象数
　使用的缓冲区长度、个数
　时间片大小
　数据库的大小
　装填因子
　锁的数目
　等等
７．５．４　评价物理结构
·评价内容
对数据库物理设计过程中产生的多种方案进行细致的评价，从中选择一个较优的方案作为数据
库的物理结构
·评价方法
·定量估算各种方案
　存储空间
　存取时间
　维护代价
·对估算结果进行权衡、比较，选择出一个较优的合理的物理结构
·如果该结构不符合用户需求，则需要修改设计
７．６　数据库实施
·数据库实施的工作内容
　用ＤＤＬ定义数据库结构
　组织数据入库
　编制与调试应用程序
　数据库试运行
—８１１—
第二部分　考点试题解析
一、综合题【２０１１年南京航空航天】
１．现有一图书销售数据库，其关系表结构如下：
图书表（图书编号，图书名称，出版社编号，出版社名称，出版时间，出版数量，版次）
图书销售表（图书编号，销售日期，销售数量，书店编号，读者编号，读者姓名，读者电话）
书店表（书店编号，联系电话，所在城市编号，城市名称）
该系统所涉及的数据存在如下约束：
Ａ．一个出版社可以出版多种图书，但一种图书只能在一个出版社出版，在该系统记录的图书出版
社信息中包括图书、出版时间、版次及出版数量信息。
Ｂ．一个书店可以出售同种图书的多本给多个读者，每位读者可以从多个书店购买同种图书的多
本，一种图书可以通过多个书店出售多本给同一读者，书店把图书出售给读者后会在系统中记录售书
目录，日期和售书数量信息。
Ｃ．一个城市可以有多个书店，但是一个书店只在一个城市有一家店。
问题如下：
１）请根据以上信息用 ＥＲ图画出合理的图书销售数据库的概念模型 （４分）
２）以图书销售表为例说明原数据库表设计的不合理之处。（６分）
３）请给出你改进原数据库设计后的图书销售的数据字典 （８分）
４）给出该数据库符合 ３ＮＦ要求的全部关系模式，并指出关系模式中的全部主码和外码。（６分）
５）在第 ４）步的基础上，现按“图书名称”和“出版数量”进行查询，为提高查询效率，需要建立索
引。给出创建索引的两种方法（２分）。选择较合理的一种方法写出其ＳＱＬ语句 （４分）
第３讲　数据库设计综合考题
２．【２０１２广东工业大学】请为一个局部应用设计一个数据库，它将保存每个部门及其职工的基本
—９１１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
信息。已经通过数据抽象方式获得了两个实体：“职工”和“部门”，一个职工只能属于某一个部门，而
一个部门有多个职工，每个部门都有一个部门经理。其中，职工的基本信息包括：职工工号（ＥＮＯ）、姓
名（ＥＮＡＭＥ）、年龄（ＡＧＥ）、工资（ＳＡＬＡＲＹ）和工作部门（ＤＰＴ）；部门的基本信息包括：部门编号
（ＤＮＯ）、部门名称（ＤＮＡＭＥ）等。
画出上述实体间的Ｅ－Ｒ图，并根据Ｅ－Ｒ图，写出转换后的关系模型（其中１：１，１：ｎ关系均不
换为杜丽的关系模式），并指出每个关系的主键和外键（如果存在的情况下）。
３．根据上述第１题中的基本关系表完成下述各题。
（１）建立一个年龄大于４５岁的职工视图ＥＭＰＶ，属性为（ＤＮＯ，ＤＮＡＭＥ，ＥＮＯ，ＥＮＡＭＥ，ＡＧＥ，ＳＡＬ
ＡＲＹ）。
（２）写出以下查询的关系代数表达式和ＳＱＬ语句：
检索每个部门经理的工资，要求显示其部门编号、部门名称、经理工号、经理姓名和经理工资。
４．关系数据库设计（２０分）【２０１１青岛大学】
某学校教学单位分院、系两级管理，课程由学院统一设置，学生以系（在实际中对应于专业）为单
位进行管理。现欲开发一教学管理系统，分析得出，该系统由两个子系统构成：课程设置子系统和选
课管理子系统。
对于课程设置子系统，有如下实体：
学院：单位号、单位名、电话、办公地址；
教师：教师号、姓名、性别、职称；
课程：课程号、课程名。
５．要求：一个学院有多个教师，一个教师只能属于一个学院；一个学院可开设多门课程，一门课程
只允许一个学院开设，学院所开设的每门课都要指定开课学期；一个教师可讲授多门课程，一门课程
可由多个教师讲授（注：课程与任课教师可以分属于不同学院），教师讲授的每门课程都有个评价。
对于选课管理子系统，有如下实体：
系：单位号、单位名、电话；
学生：学号、姓名、性别、年龄；
课程：课程号、课程名、学分。
６．要求：一个系有多名学生，一名学生只能属于一个系；一个学生可选修多门课程，一门课程可为
多个学生选修，学生选修的每门课程都有个成绩。
试完成如下工作：
（１）分别设计课程设置和选课管理两个子系统的局部Ｅ－Ｒ图。（８分）
（２）将上述设计完成的Ｅ－Ｒ图合并成一个全局 Ｅ－Ｒ图。要求：学院和系两类实体合并为“单
位”实体，同时显式表达学院和系之间的隶属关系（注：每个学院下设多个系）。（６分）
（３）将该全局Ｅ－Ｒ图转换为关系模型表示的数据库逻辑结构，并分别使用直下划线和波浪下划
线标明每个关系的主码（或主键）与外码（或外键）。（６分）
７．【２００８昆明理工】某图书借阅管理数据库要求提供下述服务：
（ａ）可通过数据库中保存的出版社名、地址、右边和电话等信息，向有关图书的出版社增购书籍。
—０２１—
出版社名可唯一标识每个出版社；
（ｂ）可随时查询书库中现有各种图书的书号、书名、库存数量和存放位置。所有每种图书可由书
号唯一标识；
（ｃ）可随时查询借书人的可随时查询借书人的借书证号、姓名和工作部门。借书证号可唯一标识
每个借书人。
其中一个出版社可出版多种图书，同一图书只能由同一个出版社在某一具体的时间出版一定数
量的图书（即出版时间和出版数量）：任何借书人可同时借多种图书，任何一种图书可为多个人所借，
在每次借还书时要求登记借书日期和还书日期。
根据以上情况，可补充字段类型等适当信息，作如下设计：
（１）构造该系统的Ｅ－Ｒ图（要求用字母或数字标识实体间联系的类型，用下划线标识实体的主
关键字）；
（２）将Ｅ－Ｒ模型图转换为等价的关系模型的关系模式（要求用下划线标识实体的主关键字）；
（３）用ＳＱＬ语言定义上述关系模式，要求定义每个模式的主关键字和参照完整性。
８．商场（商场名、经理名）有如下信息：一个商场内有许多柜台（柜台号，柜台名），每个柜台有多
种商品（商品号，价格）；每个柜台有多个营业员（工号，姓名，性别）；每个营业员卖出许多种商品，一
种商品也可被多位营业员卖出。画出该系统的Ｅ－Ｒ模型；转化为关系模型；说明转化方法；标出各关
系中的关键字；如果存在外码，标出外码。（１５分）【２００８湖北工业大学】
９．求针对表：成绩（学号、课程名称、班级，分数）、显示按课程成绩的分析统计表，包括每门课的平
均分、最高分、最低分。（１０分）
１０．如果针对学生（学号、姓名），成绩（学号，课号，分数），课程（课号，课名）三个数据表有如下查
询：
ＳＥＬＥＣＴ学生．学号，姓名 ＦＲＯＭ学生，成绩，课程 ＷＨＥＲＥ学生．学号＝成绩．学号 ＡＮＤ成绩．课
号＝课程．课号 ＡＮＤ分数＞８０
试画出用关系代数表示的语法数。再用关系代数表达式优化算法对该语法树进行优化处理，画
出优化后的语法树，根据优化后的语法树写出ＳＥＬＥＣＴ语句。（１０分）
—１２１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
第九章　关系查询处理和查询优化
第一部分　知识点回顾
关系系统的分类
９．１　关系数据库系统的查询处理
９．１．１　查询处理步骤
查询处理步骤
１．查询分析
·对查询语句进行扫描、词法分析和语法分析
·从查询语句中识别出语言符号
·进行语法检查和语法分析
２．查询检查
·根据数据字典对合法的查询语句进行语义检查
—２２１—
·根据数据字典中的用户权限和完整性约束定义对用户的存取权限进行检查
·检查通过后把ＳＱＬ查询语句转换成等价的关系代数表达式
·ＲＤＢＭＳ一般都用查询树（语法分析树）来表示扩展的关系代数表达式
·把数据库对象的外部名称转换为内部表示
３．查询优化
·查询优化：选择一个高效执行的查询处理策略
·查询优化分类 ：
　代数优化：指关系代数表达式的优化
　物理优化：指存取路径和底层操作算法的选择
·查询优化方法选择的依据：
　基于规则（ｒｕｌｅｂａｓｅｄ）
　基于代价（ｃｏｓｔｂａｓｅｄ）
　基于语义（ｓｅｍａｎｔｉｃｂａｓｅｄ）
４．查询执行
·依据优化器得到的执行策略生成查询计划
·代码生成器（ｃｏｄｅｇｅｎｅｒａｔｏｒ）生成执行查询计划的代码
９．１．２　实现查询操作的算法示例
１、选择操作的实现
【例１】Ｓｅｌｅｃｔ ｆｒｏｍｓｔｕｄｅｎｔｗｈｅｒｅ＜条件表达式＞；
考虑＜条件表达式＞的几种情况：
Ｃ１：无条件；
Ｃ２：Ｓｎｏ＝＇２００２１５１２１＇；
Ｃ３：Ｓａｇｅ＞２０；
Ｃ４：Ｓｄｅｐｔ＝＇ＣＳ＇ＡＮＤＳａｇｅ＞２０；
·选择操作典型实现方法：
（１）简单的全表扫描方法
对查询的基本表顺序扫描，逐一检查每个元组是否满足选择条件，把满足条件的元组作为结果输出
适合小表，不适合大表
（２）索引（或散列）扫描方法
适合选择条件中的属性上有索引（例如Ｂ＋树索引或Ｈａｓｈ索引）
通过索引先找到满足条件的元组主码或元组指针，再通过元组指针直接在查询的基本表中找到
元组
【例１－Ｃ２】　以Ｃ２为例，Ｓｎｏ＝‘２００２１５１２１’，并且Ｓｎｏ上有索引（或Ｓｎｏ是散列码）
使用索引（或散列）得到Ｓｎｏ为‘２００２１５１２１’元组的指针
通过元组指针在ｓｔｕｄｅｎｔ表中检索到该学生
—３２１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
【例１－Ｃ３】　以Ｃ３为例，Ｓａｇｅ＞２０，并且Ｓａｇｅ上有Ｂ＋树索引
使用Ｂ＋树索引找到Ｓａｇｅ＝２０的索引项，以此为入口点在Ｂ＋树的顺序集上得到 Ｓａｇｅ＞２０的所
有元组指针
通过这些元组指针到ｓｔｕｄｅｎｔ表中检索到所有年龄大于２０的学生。
【例１－Ｃ４】　以Ｃ４为例，Ｓｄｅｐｔ＝‘ＣＳ’ＡＮＤＳａｇｅ＞２０，如果Ｓｄｅｐｔ和Ｓａｇｅ上都有索引：
算法一：分别用上面两种方法分别找到 Ｓｄｅｐｔ＝‘ＣＳ’的一组元组指针和 Ｓａｇｅ＞２０的另一组元组
指针
·求这２组指针的交集
·到ｓｔｕｄｅｎｔ表中检索
·得到计算机系年龄大于２０的学生
算法二：找到Ｓｄｅｐｔ＝‘ＣＳ’的一组元组指针，
·通过这些元组指针到ｓｔｕｄｅｎｔ表中检索
·对得到的元组检查另一些选择条件（如Ｓａｇｅ＞２０）是否满足
·把满足条件的元组作为结果输出。
２、连接操作的实现
·连接操作是查询处理中最耗时的操作之一
·本节只讨论等值连接（或自然连接）最常用的实现算法
【例２】　 ＳＥＬＥＣＴ ＦＲＯＭＳｔｕｄｅｎｔ，ＳＣ
　　　　ＷＨＥＲＥＳｔｕｄｅｎｔ．Ｓｎｏ＝ＳＣ．Ｓｎｏ；
（１）嵌套循环方法（ｎｅｓｔｅｄｌｏｏｐ）
·对外层循环（Ｓｔｕｄｅｎｔ）的每一个元组（ｓ），检索内层循环（ＳＣ）中的每一个元组（ｓｃ）
·检查这两个元组在连接属性（ｓｎｏ）上是否相等
·如果满足连接条件，则串接后作为结果输出，直到外层循环表中的元组处理完为止
（２）排序－合并方法（ｓｏｒｔ－ｍｅｒｇｅｊｏｉｎ或ｍｅｒｇｅｊｏｉｎ）
·适合连接的诸表已经排好序的情况
·排序－合并连接方法的步骤：
如果连接的表没有排好序，先对Ｓｔｕｄｅｎｔ表和ＳＣ表按连接属性Ｓｎｏ排序
取Ｓｔｕｄｅｎｔ表中第一个Ｓｎｏ，依次扫描ＳＣ表中具有相同Ｓｎｏ的元组
排序－合并连接方法示意图
（３）索引连接（ｉｎｄｅｘｊｏｉｎ）方法
—４２１—
·步骤：
① 在ＳＣ表上建立属性Ｓｎｏ的索引，如果原来没有该索引
② 对Ｓｔｕｄｅｎｔ中每一个元组，由Ｓｎｏ值通过ＳＣ的索引查找相应的ＳＣ元组
③ 把这些ＳＣ元组和Ｓｔｕｄｅｎｔ元组连接起来　
循环执行②③，直到Ｓｔｕｄｅｎｔ表中的元组处理完为止
（４）ＨａｓｈＪｏｉｎ方法
·把连接属性作为ｈａｓｈ码，用同一个ｈａｓｈ函数把Ｒ和Ｓ中的元组散列到同一个ｈａｓｈ文件中
·步骤：
划分阶段（ｐａｒｔｉｔｉｏｎｉｎｇｐｈａｓｅ）：
　对包含较少元组的表（比如Ｒ）进行一遍处理
　把它的元组按ｈａｓｈ函数分散到ｈａｓｈ表的桶中
试探阶段（ｐｒｏｂｉｎｇｐｈａｓｅ）：也称为连接阶段（ｊｏｉｎｐｈａｓｅ）
　对另一个表（Ｓ）进行一遍处理
　把Ｓ的元组散列到适当的ｈａｓｈ桶中
　把元组与桶中所有来自Ｒ并与之相匹配的元组连接起来
９．２　关系数据库系统的查询优化
９．２．１　 查询优化概述
·查询优化的优点不仅在于用户不必考虑如何最好地表达查询以获得较好的效率，而且在于系
统可以比用户程序的“优化”做得更好。
（１）优化器可以从数据字典中获取许多统计信息，而用户程序则难以获得这些信息
（２）如果数据库的物理统计信息改变了，系统可以自动对查询重新优化以选择相适应的执行计
划。在非关系系统中必须重写程序，而重写程序在实际应用中往往是不太可能的。
（３）优化器可以考虑数百种不同的执行计划，程序员一般只能考虑有限的几种可能性。
（４）优化器中包括了很多复杂的优化技术，这些优化技术往往只有最好的程序员才能掌握。系统
的自动优化相当于使得所有人都拥有这些优化技术。
·ＲＤＢＭＳ通过某种代价模型计算出各种查询执行策略的执行代价，然后选取代价最小的执行方
案
集中式数据库
执行开销主要包括：
（１）磁盘存取块数（Ｉ／Ｏ代价）
（２）处理机时间（ＣＰＵ代价）
（３）查询的内存开销
　　Ｉ／Ｏ代价是最主要的
分布式数据库
　　总代价＝Ｉ／Ｏ代价＋ＣＰＵ代价＋内存代价＋通信代价
—５２１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·查询优化的总目标：
　选择有效的策略
　求得给定关系表达式的值
　使得查询代价最小（实际上是较小）
实际系统的查询优化步骤
（１）将查询转换成某种内部表示，通常是语法树
（２）根据一定的等价变换规则把语法树转换成标准 （优化）形式
（３）选择低层的操作算法
对于语法树中的每一个操作
·计算各种执行算法的执行代价
·选择代价小的执行算法
（４）生成查询计划（查询执行方案）
·查询计划是由一系列内部操作组成的。
９．３　代数优化
９．３．１　关系代数表达式等价变换规则
·代数优化策略：通过对关系代数表达式的等价变换来提高查询效率
·关系代数表达式的等价：指用相同的关系代替两个表达式中相应的关系所得到的结果是相同
的
·两个关系表达式Ｅ１和Ｅ２是等价的，可记为Ｅ１≡Ｅ２
常用的等价变换规则：
（１）连接、笛卡尔积交换律
设Ｅ１和Ｅ２是关系代数表达式，Ｆ是连接运算的条件，则有
（２）连接、笛卡尔积的结合律
设Ｅ１，Ｅ２，Ｅ３是关系代数表达式，Ｆ１和Ｆ２是连接运算的条件，则有
（３）投影的串接定律
—６２１—
πＡ１，Ａ２，…Ａｎ（πＢ１，Ｂ２，…Ｂｎ（Ｅ））≡πＡ１，Ａ２，…Ａｎ（Ｅ）
这里，Ｅ是关系代数表达式，Ａｉ（ｉ＝１，２，…，ｎ），Ｂｊ（ｊ＝１，２，…，ｍ）是属性名且｛Ａ１，Ａ２，…，Ａｎ｝构成
｛Ｂ１，Ｂ２，…，Ｂｍ｝的子集。
（４）选择的串接定律
σＦ１（σＦ２（Ｅ））≡σＦ１∧Ｆ２（Ｅ）
这里，Ｅ是关系代数表达式，Ｆ１、Ｆ２是选择条件。
选择的串接律说明选择条件可以合并。这样一次就可检查全部条件。
（５）选择与投影操作的交换律
σＦ（πＡ１，Ａ２，…Ａｎ（Ｅ））≡πＡ１，Ａ２，…Ａｎ（σＦ（Ｅ））
选择条件Ｆ只涉及属性Ａ１，…，Ａｎ。
若Ｆ中有不属于Ａ１，…，Ａｎ的属性Ｂ１，…，Ｂｍ则有更一般的规则：
πＡ１，Ａ２，…Ａｎ（σＦ（Ｅ））≡πＡ１，Ａ２，…Ａｎ（σＦπＡ１，Ａ２，…Ａｎ（Ｅ））
（６）选择与笛卡尔积的交换律
如果Ｆ中涉及的属性都是Ｅ１中的属性，则
σＦ（Ｅ１×Ｅ２）≡σＦ（Ｅ１）×Ｅ２　
如果Ｆ＝Ｆ１∧Ｆ２，并且Ｆ１只涉及Ｅ１中的属性，Ｆ２只涉及Ｅ２中的属性，则由上面的等价变换规则１，
４，６可推出：
σＦ（Ｅ１×Ｅ２）≡σＦ１（Ｅ１）×σＦ２（Ｅ２）
若Ｆ１只涉及Ｅ１中的属性，Ｆ２涉及Ｅ１和Ｅ２两者的属性，则仍有
σＦ（Ｅ１×Ｅ２）≡σＦ２（σＦ１（Ｅ１）×Ｅ２）
它使部分选择在笛卡尔积前先做。
（７）选择与并的分配律
设Ｅ＝Ｅ１∪Ｅ２，Ｅ１，Ｅ２有相同的属性名，则 σＦ（Ｅ１∪Ｅ２）≡σＦ（Ｅ１）∪σＦ（Ｅ２）
（８）选择与差运算的分配律
若Ｅ１与Ｅ２有相同的属性名，则 σＦ（Ｅ１－Ｅ２）≡σＦ（Ｅ１）－σＦ（Ｅ２）
（９）选择对自然连接的分配律
σＦ（Ｅ１Ｅ２）≡σＦ（Ｅ１）σＦ（Ｅ２）
Ｆ只涉及Ｅ１与Ｅ２的公共属性
（１０）投影与笛卡尔积的分配律
设Ｅ１和Ｅ２是两个关系表达式，Ａ１，…，Ａｎ是Ｅ１的属性，Ｂ１，…，Ｂｍ是Ｅ２的属性，则
πＡ１，Ａ２，…，Ａｎ，Ｂ１，Ｂ２，…，Ｂｍ（Ｅ１×Ｅ２）≡πＡ１，Ａ２，…，Ａｎ（Ｅ１）×πＢ１，Ｂ２，…，Ｂｍ（Ｅ２）
（１１）投影与并的分配律
设Ｅ１和Ｅ２有相同的属性名，则
πＡ１，Ａ２，…，Ａｎ（Ｅ１∪Ｅ２）≡πＡ１，Ａ２，…，Ａｎ（Ｅ１）∪πＡ１，Ａ２，…，Ａｎ（Ｅ２）
９．３．２　查询树的启发式优化
典型的启发式规则：
—７２１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
１．选择运算应尽可能先做。在优化策略中这是最重要、最基本的一条
２．把投影运算和选择运算同时进行
如有若干投影和选择运算，并且它们都对同一个关系操作，则可以在扫描此关系的同时完成所有
的这些运算以避免重复扫描关系
３．把投影同其前或其后的双目运算结合起来
４．把某些选择同在它前面要执行的笛卡尔积结合起来成为一个连接运算
例：бＳｔｕｄｅｎｔ．Ｓｎｏ＝ＳＣ．Ｓｎｏ　（Ｓｔｕｄｅｎｔ×ＳＣ）
５．找出公共子表达式
·如果这种重复出现的子表达式的结果不是很大的关系并且从外存中读入这个关系比计算该子
表达式的时间少得多，则先计算一次公共子表达式并把结果写入中间文件是合算的
·当查询的是视图时，定义视图的表达式就是公共子表达式的情况
·遵循这些启发式规则，应用９．３．１的等价变换公式来优化关系表达式的算法。
算法：关系表达式的优化
输入：一个关系表达式的查询树
输出：优化的查询树
方法：
（１）利用等价变换规则４把形如σＦ１∧Ｆ２∧…∧Ｆｎ（Ｅ）变换为σＦ１（σＦ２（…（σＦｎ（Ｅ））…））。
（２）对每一个选择，利用等价变换规则４～９尽可能把它移到树的叶端。
（３）对每一个投影利用等价变换规则３，５，１０，１１中的一般形式尽可能把它移向树的叶端。
注意：
·等价变换规则３使一些投影消失
·规则５把一个投影分裂为两个，其中一个有可能被移向树的叶端
（４）利用等价变换规则３～５把选择和投影的串接合并成单个选择、单个投影或一个选择后跟一
个投影。使多个选择或投影能同时执行，或在一次扫描中全部完成
（５）把上述得到的语法树的内节点分组。每一双目运算（×，，∪，－）和它所有的直接祖先为
一组（这些直接祖先是（σ，π运算）。
·如果其后代直到叶子全是单目运算，则也将它们并入该组
·但当双目运算是笛卡尔积（×），而且后面不是与它组成等值连接的选择时，则不能把选择与这
个双目运算组成同一组，把这些单目运算单独分为一组
【例４】下面给出［例３］中 ＳＱＬ语句的代数优化示例。
—８２１—
（１）把ＳＱＬ语句转换成查询树，如下图所示
查询树
为了使用关系代数表达式的优化法，假设内部表示是关系代数语法树，则上面的查询树如下图所示。
（２）对查询树进行优化
利用规则４、６把选择σＳＣ．Ｃｎｏ＝‘２’移到叶端，查询树便转换成下图所示的优化的查询树。这就是
９．２．２节中Ｑ３的查询树表示
９．４　物理优化
·代数优化改变查询语句中操作的次序和组合，不涉及底层的存取路径
·对于一个查询语句有许多存取方案，它们的执行效率不同，仅仅进行代数优化是不够的
—９２１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·物理优化就是要选择高效合理的操作算法或存取路径，求得优化的查询计划
第二部分　考点试题解析
一、综合题
１．学生
"
课程数据库中包含了三个表。
学生表：Ｓｔｕｄｅｎｔ（Ｓｎｏ（学号＃），Ｓｎａｍｅ，Ｓｓｅｘ，Ｓａｇｅ）
学生选课表：ＳＣ（Ｓｎｏ，ｃｎｏ（课程号），ｓｃｏｒｅ）
求选修了２号课程的学生姓名。
假定学生
"
课程数据库中有１０００个学生记录，１００００个选课记录，其中选修２号课程的选修记录
为５０个。
系统可以用多种等价的关系代数表达式来完成这一查询。
１）给出用关系代数表示的上述查询三个查询表达式。（６分）
２）给出查询优化的一般准则。（６分）
３）画出最优的标准语法树。（８分）
２．学生———课程数据库中包含了三个表。（９分）
学生表：ｓｔｕｄｅｎｔ（ｓｎｏ（学号＃），ｓｎａｍｅ，ｓｓｅｘ，ｓａｇｅ）
选课表：ｓｃ（ｓｎｏ，ｃｎｏ（课程号），ｓｃｏｒｅ）
课表：ｃｏｕｒｓｅ（ｃｎｏ，ｃｏｕｒｓｅｎａｍｅ，ｔｉｍｅ）
对学生有如下的查询：ｓｅｌｅｃｔｃｎａｍｅｆｒｏｍｓｔｕｄｅｎｔ，ｃｏｕｒｓｅ，ｓｃｗｈｅｒｅｓｔｕｄｅｎｔ．ｓｎｏ＝ｓｃ．ｓｎｏａｎｄｓｃ．ｃｎｏ＝
ｃｏｕｒｓｅ．ｃｎｏａｎｄｓｔｕｄｅｎｔ．ｓｄｅｐｔ＝‘ＩＳ’；
此查询要求信息系学生选修了的所有课程名称。
１）试画出用关系代数表示的语法树（３分）
２）用关系代数表达式优化算法对原始语法树进行优化，画出优化后的标准语法树。（６分）【２００６
太原科技大学，２０１０沈阳农大】
—０３１—
第十章　数据库恢复技术
第一部分　知识点回顾
１０．１　事务的基本概念
１、事务（Ｔｒａｎｓａｃｔｉｏｎ）
·定义
　一个数据库操作序列
　一个不可分割的工作单位
　恢复和并发控制的基本单位
·事务和程序比较
　在关系数据库中，一个事务可以是一条或多条ＳＱＬ语句，也可以包含一个或多个程序。
　一个程序通常包含多个事务
２、事务的特性（ＡＣＩＤ特性）
（１）原子性：
·事务是数据库的逻辑工作单位
　事务中包括的诸操作要么都做，要么都不做
（２）一致性：
·事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态
　一致性状态：若数据库中只包含成功事务提交的结果
　不一致状态：若数据库中包含失败事务的结果
（３）隔离性
对并发执行而言：一个事务的执行不能被其他事务干扰
·一个事务内部的操作及使用的数据对其他并发事务是隔离的
·并发执行的各个事务之间不能互相干扰
（４）持续性
持续性也称永久性（Ｐｅｒｍａｎｅｎｃｅ）
·一个事务一旦提交，它对数据库中数据的改变就应该是永久性的。
·接下来的其他操作或故障不应该对其执行结果有任何影响。
１０．２　数据库恢复概述
·破坏事务ＡＣＩＤ特性的因素
　多个事务并行运行时，不同事务的操作交叉执行
—１３１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　事务在运行过程中被强行停止
·故障是不可避免的
　系统故障：计算机软、硬件故障
　人为故障：操作员的失误、恶意的破坏等。
·数据库的恢复
　把数据库从错误状态恢复到某一已知的正确状态（亦称为一致状态或完整状态）
·故障的影响
　运行事务非正常中断
　破坏数据库
·数据库管理系统对故障的对策
　ＤＢＭＳ提供恢复子系统
　保证故障发生后，能把数据库中的数据从错误状态恢复到某种逻辑一致的状态
　保证事务ＡＣＩＤ
·恢复技术是衡量系统优劣的重要指标
１０．３　故障的种类
·事务内部的故障
　有的是可以通过事务程序本身发现的
　有的是非预期的（溢出、由于死锁而撤销、违反限制）
·系统故障
·介质故障
·计算机病毒
系统故障
称为软故障，是指造成系统停止运转的任何事件，使得系统要重新启动。
·整个系统的正常运行突然被破坏
·所有正在运行的事务都非正常终止
·不破坏数据库
·内存中数据库缓冲区的信息全部丢失
系统故障的常见原因
·特定类型的硬件错误（如ＣＰＵ故障）
·操作系统故障
·ＤＢＭＳ代码错误
·系统断电
　系统故障的恢复
·发生系统故障时，事务未提交
　恢复策略：强行撤消（ＵＮＤＯ）所有未完成事务
—２３１—
·发生系统故障时，事务已提交，但缓冲区中的信息尚未完全写回到磁盘上。
　恢复策略：重做（ＲＥＤＯ）所有已提交的事务
·介质故障
　称为硬故障，指外存故障
　磁盘损坏 ；磁头碰撞；操作系统的某种潜在错误；瞬时强磁场干扰
·介质故障的恢复
　装入数据库发生介质故障前某个时刻的数据副本
　重做自转储结束时始的所有成功事务，将这些事务已提交的结果重新记入数据库
·计算机病毒
　一种人为的故障或破坏，是一些恶作剧者研制的一种计算机程序
·可以繁殖和传播
　危害
　破坏、盗窃系统中的数据
　破坏系统文件
１０．４　恢复的实现技术
·恢复操作的基本原理：冗余
利用存储在系统其它地方的冗余数据来重建数据库中已被破坏或不正确的那部分数据
·恢复机制涉及的关键问题
（１）如何建立冗余数据
　　数据转储（ｂａｃｋｕｐ）
　　登录日志文件（ｌｏｇｇｉｎｇ）
（２）如何利用这些冗余数据实施数据库恢复
１０．４．１　数据转储
１、什么是数据转储
·转储是指ＤＢＡ将整个数据库复制到磁带或另一个磁盘上保存起来的过程，备用的数据称为后
备副本或后援副本
·如何使用
　数据库遭到破坏后可以将后备副本重新装入
　重装后备副本只能将数据库恢复到转储时的状态
２、转储方法
（１）静态转储与动态转储
静态转储
·在系统中无运行事务时进行的转储操作
·转储开始时数据库处于一致性状态
—３３１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　以数据块为单位的日志文件
·以记录为单位的日志文件内容
　各个事务的开始标记（ＢＥＧＩＮＴＲＡＮＳＡＣＴＩＯＮ）
　各个事务的结束标记（ＣＯＭＭＩＴ或ＲＯＬＬＢＡＣＫ）
　各个事务的所有更新操作
　以上均作为日志文件中的一个日志记录 （ｌｏｇ　ｒｅｃｏｒｄ）
·以记录为单位的日志文件，每条日志记录的内容
　事务标识（标明是哪个事务）
　操作类型（插入、删除或修改）
　操作对象（记录内部标识）
　更新前数据的旧值（对插入操作而言，此项为空值）
　更新后数据的新值（对删除操作而言，此项为空值）
·以数据块为单位的日志文件，每条日志记录的内容
　事务标识（标明是那个事务）
　被更新的数据块
２、日志文件的作用
·进行事务故障恢复
·进行系统故障恢复
·协助后备副本进行介质故障恢复
与静态转储后备副本配合进行介质故障恢复
·静态转储的数据已是一致性的数据
·如果静态转储完成后，仍能定期转储日志文件，则在出现介质故障重装数据副本后，可以利用
这些日志文件副本对已完成的事务进行重做处理
·这样不必重新运行那些已完成的事务程序就可把数据库恢复到故障前某一时刻的正确状态
介质故障恢复
介质故障恢复：ＬＯＧＦＩＬＥ＋动态转储后备副本
·动态转储数据库：同时转储同一时点的日志文件
·后备副本与该日志文件结合起来才能将数据库恢复到一致性状态。
·利用这些日志文件副本进一步恢复事务，避免重新运行事务程序。
—５３１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　　　　　　　　　　 ＷＨＥＲＥＳＵＭ（Ｙ．ｔａｋｅ．ｃｒｅｄｉｔ）＞＝３０）
　　　　　　　　　　 ）
　　ＦＲＯＭｘＩＮＤｅｐａｒｔｍｅｎ；
【例１２－１－７】下面是一些表达式的例子，它们可以作为独立的查询，并且返回相应的结果。
　　（１）１９９７
／返回１９９７／
　　（２）ｎｉｌ
／返回ｎｉｌ／
　（３）ＮＯＴ（ｔｒｕｅ）
／返回ｆａｌｓｅ　／
　　（４）ｓｔｕｄｅｎｔｓ
／这是ｓｔｕｄｅｎｔ类型的外延，返回所有学生对象／
【例１２－１－８】为Ｐｅｒｓｏｎ类型创建一实例：
　　Ｐｅｒｓｏｎ（ｎａｍｅ：”ＺｈａｎｇＹｉ”，ｂｉｒｔｈｄａｔｅ：”０２／０３／１９８２”，ｓｅｘ：ｍａｌｅ）
／上式是个类型为Ｐｅｒｓｏｎ的对象表达式，括号中的参数供初始化对象的属性之用，如果提供的
参数不全，可用默认值／
ＯＤＬ／ＯＱＬ不是计算完备的语言。它虽然可以独立使用，但要用它开发应用程序，需要与程序设
计语言，例如ｃ＋＋，Ｓｍａｌｔａｌｋ等相结合。
１２．１．３　对象－关系数据库
１、概述
·１９９９年，ｓｑｌ１９９９（ＳＱＬ３）公布，他是继Ｓｑｌ＿９２后的ＳＱＬ标准，增加对象功能是其主要特征，被称
为ＯＲＤＢＭＳ。
·为了与ＳＱＬ＿９２及其前驱版本兼容，ＯＲＤＢＭＳ都保留了表的结构及其有关的语句 ，又定义了一
些面向对象的数据类型 ，最基本的是行类型（ｒｏｗｔｙｐｅ）。
２、行类型
行类型可定义如下：
ＣＲＥＡＴＥＲＯＷＴＹＰＥ＜ｒｏｗｔｙｐｅｎａｍｅ＞（＜ｃｏｍｐｏｎｅｎｔｄｅｃｌａｒａｔｉｏｎｓ＞）；
【例１２－１－９】定义行类型Ｐｅｒｓｏｎ＿ｔ和Ａｄｄｒｅｓｓ＿ｔ。
ＣＲＥＡＴＥＲＯＷＴＹＰＥＰｅｒｓｏｎ＿ｔ
　（ｎａｍｅ　　ＶＡＲＣＨＡＲ（８），
　ｓｅｘ　　ＣＨＡＲ（２），
　ｂｄａｔｅＤＡＴＥ，
　ａｄｄｒｅｓｓ　ＲＥＦ（Ａｄｄｒｅｓｓ＿ｔ））；
　　　　　 ＣＲＥＡＴＥＲＯＷＴＹＰＥＡｄｄｒｅｓｓ＿ｔ
　　　　　　（ｐｒｏｖｉｎｃｅ　　ＣＨＡＲ（６），
—２６１—
　　　　　　ｃｉｔｙ　　ＶＡＲＣＨＡＲ（１０），
　　　　　　ｓｔｒｅｅｔ　　ＶＡＲＣＨＡＲ（１０），
　　　　　　ｓｔｒｅｅｔ＿ｎｏ　　ＣＨＡＲ（４），
　　　　　　ａｐｔ＿ｎ０　　ＣＨＡＲ（６），
　　　　　　ｐｏｓｔｃｏｄｅ　　ＣＨＡＲ（６））；
行类型与表类型的区别
行类型与表有质的差别，举其大者有下列诸项：
·表中的行由主键的值来识别，而行类型的对象用系统生成的，惟一的ＯＩＤ来识别；
·表中的属性应遵守第一范式的约束，不能是元组、集合或其他非预定义的类型，而行类型不受
此约束，可以引用任何类型（包括预定义的和非预定义的）作为其分量；
·表通过连接运算才能引用其他元组中的属性，而行类型可以直接通过ＯＩＤ引用其他对象。
行类型数据通过继承定义
要定义学生类型Ｓｔｕｄｅｎｔ＿ｔ，可以继承 Ｐｅｒｓｏｎ＿ｔ中的分量，只须增补学号（ｓｎｏ）和入学日期（ｅｎｒｏｌ＿
ｄａｔｅ）两个分量，参见例１２－１－１０。
【例１２－１－１０】定义行类型Ｓｔｕｄｅｎｔ＿ｔ。
　　ＣＲＥＡＴＥＲＯＷＴＹＰＥＳｔｕｄｅｎｔ＿ｔＵＮＤＥＲＰｅｒｓｏｎ＿ｔ
　　（ｓｎｏＣＨＡＲＴ（７），
　　ｅｎｒｏｌ＿ｄａｔｅＤＡＴＥ）；
行类型同表一样，有四种系统预定义的隐含的操作，即插入对象（ＩＮＳＥＲＴ）、删除对象（ＤＥ
ＬＥＴＥ）、修改对象（ＵＰＤＡＴＥ）和查询（ＳＥＬＥＣＴ）。
·插入对象
如果插入对象，首先要构造对象。构造对象可用构造函数。对象构造函数的一般形式为：
　＜ｒｏｗｔｙｐｅｎａｍｅ＞（＜ｃｏｍｐｏｎｅｎｔｖａｌｕｅｓ＞）
【例１２－１－１１】在Ｐｅｒｓｏｎ＿ｔ中插入一对象。
设某人的地址对象可构造如下：Ａｄｄｒｅｓｓ＿ｔ（‘江苏’，‘南京’，‘珠江路’，‘１００’，‘２－３０１’，’
２１００１８’），则插人某人Ｐｅｒｓｏｎ＿ｔ对象可用下面的语句：
ＩＮＳＥＲＴＩＮＴＯＰｅｒｓｏｎ＿ｔ　ＶＡＬＵＥＳ（Ｐｅｒｓｏｎ＿ｔ（‘欧阳美林’，‘女’，１９８５－０６－０３，Ａｄｄｒｅｓｓ＿ｔ（‘江
苏’，‘南京’，‘珠江路’，‘１００’，‘２－３０１’，‘２１００１８’）））；
·删除对象
【例１２－１－１２】删除例１２－１－１１插入的对象。
　　ＤＥｌＥＴＥ
　　ＦＲＯＭＰｅｒｓｏｎ＿ｔ
　　ＷＨＥＲＥｎａｍｅ＝‘欧阳美林’；
执行此语句后，Ｐｅｒｓｏｎ＿ｔ和Ａｄｄｒｅｓｓ＿ｔ中的相应对象都被删去。但它们的ＯＩＤ不得重用。
·修改对象
【例１２－１－１３】设欧阳美林迁至珠江路２１号１—２，试修改数据库。
—３６１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
　　ＵＰＤＡＴＥＰｅｒｓｏｎ＿ｔ
　　ＳＥＴａｄｄｒｅｓｓ．ｓｔｒｅｅｔ＿ｎｏ＝‘２１’，ａｄｄｒｅｓｓ．ａｐｔ＿ｎｏ＝’１—２’
　　ＷＨＥＲＥｎａｍｅ＝‘欧阳美林’；
修改后，Ｐｅｒｓｏｎ＿ｔ和Ａｄｄｒｅｓｓ＿ｔ中被修改对象的ＯＩＤ不变。
·查询
查询用ＳＥＬＥＣＴ语句，下面举例说明。
【例１２－１－１４】　查询学生王义平的学号、入学时间、出生日期和住址的邮政编码。
　　ＳＥＬＥＣＴｓｎｏ，ｅｎｒｏｌ＿ｄａｔｅ，ｂｄａｔｅ，
　　　　　　　 ａｄｄｒｅｓｓ．Ｐｏｓｔｃｏｄｅ
　　ＦＲＯＭＳｔｕｄｅｎｔ＿ｔ
　　ＷＨＥＲＥｎａｍｅ＝‘王义平’；
【例 １２－１－１５】定义Ｐｅｒｓｏｎ＿ｔ，Ａｄｄｒｅｓｓ＿ｔ，ｓｔｕｄｅｎｔ＿ｔ所对应的表
①表ｐｅｒｓｏｎ的定义
　　ＣＲＥＡＴＥＴＡＢＬＥｐｅｒｓｏｎｏＦＴＹＰＥＰｅｒｓｏｎ＿ｔ
　　ＶＡＬＵＥＳＦＯＲＰｅｒｓｏｎ＿ｉｄＡＲＥＳＹＳＴＥＭＧＥＮＥＲＡＴＥＤ，
　　ＳＣＯＰＥＦＯＲａｄｄｒｅｓｓＩＳａｄｄｒ；
上述定义可以创建下面的表：
　　Ｐｅｒｓｏｎ
　　（ｎａｍｅ　　ＶＡＲＣＨＡＲ（８），
　　ｓｅｘ　　　ＣＨＡＲ（２），
　　ｂｄａｔｅ　　ＤＡＴＥ，
　　ａｄｄｒｅｓｓ　　ＲＥＦ（Ａｄｄｒｅｓｓ＿ｔ）ｓｃｏｐｅａｄｄｒ，
　　ｐｅｒｓｏｎ＿ｉｄ　ＲＥＦ（Ｐｅｒｓｏｎ＿ｔ）ｓｙｓｔｅｍｇｅｎｅｒａｔｅｄ）
②表ａｄｄｒ的定义
　　ＣＲＥＡＴＥＴＡＢＬＥａｄｄｒＯＦＴＹＰＥＡｄｄｒｅｓｓ＿ｔ
　　ＶＡＬＵＥＳＦＯＲＡｄｄｒ＿ｉｄＡＲＥＳＹＳＴＥＭＧＥＮＥＲＡＴＥＤ；
上述定义可以创建下面的表：
　　ａｄｄｒ
　　（ｐｒｏｖｉｎｃｅ　　ＣＨＡＲ（６），
　　ｃｉｔｙ　　ＶＡＲＣＨＡＲ（１０），
　　ｓｔｒｅｅｔ　ＶＡＲＣＨＡＲ（１０），
　　ｓｔｒｅｅｔ＿ｎｏ　　ＣＨＡＲ（４），
　　ａｐｔ＿ｎｏ　　ＣＨＡＲ（６），
　　ｐｏｓｔｃｏｄｅ　　ＣＨＡＲ（６），
　　ａｄｄｒ＿ｉｄ　　ＲＥＦ（Ａｄｄｒｅｓｓ＿ｔ）ｓｙｓｔｅｍｇｅｎｅｒａｔｅｄ）
③表ｓｔｕｄｅｎｌ的定义
—４６１—
　　ＣＲＥＡＴＥＴＡＢＬＥｓｔｕｄｅｎｔＯＦＴＹＰＥＳｔｕｄｅｎｔ＿ｔ
　　ＶＡＬＵＥＳＦＯＲＳｔｕｄｅｎｔ＿ｉｄＡＲＥＳＹＳＴＥＭＧＥＮＥＲＡＴＥＤ，
　　ＳＣＯＰＥＦＯＲａｄｄｒｅｓｓＩＳａｄｄｒ；
上述定义可以创建下面的表：
　　Ｓｔｕｄｅｎｔ
　　（ｎａｍｅ　ＶＡＲＣＨＡＲ（８），
　　ｓｅｘ　　ＣＨＡＲ（２），
　　ｂｄａｔｅ　　ＤＡＴＥ，
　　ａｄｄｒｅｓｓ　　ＲＥＦ（Ａｄｄｒｅｓｓ＿ｔ）ｓｃｏｐｅａｄｄｒ，
　　ｓｎｏ　　ＣＨＡＲ（７），
　　ｅｎｒｏ＿ｄａｔｅＤＡＴＥ，
　　ｓｔｕｄｅｎｔ＿ｉｄ　ＲＥＦ（Ｓｔｕｄｅｎｔ＿ｔ）ｓｙｓｔｅｍｇｅｎｅｒａｔｅｄ）
第２讲　空间数据库
一、引言
·在许多应用中，事物的空间关系往往成为其主要查询或处理的内容。这些应用有：天文、地理
信息系统（ＧｅｏｇｒａｐｈｉｃａｌＩｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍ，简称ＧＩＳ）、城市规划、管道和网络系统、交通图、大规模集成
电路版面设计、分子结构图、医学图片等
·面向这类应用的数据库系统必须在常规数据库系统的基础上，增加空间数据类型及其相关的
操作，提供空间索引以及面向查询应用的交互式图形用户界面。经过这样扩充的数据库系统称为空
间数据库系统
从数据管理角度来看，空间数据有下列３个特点：
１．数据量大、结构复杂、关系多样化
２．查询过程比较复杂
３．难以定义多维空间对象的空间次序
空间数据库系统是传统数据库系统的扩充，本章将介绍其主要的扩充部分。这些内容有：
·空间数据模型；
·空间索引；
·空间数据库系统的结构。
二、空间数据模型
１．空间数据类型
在ＧＩＳ中，空间对象可以抽象成下列３种基本空间数据类型 ：
（１）点（ＰＯＩＮＴ）。例如城市。点只表示其空间位置，不表示其范围（ｅｘｔｅｎｔ）。
（２）线（ＬＩＮＥ）。例如河流、道路、管道、航线、等高线、等降雨量线、通信或电力线路等。线不但表
—５６１—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
垂直分割可以通过关系运算“投影”来定义。
例如，有：
ＷＩＮＥ（ＹＥＡＲ，ＮＡＭＥ，ＰＲＯＤＵＣＥＲ，ＡＲＥＡ，ＣＯＵＮＴＲＹ）
和ＷＥＡＴＨＥＲ（ＹＥＡＲ，ＡＲＥＡ，ＣＯＵＮＴＲＹ，ＳＵＮ，ＲＡＩＮ）
对 ＷＥＡＴＨＥＲ可定义两个垂直分片
ＷＥＡＴＨＥＲ－Ｒ：∏ＹＥＡＲ，ＡＲＥＡ，ＣＯＵＮＴＲＹ，ＲＡＩＮ（ＷＥＡＴＨＥＲ）
ＷＥＡＴＨＥＲ－Ｓ：∏ＹＥＡＲ，ＡＲＥＡ，ＣＯＵＮＴＲＹ，ＳＵＮ（ＷＥＡＴＨＥＲ）
６．混合分割
可把水平分割和垂直分割这两种方法结合起来使用，产生混合式数据分片。
例如：定义由法国生产的葡萄酒的名称和区域
ＷＩＮＥ－Ｆ：∏ＮＡＭＥ，ＡＲＥＡ（σｃｏｕｎｔｒｙ＝Ｆｒａｎｃｅ（ＷＩＮＥ））
３．４　分布式数据库的设计方法
１．ＤＤＢ设计
（１）数据分片的逻辑设计：从逻辑层面上决定数据分割的原则和方法，并加以实现。
（２）数据分片的位置设计：决定数据分片的物理存放站点，并应该考虑副本的使用及其相关
问题。
（３）ＬＤＢ设计 与集中式数据库相同
完全指派方法对应的处理调度举例
给定一个系统环境，有２个物理场所ｐｈｓ１，ｐｈｓ２和３个虚拟场所ｖｓ１，ｖｓ２，ｖｓ３。根据应用特点设计
了３个数据分片 Ｆ１，Ｆ２，Ｆ３。他们被首先放在虚拟场所 ＶＳ１，ＶＳ２，ＶＳ３中，涉及的操作有 Ｏ１，Ｏ２，Ｏ３，
Ｏ４，Ｏ５。具体定义为ＶＳ１＝＜｛Ｆ１｝，｛Ｏ１，Ｏ４｝＞，ＶＳ２＝＜｛Ｆ２｝，｛Ｏ２，Ｏ３｝＞，ＶＳ３＝＜｛Ｆ３｝，｛Ｏ５｝
＞。包括３个主要事务：
·事物１描述为：在ＶＳ１上做Ｏ１，把结果传到ＶＳ２；在ＶＳ２上做Ｏ２，把结果传到ＰＨＳ１。
·事物２描述为：在ＰＨＳ１上做Ｏ４，把结果传到ＶＳ３。
·事物３描述为：在ＶＳ３上做Ｏ５，把结果传到ＰＨＳ２。则构造处理调度图如下：
未指派下的处理调度示意图
注：边上的数字（ｉ，ｆ，ｄ）分别表示事务、频率和数据传输量
如何指派以减少传输费用呢？可有８种指派。指派１的费用计算如下：
—６０２—
１０×２００＋１０×８００＋６×８００＝１４８００
指派２
６×８００＝４８００
２．分布式数据库设计的原则
对用户来说，分布式系统看起来应当就像非分布式系统一样。
·本地自主性　
分布式系统中节点应当是自主的，具体含义为：本地数据是本地占有且本地管理的。本地操作保
持其纯本地性。所有在指定结点上的操作都是由该结点控制的。
·对中心结点没有依赖性
系统中任何结点对于系统的运作都不是必须的，即系统中不应该存在一台中心服务器来提供诸
如事务管理，死锁检测，查询优化和全局系统目录之类的服务。
·连续操作
理想状况下，进行诸如以下情况的操作应该不需要安排关闭系统：
在系统中添加或删除节点；一个或多个节点中动态创建或删除分段。
·位置独立
位置独立等价于位置透明，用户可以访问所有的数据，就像是存储在用户结点上一样。
·分段独立性
用户访问数据和数据分段无关
—７０２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
Ｄａｔａｉｄ－ｄ方法是意大利米兰工业大学提出的，它把ＤＤＢ设计划分成如下五个阶段：
１２．６　并行数据库
·并行数据库系统概念
·硬件体系结构
·数据分片技术
·并行性种类
·并行连接
·并行排序
·并行聚合
·为什么并行存取数据？
数据密集型（ｄａｔａ－ｉｎｔｅｎｓｉｖｅ）应用，如决策支持系统、在线处理分析（ＯＬＡＰ）、数据仓库（ｄａｔａｗａｒｅ
ｈｏｕｓｅ）、知识和数据发现（ＫＤＤ）等
·并行数据库系统设计的研究问题：并行Ｉ／Ｏ、并行查询优化、并行性数据库操作等
·定义：以商品化处理机和磁盘为基础的并行系统结构 所支持的数据库系统称为并行数据库系
统
·并行数据库系统的评价参数：
①ｓｐｅｅｄｕｐ：对于某个固定的计算任务，１倍计算资源系统所完成的时间与 ｎ倍计算资源所完成时
间之比；理想的ｓｐｅｅｄｕｐ曲线为线性加速
②ｓｃａｌｅｕｐ：１倍计算任务在１倍计算资源系统所完成的时间与ｎ倍计算任务在ｎ倍计算资源系统
所完成时间之比，理想的ｓｃａｌｅｕｐ曲线为ｙ＝１
—９０２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·影响并行数据库系统性能的三个因素
①启动代价（ｓｔａｒｔｕｐ）：启动一个并行操作的代价
②干扰（ｉｎｔｅｒｆｅｒｅｎｃｅ）：共享资源之间的相互干扰
③倾斜（ｓｋｅｗ）：一个操作或一个查询可以被分解为若干个可并行执行的子操作或子查询，执行时
间最长的子操作或子查询的响应时间决定该并行操作的响应时间
·实现并行的２种基本技术
①管道
一个操作的输出是另一个操作的输入
②分片
多台机器在不同的数据分片上做相同的事情
·共享内存（ＳＭ，ＳＥ）
①在ＳＭ体系结构中，处理机和磁盘可以通过一个总线来访问一个公共的内存，即所有资源均是
共享的
②处理机间通讯可通过共享内存来进行，比通过通讯机制进行通讯要快得多
—０１２—
③３２或６４节点以内并行算法ｓｐｅｅｄｕｐ很好
④超过３２或６４节点以后ｓｃａｌｅｕｐ很坏，因为所有资源均是共享的，总线或互联网络就变成了一个
瓶颈。超过这个点后增加处理机节点个数没有任何用处，因为处理机不得不化更过的时间来等待总
线并访问内存和磁盘
·共享磁盘（ＳＤ）
①所有处理可以直接通过总线或互联访问磁盘，但每个处理机有自己的私有内存
②由于每个处理机有自己的内存，存储器的总线不会成为瓶颈
③提供一定的容错能力，若某处理机或它的内存出问题了，其它处理机可以接管它的任务，因为
数据库驻留在所有处理机可以直接访问的磁盘上。磁盘子系统本身的容错问题可以通过使用 ＲＡＩＤ
来解决
④尽管不存在内存共享，共享磁盘仍然成为 ＳＤ系统可扩展性问题的障碍，共享的磁盘子系统的
互联成为性能可扩展的瓶颈。ＳＤ不能解决可扩展性问题，仅仅缓解了ＳＭ系统的可扩展性问题
无共享资源体系结构（ＳＮ）
①每个节点由一个处理机、内存和一个或多个磁盘构成
②处理机之间通过高速互联进行通讯
③ＳＮ结构克服了ＳＤ结构必须通过一个总线进行 Ｉ／Ｏ操作的缺点，仅仅是对非局部磁盘的存取
才通过网络来进行。
④ＳＮ体系结构具有很好的可扩展性，有的甚至可以扩展到成千上万个节点
⑤主要缺点是通讯代价和非局部磁盘的存取代价比较昂贵
—１１２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·层次体系结构
①结合了 ＳＮ、ＳＭ、ＳＤ体系结构的特点，在高层看是一个 ＳＮ体系结构，但每个节点是由一个 ＳＭ
体系结构所构成的。当然每个节点也可是一个ＳＤ体系结构
②在这种体系结构中代码的编写是非常复杂的，降低编程复杂度的一种很好的办法是分布式虚
拟存储器体系结构
·循环划分（Ｒｏｕｎｄ－ｒｏｂｉｎ）：对于关系ｒ中的第ｉ个元组分配到第（ｉｍｏｄｎ）个磁盘上。该方法保
证了每个磁盘上具有相同数目的元组数。
·哈希分片：关系ｒ中的一个或多个属性作为分片属性，对于ｒ中的元组ｒｔ，该元组被分配到第 ｈ
（ｒｔ）（０．．ｎ－１）个磁盘上。
·范围分片：对于关系ｒ，分片属性为Ａ，则在Ａ上可以定义一个分片向量：［ｖ０，ｖ１，…，ｖｎ－２］。
分片过程如下：若ｔ［Ａ］〈ｖ０，则ｔ被分配给第０个磁盘，若ｔ［Ａ］３ｖｎ－２，ｔ分配给第ｎ－１个磁盘，若ｖｉ
—２１２—
￡ｔ［Ａ］＜ｖｉ＋１，则ｔ被分配给第ｉ＋１个磁盘。
分片技术对比
通过三种操作来比较
·扫描整个关系
·点查询：如ｅｍｐｌｏｙｅｅ－ｎａｍｅ＝”Ｃａｍｐｂｅｌ”
·范围查询：１０００＜ｓａｌａｒｙ＜２００００
（１）Ｒｏｕｎｄ－ｒｏｂｉｎ
·对于扫描操作非常好
·但对于点操作和范围操作却不是很好
（２）哈希分片
·对于基于分片属性的点操作是最好的
·如果哈希函数能够保持随即性和均匀性，则哈希分片也能很好的处理扫描操作
·但哈希分片方法不能很好地支持范围查询和基于非分片属性的点查询。
（３）范围分片
·能够很好地支持基于分片属性的点查询和范围查询。但这种支持既具有优点，也具有缺点。
优点是：当一个范围查询只涉及到某几个磁盘时，该查询不必向其他磁盘发出查询请求，这样其
他的磁盘可以响应其他的查询请求，提高了系统的吞吐量；
缺点是：当在某几个磁盘上要存取大量的元组时，这就造成Ｉ／Ｏ成为瓶颈，造成执行倾斜，从而使
得该查询的响应时间过长。
·如果不产生数据倾斜，范围分片能很好地支持扫描操作
（４）除了ｒｏｕｎｄ－ｒｏｂｉｎ分片处理以外，其他两种分片方法均可能造成倾斜问题。倾斜的分类：
·属性值倾斜：属性值倾斜指的是很多元组在分片属性值上具有相同的元组，这必将导致倾斜。
无论采用范围分片还是哈希分片，属性值倾斜都会导致分片倾斜。
·分片倾斜：分片倾斜指的是在每个片段中的元组个数不同，即使不存在属性值倾斜问题也可能
出现分片倾斜问题。
并行粒度：事物间并行，事务内并行
（１）操作内并行性
多台机器同时执行某个操作（分片技术）
—３１２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
（２）操作间并行性
多个操作并发地运行在多台机器上（管道技术）
（３）查询间并行性
不同的查询运行在不同的机器上
·事物间（操作间）并行只能提高系统的吞吐率，不能减少事务的响应时间。故主要讨论事务内
并行。
并行算法
５．１　分片连接
（１）通过范围分片（范围分片向量）或哈希分片方法（哈希函数）将ｒ分片为ｎ个片段，ｒ－＞ｒ０，ｒ１，
…，ｒｎ－１；
（２）通过范围分片或哈希分片方法将ｓ分片为ｎ个片段，ｓ－＞ｓ０，ｓ１，…，ｓｎ－１；
（３）在处理机ｐｉ上做子连接操作：ｒｉ∞ｓｉ
仅适合于等连接操作
（１）可使用任何分片方法（包括ｒｏｕｎｄ－ｒｏｂｉｎ）来将ｒ分为ｎ片；
（２）将关系ｓ复制到所有处理机上；
（３）处理机ｐｉ执行子连接操作ｒｉ∞ｓ。
适合任何形式的连接操作
（１）将关系ｒ分片为ｍ１片：ｒ－＞ｒ０，ｒ１，…，ｒｍ１－１
（２）将关系ｓ分片为ｍ２片：ｓ－＞ｓ０，ｓ１，…，ｓｍ１－１
（３）ｎ＝ｍ１ｍ２
（４）将分片ｒｉ发送到处理机Ｐｉ，０，Ｐｉ，１，…，Ｐｉ，ｍ２－１
（５）将分片ｓｉ发送到处理机Ｐ０，ｉ，Ｐ１，ｉ，…，Ｐｍｉ－１，ｉ
（６）处理机Ｐｉ，ｊ做子连接ｒｉ∞ｓｉ
适合任何形式的连接操作
—４１２—
（１）分片阶段
·通过范围分片（范围分片向量）或哈希分片方法（哈希函数）将ｒ分片为ｎ个片段
ｒ－＞ｒ０，ｒ１，…，ｒｎ－１
·通过范围分片或哈希分片方法将ｓ分片为ｎ个片段
ｓ－＞ｓ０，ｓ１，…，ｓｎ－１
（２）哈希表建立阶段
在每个树立机ｐｉ上，用ｒｉ来建立哈希表，使用不同于分片哈希函数的哈希函数
（３）匹配阶段
在每个树立机ｐｉ上，用ｓｉ来匹配哈希表
并行Ｇｒａｃｅ哈希连接、并行Ｈｙｂｒｉｄ哈希连接比较复杂
·假定被排序的关系被分放在ｎ个磁盘上，可以采用两种方法来进行排序
（１）并行范围分片排序
（２）并行外部排序
·假定用ｍ个处理机来排序具有ｎ个分片的关系，ｎ＜ｍ
（１）使用一个范围分片策略来重分片被排序的关系，使得在范围 ｉ上的的元组被发送给处理机
Ｐｉ，并将新的分片临时保存在磁盘Ｄｉ上。该步是并行执行的，有Ｉ／Ｏ开销和网络通讯开销
（２）处理机Ｐｉ排序存储在磁盘Ｄｉ上的分片Ｒｉ，
（３）合并操作：由于使用的是范围分片，合并操作相当简单，若 ｉ＜ｊ，则处理机 Ｐｉ上的元祖关键字
值小于处理机Ｐｊ上的元组关键字值
（１）局部排序阶段
·每个处理机ｐｉ外部排序存储在磁盘Ｄｉ上的数据，该步是并行执行的
（２）合并每个处理机上的局部排序结果：
—５１２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析
·每个处理机上排序后的分片进一步被范围分片到ｍ个处理机上，这些元组以排序序来发送
·每个处理机当收到来自其他处理机上的元组时进行合并操作
·某个处理机最后合并所有处理机上的合并结果，这个合并非常简单
集中式二阶段并行聚合算法
层次合并的并行聚合算法
两阶段并行聚合算法
再分布并行聚合算法
·局部聚合阶段
它是在各个节点上进行一个集中式聚合操作
·集中合并阶段
各个局部聚合结果都发送到一个中央节点（称为协调者）进行最后的全局合并并生成最终的全局
聚合结果
·优点
当ＧｒｏｕｐＢｙ子句的选择率比较小的时候，由于各个局部聚合结果的聚合组数较少，这样就减少了
算法的通信开销，从而提高了算法的性能
·缺点
但是随着ＧｒｏｕｐＢｙ子句选择率的不断增加，通信开销也将随之增加，而且由于局部聚合的聚合组
数的增大，中央协调者的工作负载也就越来越重，并最终可能成为并行算法的性能瓶颈
·局部聚合阶段
与集中式二阶段并行聚合算法相类似
·层次合并阶段
与集中式二阶段并行聚合算法不同，不是将各个节点的聚合结果发送到一个中央协调者，而是分
层次并行地进行部分聚合结果的合并，并得到中间合并结果，这些中间结果可能被进一步并行地合并
为新的中间结果或者合并为一个全局聚合结果
该算法在性能上作了改进，减轻了合并节点的工作负担，但它并不能最终解决性能瓶颈问题，因
为当ＧｒｏｕｐＢｙ子句的选择率足够大时，层次合并阶段亦会成为该算法的性能瓶颈，只是该算法性能瓶
颈的出现比集中式二阶段并行聚合算法来得晚些
·局部聚合阶段
在这个阶段各个局部节点在各自的节点上进行集中式的聚合操作，并将局部聚合结果通过选择
一个哈希函数作用到ＧｒｏｕｐＢｙ属性上将局部聚合结果散列到各个节点上
·全局聚合阶段
这个阶段主要是合并被散列到该节点上的局部聚合结果
·由于对局部聚合结果进行了重新散列，所以全局聚合阶段的聚合结果不需要进行合并，这样全
局聚合阶段是在各个节点上并行进行的，避免了前两种算法的性能瓶颈问题
·再分布并行聚合算法
基本思想：先将ｒ的每个子分片通过选择一个哈希函数并作用到ＧｒｏｕｐＢｙ属性值上，将这些元组
—６１２—
再分布到不同的节点上。
在每个节点上有一个聚合操作，该操作接收再分布操作符发送过来的元组并进行聚合操作
由于对来自于聚合操作组的输入元组直接进行了散列，所以各个节点的聚合操作结果不需要进
行合并。
（ａ）再分布并行聚合算法散列的是各个局部分片或聚合操作的输入，而两阶段并行聚合算法散列
的是各个局部聚合结果，也就是说前者在网络中传输的是子分片中的元组，而后者传输的是局部聚合
的结果元组，因而后者的网络通信开销较少；
（ｂ）两阶段并行聚合算法有两级聚合操作，即局部聚合操作和全局聚合操作，而再分布并行聚合
算法只有一级聚合操作；
（ｃ）当ＧｒｏｕｐＢｙ子句的选择率很低时，使得再分布并行算法在初始散列之后，由于分组数少可能
造成有些处理机没分配到任务而处于空闲，而使处理机的利用率较低；
（ｄ）当ＧｒｏｕｐＢｙ子句的选择率高时，两阶段并行算法性能不如再分布算法。
因为两阶段并行聚合算法在进行局部聚合时，对于同一分组属性在不同的节点内存中都可能有
其局部聚合结果的入口；而再分布并行聚合算法进行散列后，每个分组属性在系统中只存在一个聚合
结果。所以两阶段并行聚合算法对内存总的占用量较大，使某些节点发生内存不足而需要进行额外
的Ｉ／Ｏ操作，尤其随ＧｒｏｕｐＢｙ的选择率的增大，Ｉ／Ｏ操作也增加，两阶段并行聚合算法性能也迅速下
降。而再分布并行聚合算法不需要局部聚合操作，也不会由于内存不足而进行Ｉ／Ｏ操作，因此其性能
将越来越好。因此当选择率超过某一值后，再分布并行聚合算法的性能要优于两阶段并行聚合算法。
—７１２—
王珊、萨师煊《数据库系统概论》考研要点强化及真题解析