上一篇博客:https://blog.csdn/weixin_44940488/article/details/119349219
说明:
一、数据库分析与设计
- 在数据库应用系统分析与设计中,数据库应用系统的数据处理需求可以表示为事务规范。事务规范包括了事务名称、事务描述、事务所访问的数据项、事务用户。
- 数据库应用系统规划与分析阶段的内容包括:
- 任务陈述(可行性分析:技术、经济、操作、开发方案的选择);
- 确定任务目标;
- 确定系统范围和边界;
- 确定用户视图。
- 数据库应用系统(DBAS)的实施阶段主要包括以下工作:
- 创建数据库;
- 装载数据;
- 编写与调试应用程序;
- 数据库试运行。
- 数据库应用系统实现与部署工作包括:
- 建立数据库结构;
- 数据加载;
- 事务和应用程序的编码及测试;
- 系统集成、测试及运行;
- 系统部署。
- 数据库物理设计内容包括:
- 数据库逻辑模式描述;
- 文件组织与存取设计;
- 数据分布设计:数据分布设计的任务是按照实际情况:将各种数据合理安排在不同存储介质中;将各种数据通过水平划分或垂直划分,分布存储在各局部数据库中,以提高数据访问效率和数据可靠性;合理调整关系模式的规范化程度。注意,"合理调整"规范化。
- 确定系统配置;
- 物理模式评估。
- 数据安全设计主要有五个方面:
- 安全性保护(防止非法用户对数据库非法的使用,其中一种主要方式即是用户权限设计);
- 完整性保护;
- 并发控制;
- 数据库的备份与恢复;
- 数据加密传输。
- 数据库应用系统优化内容:创建新的索引、模式调整。
- 数据库应用系统日常维护内容:备份与恢复、完整性维护、安全性维护、存储空间管理和并发控制。
- 数据库应用系统升级工作内容:改变数据库应用系统体系结构、升级DBMS版本、修改程序以适应新需求。
- 需求分析建模方法: UML、 DFD、 IDEFO。
- DFD方法由四种基本元素组成:数据流、处理、数据存储和外部项。
- IDEFO需求建模方法,描述功能活动示意图中矩形框代表功能动,写在矩形框内的动词短语描述功能活动的名称,活动的编号按照要求写在矩形框右下角指定的位置。左边的输入箭头表示完成活动需要的数据;矩形框上方的控制箭头描述了影响这个活动执行的事件或约束条件;右边的输出箭头说明由活动产生的结果及信息,下方进入的机制箭头表示实施该活动的物理手段或完成活动需要的资源(计算机系统、人或组织)。
- IDEFIX侧重分析、抽象和概括应用领域中的数据需求,被称为数据建模方法。在IDEFIX中一个非确定联系又称为多对多关系或m:n联系。
- 在IDEFIX建模方法中,两个实体集之间的多对多联系可以通过引入第三个实体集转化为两个一对多联系,则这两个一对多联系属于标定型联系。
- 如果子女实体集中的每一个实例都能被唯一地确认而无须了解与之相联系的双亲实体集的实例,该联系就被称为"非标定型联系”,使用一条虚线进行连接,用实心圆点表示联系的基数是n(一对多)。
- 在IDEF1X建模方法中,不会产生从属实体集的是非标定型联系。
- 数据库物理设计阶段,将根据数据库中存储的数据量、用户对数据库的使用要求和使用方式,选择数据存储方案(如对表进行分区或者拆分/合并表)以加快数据检索速度(如建立索引)。减少了操作,检索速度相应的就会提高。
- 关系模式的设计、规范化处理属于数据库逻辑结构设计的内容。
- 对关系模式进行去规范化处理属于数据库物理结构设计的内容。
- 为减少表连接操作而将两个表合并为一个表,这属于数据库的物理结构设计(调整)。
- 设置事务执行时的隔离性级别,该任务属于数据库应用系统设计步骤中的物理设计。
- 从功能角度数据库应用系统可以划分为四个层次来实现:
- 表示层:负责用户交互,用于显示数据和接收用户输入的数据。(一般为Windows应用程序或Web应用程序)。
- 业务逻辑层:梳理DBAS各项业务活动,将其表示为各种系统构件。核心业务逻辑在本层实现。是表示层和数据访问层之间的桥梁,主要负责数据的传递和处理。
- 数据访问层:使用事件进行信息交换,负责与DBMS系统进行交互,提取或存入应用系统所需的数据。数据库应用系统的数据访问层的主要任务是进行事务设计。事务概要设计内容包括:事务名称、事务所访问的关系表及关系属性、事务处理逻辑、事务用户(指使用、启动、调用该事务的软件模块或系统)。
- 数据持久层:负责保存和管理应用系统数据,而数据的完整性维护属于数据持久层功能中的数据管理的内容。根据事务-基本表交叉引用矩阵来调整数据文件组织结构,这一任务涉及数据持久层。
- 事务中为了降低死锁的发生,通常考虑以下法则:
- 按同一顺序访问资源;避免事务中的用户交互;
- 采用小事务模式,尽量缩短事务的长度,
- 减少占有锁的时间;
- 尽量使用记录级别的锁(行锁),少使用表级别的锁;
- 使用绑定连接,使同一应用程序所打开的两个或多个连接可以相互合作。
- 多个小事务合并成大事务,会增加占有锁的时间,可能会造成大量阻塞事务,甚至会产生死锁。
- 事务的隔离性是指多个并发事务同时访问一个数据库时,一个事物不应被另一个事物所干扰,即保证并发读取数据的正确性,降低发生数据不一致的可能性。
- 降低事务隔离级别可以提高事务的吞吐量,提高活锁的可能性,降低发生死锁、发生阻塞的可能性。
- 关键字unique表示唯一索引,clustered表示聚集索引,所以idx1既是唯一索引,也是聚集索引。
- 在数据流图中,一个处理至少有一个输入流和一个输出流。
- 关系模式计算:关系模式个数 = 实体集数+多对多关系数。
- 考虑到表中数据规模有可能很大,决定将表改为分区表,这一调整操作涉及到数据库的物理结构。
- 完整性约束条件的作用对象分为列、元组和关系三种级别,其中对列的约束主要指对其值类型、范围、精度、排序等的约束条件。对元组的约束主要指对记录中各个属性之间的联系的约束条件。对关系的约束是指对若干纪录间、关系集合上以及关系之间联系的约束条件。
- 在数据文件的非主属性上建立的索引称为辅索引。
- 论证是否具备数据库应用系统开发所需的人力资源,这属于数据库应用系统的操作可行性分析。
- 在数据库应用系统生命周期中,成本估算属于可行性分析中的经济可行性,是项目规划中的一个环节。
- 在数据库应用系统生命周期中,根据软件开发模型,分解和定义项目所包括的任务和活动,属于项目规划。
- 需求分析具体包括数据需求分析、功能需求分析、性能需求分析、其他需求分析(数据存储需求分析、安全性需求分析、备份和恢复需求分析)。
- 允许并发访问的最大用户数,是指在保证单个用户查询相应时间的前提下,系统最多允许多少用户同时访问数据库。系统性能越强,允许的用户数量就越多,这属于性能需求分析。
- 业务逻辑层概要设计:
- 一个构件或模块只负责完成一项任务,也就是单一责任原则。
- 各个构件均应具有独立的功能,并最大限度地减少与其他构件功能重叠。
- 构件之间的接口应尽量简单明确。
- 如果两个构件间的关系比较复杂,应考虑进一步进行模块划分。
- 如果构件过于复杂,可以考虑将其细分。
- 性能需求分析——DBAS的性能指标主要包括:数据操作响应时间、系统吞吐量、允许并发访问的最大用户数、每TPS代价值。
二、UML与数据库应用系统
- UML用例模型由用例图组成,用例图由系统、角色、用例三种模型元素及其之间的关系组成。椭圆表示用例,位于系统边界内部。
- 通信图和顺序图都是交互图,从不同的侧面描述系统的动态结构。顺序图强调的是时间,通信图强调的是空间。
- 在UML中,用类图来描述系统的静态结构,而用顺序图和通信图来表示系统的动态结构。
- 状态图中只能有一个起始状态,可以有多个结束状态。
- 包图可以表达系统中不同的元素彼此间的关系。
- 对象图、状态机图、时间图均是微观设计的表达方法,包图用于宏观设计。
- 元元模型层组成了UML的最基本的元素"事物",代表要定义的所有事物。
- 用例用于描述从系统用户的角度来观察,系统应该具有哪些功能,帮助分析人员理解系统的行为。用例是需求搜索及整理的工具,主要应用在项目开发的需求分析阶段。用例之间包括扩展、使用、组合三种关系。
- 角色是与系统进行交互的外部实体,可以是系统用户也可以是其他系统或者硬件设备。
- 系统是在边界线以内的区域(即用例的活动区域)抽象地表示能够实现的所有基本功能。
- 一个角色可以执行多个用例,反过来,一个用例也可以被多个角色使用。
- 根据事务-基本表交叉引用矩阵可以确定哪些事务对哪些表列执行了何种操作,基于该矩阵可以帮助数据库设计人员建立合适的索引。
- 数据库安全性保护的主要保护方式有用户身份鉴别、权限控制、视图机制。
三、高级查询
四、数据库后台编程技术
- 每当对游标执行一次FETCH语句,系统都会自动对@@FETCH-STATUS赋一次值。
- FETCH NEXT表示先将游标当前行指针移动到下一行,并提取所指向的行数据。
- 存储过程,实际上是存储在数据库中供所有用户程序调用的子程序。
- 存储过程是存储在数据库服务器端的可以被调用执行的代码。
- 存储过程可以接受多个输入参数,也可以接受多个输出参数,参数类型随意。存储过程的返回结果可以是一个集合。
- 在调用存储过程时,只需要声明参数的类型,不能指明参数为输出参数。只有再执行时才能指明参数为输出参数。
- 存储过程的好处是允许模块化程序设计、改善性能、减少网络流量、增强应用程序的安全性。
- 触发器通常用于保证业务规则和数据完整性。
- 在一个表上针对同一个数据操作只能定义一个前触发器。
- for或after指的是后触发器,instead of是前触发器。insert指的是引发触发器执行的操作是插入操作。
- 触发器是在对表中数据进行UPDATE、INSERT、DELETE操作时自动触发的。
- 数据库创建后可以手工缩小数据文件和日志文件的空间。
- 角色分为服务器级角色和数据库级角色。db_datawriter角色属于数据库级角色,具有插入、删除和更改数据库中所有用户数据的权限。
五、数据库及数据库对象
- model数据库用作SQL Server实例上创建的所有数据库的模板。对model数据库进行的修改(如数据库大小、排序规则、恢复模式和其他数据库选项)将应用于以后创建的所有用户数据库,当用户创建一个数据库时,系统自动将model数据库中的全部内容复制到新建数据库中。
- 数据库创建后,允许自动或手动扩大数据文件和日志文件的空间。
- 数据库文件,用户可以自行指定数据文件和日志文件的存放位置。数据库所包含的文件与文件存储位置信息均保存在主要数据文件中。一个文件组中的数据文件可以存放在不同磁盘上。
- 数据文件分为主要数据文件(每个数据库有且只有一个)、次要数据文件(可无可有,个数无限制)
- 每个数据库必须至少有一个事务日志文件,也可以有多个事务日志文件。
- 日志文件不包括在文件组内,日志文件和数据文件是分开管理的。一个文件不能有多个文件组。如果文件组中有多个文件,则它们在所有文件被填满前不会自动增长,而填满后这些文件会循环增长。
- tempdb是临时数据库,用于保存临时对象或中间结果集,并为数据的排序等操作提供一个临时工作空间。每次启动SQL Server时都会重新创建tempdb数据库。
- 架构(Schema,也称为模式)是数据库下的一个逻辑命名空间,可以存放表、视图等数据库对象。一个数据库可以包含一个或多个架构,架构由特定的授权用户所拥有;在同一个数据库中,架构名必须唯一;架构名可以是显示的,也可以由DBMS提供默认名。
- 唯一索引不允许两行具有相同的索引键值。
- 唯一索引的作用是保证索引键值的不重复。在多列唯一索引的情况下,可以确保索引列中每个值的组合都是唯一的。唯一索引和非聚集索引之间没有限定关系。
- 聚集索引键值的逻辑顺序决定表中对应行的物理顺序。一个表或视图只允许同时有一个聚集索引,以及多个非聚焦索引。
- 如果数据文件中的数据记录的排列顺序与索引文件中索引项的排列顺序一致,那么该索引文件就成为聚集索引。
- 非聚集索引,数据行的物理排序独立于索引排序。
- 分离数据库时需要停用被分离的数据库,但是不需要停用SQL Server服务。正在被用户访问的数据库不能被分离。
- 分区表是将表中的数据按水平方式划分成不同的子集,这些数据子集存储在数据库的一个或多个文件组中。分区表是从物理上将一个大表分成几个小表,但从逻辑上来看还是一个大表。对于用户而言,所面对的仍然是一个大表,用户只要对大表进行操作就可以了,数据库管理系统会自动对小表进行操作。
六、安全管理
- 因在U1后面缺少WITH GRANT OPTION语句,U1无权将SELECT权限转授予其他角色或用户。
- guest是SQL Server中一个特殊的数据库用户。
- CRANT UPDATE ON TI TO U1语句的作用是用户U1具有对表11各列数据进行修改的权利,在SQL Server中,拥有UPDATE权限的用户并不意味着一定拥有SELECT权限。
- 角色是一组具有相同权限的用户集合。用户定义的角色属于数据库一级的角色,用户定义的角色的成员可以是数据库的用户,也可以是用户定义的角色。只要权限没有被拒绝过,则角色中成员的权限就是其所在角色的权限加上他们自己所具有的权限。
- 授权语句格式是"GRANT 可以授予的权限 ON 表名 TO 用户名 ",授权时一个语句中可以授予多个权限,也可以一次授予一个权限。
- Oracle的安全控制机制可分为数据库级的安全控制、表级、行级和列级的安全控制。
- SQL Server 2008的身份验证模式有"windows身份验证模式"和"混合身份验证模式"两种。混合身份验证模式是指SQL Server允许Windows授权用户和SQL授权用户登录到SQL Server数据库服务器。
- 除guest用户外,所有的数据库用户都必须对应一个登录账户。
- 一个登录账户可以对应多个数据库用户。
- 授权是将合法访问数据库或数据库对象的权限授予用户的过程(即做任何操作,都需要有相应的授权)。
- 数据库用户一般都来自于服务器上已有的登录账户,让登录用户成为数据库用户的操作称为映射。
- db_datereader角色是数据库级角色,具有查询数据库中所有用户数据的权限。
- db_datawriter角色是固定数据库角色之一,具有插入、删除和更改数据库中所有用户数据的权限。
- 系统管理员在数据库服务器上具有全部的权限。每个数据库管理系统在安装好之后都有自己默认的系统管理员,SQL Server 2008默认的系统管理员是"sa"。在安装好之后也可以授予其他用户具有系统管理员的权限。
七、运行维护与优化
- SQL Server提供了一套综合的工具,用于监视SQLServer中的事件和优化物理数据库的设计。
- 数据库重组是指按照系统设计要求对数据库存储空间进行全面调整,如调整磁盘分区方法和存储空间、重新安排数据的存储、整理回收碎块等,以提高数据库性能。
- 数据库的重构是指由于数据库应用环境的不断变化,增加了新的应用或新的实体,取消了某些应用,有的实体与实体间的联系也发生了变化等,使得原有的数据库设计不能满足新的需求,此时需要调整数据库的模式和内模式。
- 数据库的重组并不修改数据库原有设计的逻辑结构和物理结构,而数据库的重构则不同,它可以部分修改数据库的模式和内模式。
- 数据库性能优化对数据库管理员的要求比较高,调整一个数据库应用系统的性能要求熟悉系统环境、数据库管理系统、应用程序以及应用程序所使用的数据。
- 数据库性能优化是对数据库管理员的严峻考验,有时候对应用程序的修改需要应用开发人员配合才能完成。
- 数据库优化有以下几方面:外部调整、调整内存分配、调整磁盘1/0、调整竞争。外部调整中除了CPU调整外,还有网络调整。
- 数据库优化中,如果数据库服务器中运行队列数量超过逻辑CPU数量说明CPU已经饱和。
- 除了删除或创建索引,以及非聚簇索引和聚簇索引的相互转换外,通过重建索引可以改进系统的性能。
- 调整索引,优化查询效率属于数据库性能的改进。
- 寄数据库存储介质由RAID5改为RAID1以满足越来越多的写操作需求,这一活动属于数据库应用系统运行管理与维护中的性能优化调整。
- 根据监控分析实现的方法不同,监控分析机制分为两种,一种是由数据库系统建立的自动监控机制,另一种是由管理员手动实施的监控机制。
- (模式调整)派生性冗余列是指表中增加的列由表中的一些数据项经过计算生成。它的作用是在查询时减少连接操作,避免使用聚合函数。由于增加了派生性冗余字段,破坏了规范化规则(不符合第三范式要求)。
- 水平分割是根据数据行的使用特点进行分割,分割之后所得的所有表的结构都相同,而存储的数据不同。水平分割会给应用增加复杂度,特别在查询所有数据时需要Union(并)操作;大部分情况是局部使用,只有很少情况才全局查询时适合使用此方法。
- 垂直分割是根据列的特点进行分割,分割之后所得的所有表中除了都含有主码列外其余列都不同,其查询时会减少1/0次数,但其缺点是查询所有数据时需要Join(连接)操作。
- 数据库应用系统投入运行标志着系统开发任务的基本完成和系统运行维护工作的开始。
- 数据库系统运行需要依赖服务器、操作系统、存储、网络等多种因素。单纯地增加数据库CPU数量并不一定会提高数据库查询速度。RAID1提高了读速度,加强了系统的可靠性,但是磁盘的利用率低,冗余度高,写的速度并未提高。数据库管理员进行优化时需要对数据库系统有深入了解,对业务系统也要深入了解。
- 在数据库设计阶段,主要强调的是高效率利用存储空间,减少数据的元余,减少数据的不一致,这个过程也就是规范化的过程。规范化关系解决了数据维护的异常,并使冗余最小化,然而,可能会出现数据处理性能下降的问题。
- 在大多数情况下,数据库系统需要考虑的第二个目标是高效率的数据处理,反规范化处理,如增加派生冗余列,增加冗余列,重新组表、分割表和新增汇总表可以有效地提高查询效率。
- 数据库设计过程中,为了提高查询效率会进行反规范化,但由此会带来数据冗余。
- 索引的使用要恰到好处,其使用原则一般如下:
(1)经常在查询中作为条件被使用的列,应为其建立索引。
(2)频繁进行排序或分组的列,应为其建立索引。
(3)一个列的值域很大时,应为其建立索引。
(4)如果待排序的列有多个,应在这些列上建立复合索引。
(5)可以使用系统工具来检查索引的完整性,必要时进行修复。另外,当数据库表更新大量数据后,删除并重建索引也可以提高查询速度。 - 建立索引的目的就是为了提高查询效率,查询的性能在很大程度上取决于存在什么样的索引来加快选择和连接的处理。
- 如果在索引码上执行大量删除操作,索引页可能会出现空间的浪费,而这些被浪费的空间需要在重建索引后才能提高数据库的性能。
- 当数据库表更新大量数据后,删除并重建索引可以提高查询速度。
- 数据库运行维护工作主要包括数据库的转储和恢复;数据库的安全性和完整性控制;数据库性能的监控分析和改进;数据库的重组和重构。其中新建数据库用户属于数据库的安全性和完整性控制的一项功能。
- 数据库运行维护工作:数据库软件升级、调整索引、数据库管理系统补丁安装、检查数据库空间使用情况、数据库管理软件漏洞修复。
- 数据库设计过程中,数据库的一致性设计往往以牺牲效率为代价。
- 结合数据库安全设计的五个方面可知,实现安全性需要额外实施一些工作,会降低数据库性能。
- 将数据文件和索引文件放置在同一磁盘上不利于提高查询效率。
- 根据监控对象的不同,监控分析可以分为两种:
(1)对数据库架构体系的监控
主要监控内容:空间基本信息、空间使用率与剩余空间大小、空间是否具有自动扩展的能力、哪些表的扩展将引起空间的扩展,以及段的占用空间与区间数等。
(2)对数据库性能的监控
主要监控内容:数据缓冲区的命中率、库缓冲、用户锁、锁与等待、回滚段、临时段使用情况、索引的使用情况、等待事件和共享池等。
八、故障管理、备份与恢复
- 在制定备份策略时,除考虑使用备份恢复时丢失的数据量外,还需考虑数据库备份所需的时间。检查点技术大幅度减少了数据库完全恢复时所必须执行的日志部分。静态转储虽然保证了数据的有效性,但是却是以降低数据库的可用性为代价;动态转出虽然提高了数据库的可用性,但数据的有效性却可能得不到保障。差量转储和增量转储相比,速度慢,占用空间较多,但恢复速度比增量转储快。
- 数据库备份设备可以是磁带也可以是磁盘,数据库备份设备可以为本地设备,也可以使用远程网络设备。SQL Server支持两种备份方式,一种是先建立备份设备,然后再将数据库备份到备份设备上,这样的备份设备称为永久备份设备;另一种是直接将数据库备份到物理文件上,这样的备份设备称为临时备份设备。创建备份设备的T-SQL存储过程为spaddumpdevice。
- 纯日志备份只包括一定时间间隔内的事务日志,不包含大容量操作日志记录。
- 日志文件记录每个事务对数据库的修改操作,主要用来实现数据恢复。
- 每个数据库必须至少有一个日志文件,也可以有多个日志文件。
- 对于非预期的事物内部故障,在保证该事务对其他事务没有影响的条件下,利用日志文件撤销其对数据库的修改,使数据库恢复到该事物运行之前的状态。事务故障的恢复是由系统自动完成的,对用户是透明的。
- 可预期的事务内部故障可以通过将事务回滚,使数据库达到一致性状态。
- 通常,对于用户数据库,简单恢复模式只用于测试和开发数据库,或用于主要包含只读数据的数据库(如数据仓库),这种模式并不适合生产系统,因为对生产系统而言,丢失最新的更改是无法接受的。
- SQL Server 2008支持数据库、数据文件两个级别的数据恢复。
- 在SQL Server 2008系统数据库中,只有tempdb数据库不需要备份,其他的都需要备份。tempdb只是一个临时数据库,每次SQL Server启动时都会重新新建tempdb数据库。
- model数据库是用户数据库模板,每次大量更新后必须备份。
- 修改数据库作业后,建议备份msdb数据库。
- 对于大型数据库,差异备份的间隔通常比完整数据库备份的时间更短,这可降低数据丢失风险。
- 结尾日志备份是恢复计划中的最后一个备份。
- 清理事务日志之后,建议对用户数据库进行备份。
- 在大容量日志恢复模式下可以进行日志备份。
- 完整恢复模式完整地记录所有的事务,并将事务日志记录保留到对其备份完毕为止。
- 利用事务日志备份进行恢复时要求日志链是完整的。
- 事务日志备份并不备份数据库本身,它只备份日志记录,而且只备份从上次备份之后到当前备份时间发生变化的日志内容。
- 静态转储保证了数据的有效性,却是以降低数据库的可用性为代价的(可以不使用日志文件);而动态转储虽然提高了数据库的可用性,但数据的有效性却可能得不到保证。为了既能保证数据的有效性又不会降低数据库的可用性,需要引入日志文件,用它记录转储期间各事务对数据库的修改活动记录,然后使用动态转储的备份副本加上日志文件就可以将数据库恢复到某一时刻的正确状态。
- 静态转储可以保证数据的有效性,但是却降低数据库的可用性,动态转储可以提高数据库的可用性,但数据的有效性得不到保证。为了保证数据的一致性,需使用日志文件和动态转储结合使用。在制定备份策略时,需要考虑备份空间、时间等因素。
- 增量转储和差量转储相比速度快,存储空间占用少。
- 完整数据库备份的备份空间占用较大。完全数据库备份备份了数据库中的全部信息,每次备份需要消耗比较长的时间和资源,但是恢复时间最短。
- 对于大型数据库,差异备份的间隔通常比完整数据库备份的时间更短,这可降低数据丢失风险。
- 备份策略的制定包括定义备份的类型和频率、备份所需硬件的特性和速度、备份的测试方法以及备份媒体的存储位置和方法。
- 创建数据库后,由于尚未写入数据,无须备份。
九、大规模数据库建构
- 范围划分是按照关系中某个属性的取值范围将数据文件划分为n部分,分别存放到磁盘上。范围划分有利于范围查询以及点查询,但是也可能引起数据分布不均匀,导致并行处理能力下降。
- 轮转法保证了元组在多个磁盘上平均分配,适合扫描整个关系的应用,负载均衡,并行性好,但是点查询和范围查询效率很低。
- 散列划分使用散列函数,根据一个或多个属性进行散列,适合点查询,对于顺序扫描也非常高效,但是对散列函数的优劣依赖很大。
- 聚集函数的并行化计算可以采取"先分后合"的方法。
- 数据分片有四种基本方法:
(1)水平分片是在关系中从行的角度(元组)依据一定条件划分为不同的片断,关系中的每一行必须至少属于一个片断,以便在需要时可以重构关系。
(2)垂直分片是在关系中从列的角度(属性)依据一定条件分为不同的片断,各片断中应该包含关系的主码属性,以便通过连接方法恢复关系。
(3)导出分片是导出水平分片,分片的依据不是本关系属性的条件,而是其他关系属性的条件。
(4)混合分片指以上三种方法的混合。 - 使分布式数据库具有分布式透明性的主要因素:位置独立性、数据分片独立性和数据复制独立性。
- 分布式数据库最基本特征是本地自治、非集中式管理及高可用性。
- 分片透明性是最高级别的透明性,是指数据分片用户无需考虑的,完全透明的,在编写程序时用户只需要对全局关系进行操作。
- 分布透明性有如下几种级别:
(1)分片透明性。分片透明性是最高级别的透明性,位于全局模式与分片模式之间。
(2)位置透明性。位置透明性是指数据分片的分配位置对用户是透明的,用户编写程序时只需要考虑数据分片情况,不需要了解各分片在各个场地的分配情况。
(3)局部数据模型透明性。局部数据模型透明性处于分配模式与局部概念模式之间。全局外模式是全局应用的用户视图,即终端用户看到的逻辑上并未分布的表、视图等。 - 分布透明三种级别从高到低的排序是:分片透明性、位置透明性、局部透明性。
- 在集中式数据库系统中,查询代价主要是由CPU代价和1/0代价来衡量的,在分布式数据库系统中,由于数据分布在多个不同的场地上,使得查询处理中还要考虑站点间传输数据的通信代价(使得查询执行的通信代价最省)。
- Saas,即Software as a Service,中文意思是软件即服务。
- Paas,即Platform as a Service,中文意思是平台即服务。
- 共享磁盘结构所有的处理机拥有独立的内存,通过互联网共享磁盘。这种结构可以克服共享内存结构,但是由于是通过互联网实现处理器之间的信息交换,会产生一定的通信代价。
- 与传统数据库相比,XML数据库具有以下优势:
(1)XML数据库能够对半结构化数据进行有效的存取和管理。如网页内容就是一种半结构化数据,而传统的关系数据库对于类似网页内容这类半结构化数据无法进行有效的管理。 (2)提供对标签和路径的操作。传统数据库语言允许对数据元素的值进行操作,但不能对元素名称进行操作,半结构化数据库提供了对标签名称的操作,包括对路径的操作。
(3)当数据本身具有层次特征时,由于XML数据格式能够清晰表达数据的层次特征,因此XML数据库便于对层次化的数据进行操作。XML数据库适合管理复杂数据结构的数据集。
现阶段在现实环境中,一边使用的是原有的关系数据库厂商在其传统商业产品中进行了相关的扩充,使其能够处理XM,数据的产品。 - BigTable表的索引是行关键字、列关键字和时间戳,每个单元由行关键字、列关键字和时间戳共同定位。在BigTable中,不仅可以随意地增减行的数量,同在一定的约束条件下,还可以对列的数量进行扩展。
BigTable数据模型的特点是:
(1)表中的行关键字可以是任意的字符串。
(2)列族是由列关键字组成的集合,是访问控制的基本单位。
(3)时间戳记录了BigTable中每一个数据项所包含的不同版本的数据的时间标识。 - 并行数据库系统结构有四种结构:
(1)共享内存结构:通过互联网共享一个公共的主存储器,与单机系统的区别是以多个处理器代替单个处理器并行执行事务,通过共享内存传送消息和数据,实现对一个或多个磁盘的访问。只共享内存,并没有共享磁盘空间。
(2)共享磁盘结构:所有处理机拥有独立的主存储器,通过互联网共享磁盘。只是共享磁盘,并没有共享内存,所以各处理器有独立的内存。
(3)无共享结构:每个处理机拥有独立的主存储器和磁盘,不共享任何资源。无共享结构通过最小化共享资源来降低资源竞争的概率,因此具有很好的拓展性。
(4)层次结构:前三种的结合,分两层,顶层无共享结构,底层共享内存或共享磁盘。 - 在并行数据库中的数据划分与并行算法中,范围划分会引起数据分布不均匀,导致并行处理能力下降。
- 并行数据库仅仅依靠采用多处理器、共享硬件资源等手段无法实现真正意义上的并行处理,只有当数据分布合理、易于并行处理,才能将并行数据库的性能最优化。
- 并行数据库系统经常通过负载均衡的方法来提高数据库系统的业务吞吐率。
十、数据仓库与数据挖掘
- 快照是关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。它反映的是某个时间点内的数据,该数据具有不可以改变性。
- 各商品销售明细表、电信公司通话详单是属于一个动态信息表,每个时刻的信息都不一样,因此各商品销售明细表不适合用快照方式更新。
- 元数据是关于数据的数据,或者叫做描述数据的数据,它描述了数据的结构、内容、链和索引等项的内容。
- 建立数据仓库的主要目的在于根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合的、面相分析的数据环境,用于支持企业的信息型、决策型的分析应用。
- 数据仓库是服务于决策支持的数据集合。
- 数据仓库中数据特征包括
- 面向主题性:从实际需求出发,具有较高的抽象性,数据可用性比OLTP较为宽松。
- 集成性:需要将数据抽取、转换、清理、装载。
- 不可更新性:是面向决策支持应用主题的,数据进入数据仓库后不允许修改。
- 时间特性:数据需要定期更新。
- 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等。在机器学习中,聚类称作无监督(或无教师)归纳。与分类相比,分类的例子或数据对象均有类别标记,而聚类的例子则没有标记,需要由聚类算法来自动确定。聚类的核心就是将一个数据集中的数据进行分组,使得每一组内的数据尽可能的相似而不同组间的数据尽可能不同。
- 有监督学习:根据样本数据,采用分类算法,训练分类器。
- 分类器的构造方法有统计方法、机器学习方法、神经网络方法等。
- 统计方法包括贝叶斯法和非参数法;机器学习方法包括决策树算法和规则归纳算法;神经网络方法主要是BP神经网络算法。K-means属于聚类算法。
- 决策支持系统是指辅助需要决策的人或系统进行决策的系统。
- 机器学习是指机器采用一些方法或模型从数据中习得知识的过程。
- 数据挖掘可以简单地理解为从大量数据中提取或挖掘知识,是数据库知识发现的一个步骤。
- 粒度高的数据是由粒度低的数据综合而成的。粒度越大,综合程度越高;粒度越小,综合程度越低。粒度影响数据仓库的数据量以及系统能回答的查询的类型。粒度越小,细节程度越高,能回答的查询就越多。但是,因为需要存储低粒度级的细节数据,数据量就比较大,空间代价也大。
- 封锁粒度越大,数据库系统能够封锁的数据单元就越少,封锁开销也就越小,并发度也就随之降低。
- 数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。由于对大量的原始数据要加以提炼,要减轻分析工作给处理业务数据的服务器带来的压力,要规范各源数据,以及要处理那些难以直接使用的数据,数据集成在数据仓库设计中是必不可少的一环,ETL是实现数据集成的主要技术。
- ETL工具是指从OLTP系统或其他数据环境中抽取数据的工具。在实践中,人们RETLI具从OLTP系统抽取出数据再进行分析利用,而不是在OLTP系统中直接进行数据分析利用的最主要原因是解决分析型应用程序与OLT应用程序之间的性能冲突问题。
- 水平分片是在关系中从行的角度(元组)依据一定条件划分为不同的片断,关系中的每一行必须至少属于一个片断,以便在需要时可以重构关系。
- 垂直分片是在关系中从列的角度(属性)依据一定条件分为不同的片断,各片断中应该包含关系的主码属性,以便通过连接方法恢复关系。垂直分片后,每个分片都包含主键。
下一篇博客:https://blog.csdn/weixin_44940488/article/details/119417955
更多推荐
一、全国计算机三级数据库考试——理论知识总结(选择题)
发布评论