3.4 安全-分布式-数据库-挖掘

一、数据库的安全

数据库里面的安全措施：

用户标识和鉴定：用户的账户口令等
存取控制：对用户操作进行控权，有对应权限码才能操作。
密码存储和传输：加密存储。
视图的保护：视图需要授权
审计：专门的文件或者数据库记录所有操作记录。

数据库里面的故障：看下图

数据库备份

数据库备份的形式如下：

1、冷备份（静态转储）：转储期间不能对数据库进行任何操作，优点是快速备份，容易存档（直接物理复制）

2、热备份（动态转储）：转储期间允许对数据库进行存取、修改操作。此时转储和用户事务是并发执行。

优点是表空间或者数据库文件级别备份，数据库仍然可以使用，可达到秒级恢复；

缺点：不能出错

3、完全备份：备份所有数据

4、差量备份：仅备份上一次完全备份之后变化的数据

5、增量备份：备份上一次备份之后变化的数据。（不管上一次是什么备份）

6、日志文件：事务每一次对数据库的操作写入日志文件，发生故障，利用日志文件撤销事务对数据库的改变，回退到四五的初始状态。

数据故障恢复

数据库故障恢复的技术：

事务故障的恢复：由系统自动完成，对用户是透明的（不需要DBA的参与）。步骤就是把更新操作全部还原回去，直到事务的开始标记。
系统故障的恢复：系统重新启动时自动完成，不需要用户的干预。扫描日志文件，已提交的时候加入重做队列，未完成的事务家务撤销队列。
介质故障与病毒破坏的恢复。硬盘坏了，装入最新的数据库副本，已提交的事务进入重做队列，不用管未提交的事务
有检查点的恢复技术：检查点记录的内容可包括建立检查点时刻所有正在执行的事务清单，以及这些事务最近一个日志记录的地址。类似ctrl+S。

数据库性能优化

性能优化：

硬件升级：涉及处理器、内存、磁盘子系统和网络
数据库设计：从逻辑设计和物理设计入手

逻辑设计：常用的计算属性（平均值、最大值）存储到数据库实体中。重新定义实体减少外部数据数据的开支

物理设计：给数据分配合适的存储空间。频繁使用的表分割开，这样可以并行使用。文本和图像存储在单独的物理设备上。
索引优化：索引类似目录，索引能提高数据库查询速度，建立索引时应该选用不常更新经常查询的属性作为索引。索引过多会影响到增删改。
查询优化：sql语句优化，建立物化视图（已经查好的数据），减少多表查询；只检索需要的属性；用带IN的条件子句等价替换OR；经常commit 释放锁。

二、分布式数据库

局部数据库位于不用的物理位置，使用一个全局DBMS（数据库管理系统）将所有局部数据库联网管理，这就是分布式数据库

分布式数据库特点

数据独立性
集中于自治共享结合的控制结构：
适当增加数据冗余度
全局的一致性、可串行和可恢复性

分布式数据库各个模式

图示：

分片方式

优点

解决企业部门分散而数据需要相互联系的问题。
灵活增加新的相对自主的部门。
灵活组建全局应用下的多数据库系统。
故障仅影响局部应用，可靠性更高。

数据仓库

概要

数据仓库是：面相主题的、集成的、非易失的、且随时间变化的数据集合，用于管理决策（大数据决策）。

面相主题：用于特定品类大数据。
集成的：对分散数据库数据抽取、清理、加工等操作。消除数据的不一致性，保证信息的主题性。
相对稳定：长期保留，包含大量的查询操作，只需定义的加载、刷新。
反映历史变化：包含历史信息，是各个阶段的信息，通过这些信息进行定量分析与预测。

四个层次（重要）

层次

数据源：数据仓库的基础，整个系统的数据源泉。
数据的存储和管理：数仓的核心。
OLAP（联机分析处理）服务器：
将原本不可能实时完成的深度分析变为可行——如同用天文望远镜替代肉眼观星 ‌
前端工具：报表工具等，呈现olap的结果。

商业智能

BI系统的4个阶段：数据预处理、建立数据仓库、数据分析、数据展现。

数据仓库分类

数据仓库的分类：企业仓库、数据集市、虚拟仓库

数据仓库设计方法

数据仓库的设计方法：

自顶向下：用于企业级，建立数据仓库后，各个部分再从数据仓库中获取部门所需的数据，形成数据集市。
自底向上：从企业中最关键的部门开始，最少投资完成当前需求，最先产生独立数据集市。
混合.

数据挖掘

结构

发现非直觉的信息。

流程

数据挖掘常用技术（记住）

数据挖掘的常用技术

决策树：利用信息论中互信息（信息增益）寻找数据库中具有最大信息量的属性，建立决策树的节点，再根据属性的不同取值建立树的分支。
分类：按照翻译划分成组
粗糙集：基于分类，一种类别对应于一个概念，知识由概念组成。粗糙集通过近似概念表示不精确的概念。
神经网络：神经网络通过学习待分析数据中的模式来构建模型。
关联规则：搜索业务系统中所有细节和事务，找出重复出现的模式。
概念树方法：按归类的方式进行抽象，放大建立起来的层次结构称为概念树。
遗传算法：模拟生物进化过程
依赖性分析：在数据仓库的条目和对象之间抽取依赖性。
公式发现：进行数学运算
统计分析方法：找出数据库属性的函数关系和相关关系
模糊论：模糊性是客观存在的，系统越复杂，精确度越低，越模糊
可视化分析：通过图形化分析数据。

数据挖掘分析方法（了解）

关联分析
序列分析
分类分析：首先为每个记录设置一个标记，然后对这个分类进行分析，有监督。
聚类分析：对无标记的记录进行相似性聚合，划分、分析，属于无监督。
预测分析
时间序列分析

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/90635.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/90635.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！