3.4 安全-分布式-数据库-挖掘

一、数据库的安全

数据库里面的安全措施:

  1. 用户标识和鉴定:用户的账户口令等
  2. 存取控制:对用户操作进行控权,有对应权限码才能操作。
  3. 密码存储和传输:加密存储。
  4. 视图的保护:视图需要授权
  5. 审计:专门的文件或者数据库记录所有操作记录。

数据库里面的故障:看下图

数据库备份

数据库备份的形式如下:

1、冷备份(静态转储)转储期间不能对数据库进行任何操作,优点是快速备份,容易存档(直接物理复制)


2、热备份(动态转储)转储期间允许对数据库进行存取、修改操作。此时转储和用户事务是并发执行。

优点是表空间或者数据库文件级别备份,数据库仍然可以使用,可达到秒级恢复;

缺点:不能出错

3、完全备份:备份所有数据

4、差量备份:仅备份上一次完全备份之后变化的数据

5、增量备份:备份上一次备份之后变化的数据。(不管上一次是什么备份        )

6、日志文件:事务每一次对数据库的操作写入日志文件,发生故障,利用日志文件撤销事务对数据库的改变,回退到四五的初始状态。

数据故障恢复

数据库故障恢复的技术:

  1. 事务故障的恢复:由系统自动完成,对用户是透明的(不需要DBA的参与)。步骤就是把更新操作全部还原回去,直到事务的开始标记。
  2. 系统故障的恢复:系统重新启动时自动完成,不需要用户的干预。扫描日志文件,已提交的时候加入重做队列,未完成的事务家务撤销队列。
  3. 介质故障与病毒破坏的恢复。硬盘坏了,装入最新的数据库副本,已提交的事务进入重做队列,不用管未提交的事务
  4. 有检查点的恢复技术:检查点记录的内容可包括建立检查点时刻所有正在执行事务清单,以及这些事务最近一个日志记录的地址类似ctrl+S。

数据库性能优化

性能优化:

  1. 硬件升级:涉及处理器、内存、磁盘子系统和网络
  2. 数据库设计:从逻辑设计和物理设计入手

    逻辑设计:常用的计算属性(平均值、最大值)存储到数据库实体中。重新定义实体减少外部数据数据的开支

    物理设计:给数据分配合适的存储空间。频繁使用的表分割开,这样可以并行使用。文本和图像存储在单独的物理设备上。
  3. 索引优化:索引类似目录,索引能提高数据库查询速度,建立索引时应该选用不常更新经常查询的属性作为索引。索引过多会影响到增删改。
  4. 查询优化:sql语句优化,建立物化视图(已经查好的数据),减少多表查询;只检索需要的属性;用带IN的条件子句等价替换OR;经常commit 释放锁。

二、分布式数据库

        局部数据库位于不用的物理位置,使用一个全局DBMS(数据库管理系统)将所有局部数据库联网管理,这就是分布式数据库

分布式数据库特点

  1. 数据独立性
  2. 集中于自治共享结合的控制结构:
  3. 适当增加数据冗余度
  4. 全局的一致性、可串行和可恢复性

分布式数据库各个模式

图示:

分片方式

优点

  1. 解决企业部门分散而数据需要相互联系的问题。
  2. 灵活增加新的相对自主的部门。
  3. 灵活组建全局应用下的多数据库系统。
  4. 故障仅影响局部应用,可靠性更高。

数据仓库

概要

数据仓库是:面相主题的、集成的、非易失的、且随时间变化的数据集合,用于管理决策(大数据决策)。

  1. 面相主题:用于特定品类大数据。
  2. 集成的:对分散数据库数据抽取、清理、加工等操作。消除数据的不一致性,保证信息的主题性。
  3. 相对稳定:长期保留,包含大量的查询操作,只需定义的加载、刷新。
  4. 反映历史变化:包含历史信息,是各个阶段的信息,通过这些信息进行定量分析与预测。

四个层次(重要)

层次

  1. 数据源:数据仓库的基础,整个系统的数据源泉。
  2. 数据的存储和管理:数仓的核心。
  3. OLAP(联机分析处理)服务器:
    将原本不可能实时完成的深度分析变为可行——如同用天文望远镜替代肉眼观星 ‌
  4. 前端工具:报表工具等,呈现olap的结果。

商业智能

BI系统的4个阶段:数据预处理、建立数据仓库、数据分析、数据展现。

数据仓库分类

数据仓库的分类:企业仓库、数据集市、虚拟仓库

数据仓库设计方法

数据仓库的设计方法:

  1. 自顶向下:用于企业级,建立数据仓库后,各个部分再从数据仓库中获取部门所需的数据,形成数据集市。
  2. 自底向上:从企业中最关键的部门开始,最少投资完成当前需求,最先产生独立数据集市。
  3. 混合.

数据挖掘

结构

发现非直觉的信息。

流程

数据挖掘常用技术(记住)

数据挖掘的常用技术

  1. 决策树:利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的属性,建立决策树的节点,再根据属性的不同取值建立树的分支。
  2. 分类:按照翻译划分成组
  3. 粗糙集:基于分类,一种类别对应于一个概念,知识由概念组成。粗糙集通过近似概念表示不精确的概念。
  4. 神经网络:神经网络通过学习待分析数据中的模式来构建模型。
  5. 关联规则:搜索业务系统中所有细节和事务,找出重复出现的模式。
  6. 概念树方法:按归类的方式进行抽象,放大建立起来的层次结构称为概念树。
  7. 遗传算法:模拟生物进化过程
  8. 依赖性分析:在数据仓库的条目和对象之间抽取依赖性。
  9. 公式发现:进行数学运算
  10. 统计分析方法:找出数据库属性的函数关系相关关系
  11. 模糊论:模糊性是客观存在的,系统越复杂,精确度越低,越模糊
  12. 可视化分析:通过图形化分析数据。

数据挖掘分析方法(了解)

  1. 关联分析
  2. 序列分析
  3. 分类分析:首先为每个记录设置一个标记,然后对这个分类进行分析,有监督。
  4. 聚类分析:对无标记的记录进行相似性聚合,划分、分析,属于无监督。
  5. 预测分析
  6. 时间序列分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90635.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程 Reactor 模式

目录 多线程 Reactor 模式的核心动机 多线程演进方向 多线程 Reactor 模型结构 多线程 EchoServer 实现核心部分 Handler 的多线程化 多线程 Reactor 的三个核心点 本篇文章内容的前置知识为 单线程 Reactor 模式,如果不了解,可点击链接学习 单线程…

[NLP]多电源域设计的仿真验证方法

多电源域设计的仿真验证方法 1. 更复杂的 Testbench 例子(多电源域、复杂低功耗场景) 假设有两个电源域 PD1 和 PD2,分别对应控制信号 pwr_sw_ctrl1、iso_ctrl1、ret_ctrl1 和 pwr_sw_ctrl2、iso_ctrl2、ret_ctrl2,且两域之间有通信。 RTL 端口声明(简化版) module top…

Apache Ignite 中 WHERE 子句中的子查询(Subqueries in WHERE Clause)的执行方式

这段内容是关于 Apache Ignite 中 WHERE 子句中的子查询(Subqueries in WHERE Clause)的执行方式 的说明。理解这段内容对于编写高效的 SQL 查询、避免性能瓶颈非常重要。下面我将为你 逐句解释并深入理解这段内容。🧾 原文翻译 解释 原文&a…

MySQL(153)如何使用全文索引?

MySQL的全文索引(Full-Text Index)是一种特殊的索引类型,专门用于加速文本数据的搜索。与普通的B树索引不同,全文索引适用于大文本字段(如TEXT、VARCHAR等)的全文搜索。它通过构建一个倒排索引,…

微分方程入门之入门之入门,纯笔记

当描述 相对变化量 比 绝对量 更容易时,微分方程就经常用到了。 比如,描述为什么种群数量增加or减少【相对】,比描述为什么它在某个时间点是某个特定值【绝对】更容易。 物理学中,运动经常用力来描述,力–>代表变化…

【C++】简单学——vector类(模拟实现)

模拟实现的准备工作 看源码,了解这个类的大概组成 1.先看成员变量 成员变量的组成是三个迭代器 问:这个iterator内嵌类型究竟是什么?即这个迭代器是什么 迭代器实际就是T* 问:这三个迭代器代表什么意思? 连蒙带猜…

【WRF】根据自动安装脚本安装 WRF / WRF-CHEM等

目录 GitHub 上 WRF 自动安装脚本 ⚙️ 脚本的作用 🖥️ 支持的系统 📦 可安装的 WRF 版本及其选项 ✅ 如何使用(以 WRF 4.6.1 为例) ✅ 依赖库的安装位置 完整安装脚本分析 参考 GitHub 上 WRF 自动安装脚本 GitHub 上的 WRF-Install-Script 项目的 Releases(发布版本…

M²IV:面向大型视觉-语言模型中高效且细粒度的多模态上下文学习

MIV: Towards Efficient and Fine-grained Multimodal In Context Learning in Large Vision-Language Models COLM 2025 why 新兴的研究方向:上下文学习(ICL)的效果“向量化”,其核心思想是用transformer内部的向量来…

龙迅#LT8711UXD适用于Type-C/DP1.4 /EDP转 HDMI2.0 功能,分辨率高达4K60HZ,可支持HDCP!

1. 描述LT8711UXD 是一款高性能双通道 Type-C/DP1.4 转 HDMI2.0 转换器,旨在将 USB Type-C 源或 DP1.4 源连接到 HDMI2.0 接收器。该LT8711UXD集成了一个符合 DP1.4 标准的接收器和一个符合 HDMI2.0 标准的发射器。此外,还嵌入了两个用于CC通信的CC控制器…

《计算机组成原理与汇编语言程序设计》实验报告一 基本数字逻辑及汉字显示

目 录 一、实验学时 二、实验目的 三、实验要求 四、实验内容 五、实验步骤 1、打开Logisim软件,列出异或逻辑电路真值表,并使用与、或、非基本原件实现异或逻辑电路。 2、打开Logisim软件,列出同或逻辑电路真值表,并使用…

聚焦牛牛道:绿色积分模式如何实现快速发展?

​绿色消费积分政策再次进入大众视野,这种能为企业减轻库存负担、让咨金周转更灵活的促销方式,很快就成了焦点。牛牛道作为积极践行这一政策的平台,凭借其独树一帜的商业模式和运营思路,在短时间内就取得了显著发展。一、牛牛道平…

高频 RFID 赋能工业教学设备教学应用

高频 RFID 赋能工业教学设备教学应用应用背景传统工业教学设备侧重机械原理、电气控制等基础功能演示,缺乏对 RFID 等工业识别技术的具象教学载体。学生在理论学习中难以直观理解 RFID 技术的工业适配逻辑,实训中缺乏设备识别系统的部署、调试经验&#…

Transformer:颠覆NLP的自注意力革命

Transformer:颠覆NLP的自注意力革命 Transformer是自然语言处理领域中极具影响力的深度学习模型架构,以下是对其的详细介绍: 提出背景与应用:2017年,Vaswani等人在《Attention Is All You Need》论文中首次提出Transformer架构,它主要用于处理序列到序列的任务,如机器翻…

基于 KeepAlived + HAProxy 搭建 RabbitMQ 高可用负载均衡集群

基于 KeepAlived HAProxy 搭建 RabbitMQ 高可用负载均衡集群 基于 KeepAlived HAProxy 搭建 RabbitMQ 高可用负载均衡集群实战指南 一、前言 在企业级应用中,消息队列的高可用性是系统稳定性的重要保障。RabbitMQ 作为主流的消息中间件,虽然自身支持…

京东获得JD商品详情 API 返回值说明||京东API接入文档

京东商品详情API返回值核心字段说明一、商品基础信息商品ID(skuId/productId)唯一标识符,用于定位具体商品或SKU(如不同颜色、尺寸的变体)。示例:"skuId": "123456789"商品标题&#x…

其他世界的自来水

西欧,北美,亚洲日韩等地区,他们的自来水可以直接饮用以英国为例:自来水的质量可能等同或者有可能超过纯净水,不需要消毒和过滤直接可以饮用。直接从水龙接的水和瓶装纯净水没有什么差别,甚至比瓶装纯净水更…

IO密集型、CPU密集型、负载、负载均衡

0、引入 从宏观上来讲,计算机可以抽象为【输入 > 计算 > 输出】这三部分 输入输出自然就是io,而计算部分自然归cpu管 不同的任务,对io和cpu的依赖程度不同,由此有了cpu密集型任务和io密集型任务 1、IO密集型 更依赖输入…

从甲方的角度看MOM项目成败的原因

关键词:MOM、数字化转型、成败数字化转型中流行这么一句话:SAP项目加班到晚上8点,MOM项目最少到晚上10点。由此可见,MOM项目实施的难度、复杂度。但,为什么MOM难度大?先引入1个故事:1个价值300万…

MySQL操作进阶

系列文章目录 MySQL的基础操作-CSDN博客 目录 系列文章目录 前言 一、数据库的约束 1. 约束类型:not null 2. 约束类型:unique 3. 约束类型:default 4. 约束类型:primary key 5. 约束条件:foreign key 二、表…

表征工程 中怎么 调整参数或比例

表征工程 中怎么 调整参数或比例 在表征工程(Representation Engineering)中,调整参数或比例的核心目标是平衡干预效果与模型基础能力,避免过度干预导致语义失真或能力退化。以下是几种常用的方法论及具体案例: 1. 系数缩放法(Scaling Coefficients):通过权重参数控制…