【数据分析三:Data Storage】数据存储

数据真是越来越多啊


正文开始

一、数据

结构化数据

        可以使用关系型数据库表示和存储的数据,拥有固定结构

半结构化数据

        弱结构化,虽然不符合关系型数据模型的要求,但是含有相关的标记(自描述结构),分割实体及其属性 。如:XML,JSON等

非结构化数据

        没有固定数据结构,或很难发现统一数据结构的数据

        文档,文本,图片,视频,音频等

二、数据库

数据库(Database, DB)

        长期储存在计算机内、有组织的可共享大量数据的集合。

数据库管理系统(Database Management System, DBMS)

        位于用户与操作系统之间的一层数据管理软件

数据库系统(Database System,简称DBS)

        在计算机系统中引入数据库后的系统构成

        DB、DBMS(及其开发工具)、应用系统、数据库管理员

关系型数据库系统(SQL

        关系模型中数据的逻辑结构是一张二维表,行与列

        特点:结构化

        概念:关系,属性,元组

        优点1:管理效率高(十万,百万,千万… )

        数据库操作: 增、删、改、查 ,通过 SQL 语言完成
        优点2 存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”

数据库的安全性:自主存取控制与强制存取控制

自主存取控制(Discretionary Access Control ,简称DAC)

        用户可“自主”地决定将数据的存取权限授予何人、决定是否也将“授予”的权限授予别人

强制存取控制(Mandatory Access Control,简称 MAC)

        系统“强制”地给用户和数据标记安全等级

        (1)仅当主体(如用户)的许可证级别大于或等于客体(数据,表,索引等)的密级时,该主体才能读取相应的客体

        (2)仅当主体的许可证级别小于或等于客体(数据)的密级时,该主体才能写相应的客体

数据库的效率:索引

        建立索引(Index)的目的:加快查询速度

        谁可以建立索引

                DBA 或 表的属主(即建立表的人)

                DBMS一般会自动建立以下列上的索引

                        PRIMARY KEY

                        UNIQUE

        谁维护索引

                DBMS自动完成

使用索引

        DBMS自动选择是否使用索引以及使用哪些索引

RDBMS中索引一般采用B+树、HASH索引来实现

        B+/B-树索引具有动态平衡的优点

        HASH索引具有查找速度快的特点

NoSQL(Not Only SQL)

        非关系型的DBMS,不同于传统关系型DB的DBMS的统称

        超大规模数据存储,不需要固定模式,无需多余操作横向扩展

为什么NoSQL?(大数据)

        数据量的飞速增长:GB-TB-PB

        RDBMS的范式约束、事务特性、磁盘IO等特点的限制

        开发需求的前期不明确

如果要详细学习NoSQL:可以学习MongoDB

MongoDB VS MySQL

NoSQL适用于

        数据模型比较简单;

        需要灵活性更强的IT系统;

        对DBMS性能要求较高;

        不需要高度的数据一致性;

        对于给定key,比较容易映射复杂值的环境

附:想要查看各个数据库的使用排名,可以去看如下链接

https://db-engines.com/en/rankinghttps://db-engines.com/en/ranking

三、爬虫及数据库学习分享链接

Beautiful Soup

Beautiful Soup 4.4.0 文档 — beautifulsoup 4.4.0q 文档http://beautifulsoup.readthedocs.io/zh_CN/latest/

MongoDB教程

MongoDB 教程 | 菜鸟教程MongoDB 教程 MongoDB是一个流行的开源文档型数据库,它使用类似 JSON 的文档模型存储数据,这使得数据存储变得非常灵活。 MongoDB 是一个基于文档的 NoSQL 数据库,由 MongoDB Inc. 开发。 MongoDB 旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 现在开始学习 ..http://www.runoob.com/mongodb/mongodb-tutorial.html

CSS选择器教程

CSS 选择器参考手册http://www.w3school.com.cn/cssref/css_selectors.asp

jsoup教程

http://blog.csdn.net/column/details/jsoup.htmlhttp://blog.csdn.net/column/details/jsoup.html

scrapy教程

Scrapy入门教程 — Scrapy 0.24.6 文档http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html


下一讲,我们将讲述数据预处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85444.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 整合 Spring AI 与 MCP 开发智能体工具指南

Spring Boot 整合 Spring AI 与 MCP 开发智能体工具指南 一、引言 随着大语言模型(LLM)的普及,越来越多的开发者希望将其集成到自己的应用中。Spring AI 作为 Spring 生态下的 AI 集成框架,提供了便捷的方式来对接各种大模型。而 MCP(Model Context Pr…

【开源项目】GraphRAG Agent:可解释、可推理的下一代智能问答系统

GraphRAG Agent:可解释、可推理的下一代智能问答系统 ​​引言​​ 传统 RAG(检索增强生成)系统常因“黑盒推理”和上下文断裂被诟病。微软开源的 GraphRAG 框架尝试用知识图谱解决这一问题,而​​Graph RAG Agent​​&#xff0…

【论文笔记】【强化微调】AgentThink:思维链推理 + 工具调用

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1. 引述 这是一篇自动驾驶领域的论文。我对这篇论文主要感兴趣的点在于其对于工具调用(Tool Call)的设计。这一点同…

前端页面Javascript进阶DOM与BOM

一、DOM基础概念 DOM 是文档对象模型,提供编程接口用于操作 HTML 和 XML 文档。它将文档表示为节点树,每个节点代表文档的一部分,如元素、文本、属性等。通过 DOM,开发者可以访问和修改文档的结构、样式与内容。 文档节点类型 …

AWS CloudFormation深度解析:构建现代云原生应用基础设施

在现代云原生应用开发中,基础设施即代码(Infrastructure as Code, IaC)已成为标准实践。本文将深入解析一个完整的AWS CloudFormation模板,该模板为GlowChat Connector应用构建了生产级的基础设施。 模板概述 这个CloudFormation模板是一个两部分部署架构中的第一部分,专…

Oracle 查看所有表的字段名、数据类型及长度

1.只查看某个特定表的字段名 SELECT column_name, data_type, data_length FROM user_tab_columns WHERE table_name 你的表名 -- 注意大写 ORDER BY column_id;2.查看当前用户下所有表的字段名 SELECT table_name, column_name, data_type, data_length FROM user_tab_colu…

创客匠人分享知识付费监管升级下的行业价值重构:从合规挑战到发展机遇的实践路径

引言:监管政策背后的行业逻辑转向 知识付费领域的监管体系升级,本质上是对行业发展路径的重新校准。随着 "内容产品需具备知识沉淀载体" 等新规落地,行业正在经历从 "流量驱动型增长" 到 "价值驱动型发展" 的…

边缘计算的认识和应用

边缘计算 边缘计算是一种分布式计算范式,它将计算能力和数据存储放置在离数据源更近的位置,而不是依赖于集中式的数据中心。通过在“边缘”进行数据处理,边缘计算可以减少延迟、提高响应速度、节省带宽,并增强数据隐私和安全性。…

Arduino R4 WIFI横向滚动显示16×16LED屏

实现一个从左向右横向滚动的"吉祥如意"显示效果。 arduino r4 WiFi滚动显示16*16led #include <SPI.h>// 引脚定义 const int RowA 2, RowB 3, RowC 4, RowD 5; const int OE 6; const int LATCH 10;// 字模数据 (吉祥如意) const PROGMEM byte characte…

html css js网页制作成品——HTML+CSS+js力学光学天文网页设计(4页)附源码

目录 一、&#x1f468;‍&#x1f393;网站题目 二、✍️网站描述 三、&#x1f4da;网站介绍 四、&#x1f310;网站效果 五、&#x1fa93; 代码实现 &#x1f9f1;HTML 六、&#x1f947; 如何让学习不再盲目 七、&#x1f381;更多干货 一、&#x1f468;‍&#x1f…

嵌入式开发之freeRTOS移植

FreeRTOS 是一款广泛应用于嵌入式系统的开源实时操作系统&#xff08;RTOS&#xff09;&#xff0c;其移植过程需要结合具体硬件平台和编译器进行适配。以下是 FreeRTOS 移植的详细步骤和关键注意事项&#xff1a; 一、移植前的准备工作 1. 硬件平台确认 处理器架构&#xf…

【算法 day07】LeetCode 344.反转字符串 | 541. 反转字符串II | 卡码网:54.替换数字

344.反转字符串 题目链接 | 文档讲解 |视频讲解 : 链接 1.思路&#xff1a; 采用双指针&#xff0c;left从0开始移动,right从尾元素进行移动 循环判断条件&#xff1a;left< right,边界值使用举例法&#xff0c;eg: [ h ,e ,l,o ]偶数个不会相遇, [h ,e ,l ,l ,o ]奇数个&…

从检索到生成:RAG 如何重构大模型的知识边界?

引言&#xff1a;知识边界的突破与重构 在人工智能技术快速发展的今天&#xff0c;大型语言模型&#xff08;LLMs&#xff09;已经展现出强大的文本生成和理解能力。然而&#xff0c;这些模型在实际应用中仍面临着知识时效性、事实准确性和可溯源性等核心挑战。检索增强生成&a…

前端基础知识CSS系列 - 05(BFC的理解)

一、是什么 我们在页面布局的时候&#xff0c;经常出现以下情况&#xff1a; 这个元素高度怎么没了&#xff1f;这两栏布局怎么没法自适应&#xff1f;这两个元素的间距怎么有点奇怪的样子&#xff1f;...... 原因是元素之间相互的影响&#xff0c;导致了意料之外的情况&…

Prompt Engineering 学习指南:从入门到精通的最佳路径与资源

本 Prompt Engineering 技术报告,旨在提供一个从入门到精通的清晰学习路径、核心方案,并附上最关键的 GitHub 仓库资源。您可以将此报告作为快速提升 Prompt 能力的“速查手册”和“成长地图”。 Prompt Engineering 学习指南:从入门到精通的最佳路径与资源 技术报告摘要 (…

fastmcp MCPConfig多服务器使用案例;sse、stdio、streamable-http使用

1、sse、stdio、streamable-http使用 参考&#xff1a;https://gofastmcp.com/deployment/running-server#the-run-method stdio本地使用&#xff1b;sse、streamable-http远程调用&#xff08; Streamable HTTP—New in version: 2.3.0&#xff09; 调用&#xff1a; stdio、…

网站服务器被DDOS攻击打不开,是要换高防服务器还是加CDN能防护住?

高防云服务器、高防 IP 和高防 CDN 作为常见应对网络攻击的重要利器&#xff0c;它们各自有着独特的特点和应用场景&#xff0c;从技术架构看&#xff0c;高防云服务器是资源型防护&#xff0c;深度整合计算与防御资源&#xff1b;高防IP是流量型防护&#xff0c;以代理模式实现…

深入解析原型模式:从理论到实践的全方位指南

深入解析原型模式&#xff1a;从理论到实践的全方位指南 引言&#xff1a;为什么需要原型模式&#xff1f; 在软件开发过程中&#xff0c;对象创建是一个频繁且关键的操作。传统方式&#xff08;如直接使用new关键字&#xff09;在某些场景下会显得效率低下且不够灵活。想象这…

HuggingFace镜像配置失效问题深度解析:Python模块导入机制的陷阱

前言 在使用HuggingFace的transformers和datasets库时&#xff0c;国内用户经常会遇到网络连接问题。虽然设置了镜像源环境变量&#xff0c;但仍然报错无法连接到huggingface.co。本文将深入分析这个问题的根因&#xff0c;并从Python模块导入机制的角度解释为什么环境变量设置…

leetcode146-LRU缓存

leetcode 146 思路 什么是LRU缓存&#xff1f; LRU&#xff08;Least Recently Used&#xff09;缓存是一种常见的缓存淘汰策略&#xff0c;核心思想是&#xff1a;当缓存容量满时&#xff0c;优先淘汰最久未使用的数据。LeetCode 146 题要求实现一个支持get和put操作的 LR…