DataFrame​(数据框)

一种二维表格型数据结构,类似于电子表格(如 Excel)或 SQL 表,由行(记录)​列(字段)​组成。它是数据分析、机器学习和科学计算中最常用的数据结构之一,尤其在 ​Python 的 Pandas 库​ 中被广泛使用。


1. DataFrame 的核心特点

特点说明
二维结构类似表格,有行(记录)和列(字段)。
列名(Column Names)​每列有一个名称(如 nameagesalary)。
行索引(Index)​每行有一个索引(默认从 0 开始,也可自定义)。
异构数据不同列可以存储不同类型的数据(如数字、字符串、布尔值)。
灵活操作支持筛选、排序、分组、合并等高级操作。

2. DataFrame 的常见用途

  • 数据分析​(如统计、聚合、可视化)
  • 机器学习​(特征工程、数据预处理)
  • 数据库查询结果​(类似 SQL 表)
  • 金融、电商、医疗等领域的数据处理

3. DataFrame 的示例(Python Pandas)​

import pandas as pd# 创建一个 DataFrame
data = {"Name": ["Alice", "Bob", "Charlie"],"Age": [25, 30, 35],"Salary": [50000, 60000, 70000]
}df = pd.DataFrame(data)print(df)

输出:​

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000
  • 列名​:NameAgeSalary
  • 行索引​:0, 1, 2
  • 数据类型​:Name(字符串)、Age(整数)、Salary(整数)

4. DataFrame 的常见操作

操作示例
查看数据df.head()(前 5 行)、df.describe()(统计摘要)
筛选数据df[df["Age"] > 30](筛选年龄大于 30 的行)
新增列df["Bonus"] = df["Salary"] * 0.1(新增奖金列)
排序df.sort_values("Salary", ascending=False)(按薪资降序排序)
分组聚合df.groupby("Age")["Salary"].mean()(按年龄分组计算平均薪资)
合并 DataFramepd.concat([df1, df2]) 或 pd.merge(df1, df2)

5. DataFrame 与其他数据结构的区别

数据结构特点适用场景
DataFrame二维表格,支持列操作数据分析、机器学习
Series一维数组(DataFrame 的列)单变量分析
NumPy 数组多维数组,仅支持数值计算科学计算、矩阵运算
SQL 表数据库中的二维表数据存储、查询

6. DataFrame 的应用场景

  • 金融分析​(股票数据、交易记录)
  • 电商数据分析​(用户行为、销售数据)
  • 医疗数据​(病人记录、诊断结果)
  • 机器学习​(特征工程、数据预处理)

总结

  • DataFrame 是一种二维表格数据结构,类似于 Excel 或 SQL 表。
  • Pandas 的 DataFrame 是最常用的实现,支持灵活的数据操作。
  • 适用于数据分析、机器学习、数据库查询等场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/90729.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/90729.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

B站视频评论数据爬取

爬取B站视频评论数据爬取与分析 如果只要单纯的脚本可以直接看项目结构里的b_comments.py 一、技术架构 1、环境配置 Python 3.8PyCharm 2、模块配置 requests:用于发送HTTP请求time:用于处理时间相关的操作csv:用于读写CSV文件json&#xff…

OpenAI最新大模型GPT-4o体验之Code Copilot AI编程大模型

一、前言GPT-4o("o"代表"全能")具备处理各种文本、声音和图像资料的能力,能够输出多种格式的文本、声音和图像。GPT-4o 的推出标志着 AI 技术的重大突破。它不再局限于单一媒介,而是首次实现了文本、语音和图…

社交电商推客系统全栈开发指南:SpringCloud+分润算法+Flutter跨端

一、推客系统概述与市场背景推客系统(TuiKe System)是一种基于社交关系的营销推广平台,通过用户分享商品或服务链接,实现裂变式传播和精准营销。近年来,随着社交电商的蓬勃发展,推客系统已成为企业获客的重…

网安-中间件-Redis未授权访问漏洞

目录 Redis Redis持久化 动态修改配置 使用反弹连接的情况 常见监听端口的方式 常见建立反弹连接的方式 流程 Linux crontab cron文件存储路径 利用Redis实现攻击 1.webshell提权案例 2.定时任务shell反弹案例 3.SSH Key getshell案例 ​编辑Redis其他利用方式 …

【c++深入系列】:万字详解栈和队列和deque(附模拟实现的源码)

🔥 本文专栏:c 🌸作者主页:努力努力再努力wz 💪 今日博客励志语录: 石头能被水滴穿,不是因为水有多强,而是因为它从未停过。 ★★★ 本文前置知识: 模版 栈 那么栈这个…

速通python加密之RSA加密

RSA加密 RSA加密是一种非对称加密算法(与AES等对称加密不同),由罗纳德李维斯特(Ron Rivest)、阿迪萨莫尔(Adi Shamir)和伦纳德阿德曼(Leonard Adleman)于1977年提出&…

Java BeanUtils 类详解:作用、语法与示例

一、BeanUtils 的核心作用BeanUtils 是 Apache Commons 和 Spring Framework 提供的工具类,主要用于简化 JavaBean 的操作。核心功能包括:属性拷贝:对象间同名属性自动复制动态访问:通过字符串名称操作属性类型转换:自…

PyCharm高效开发全攻略

安装与基础配置下载PyCharm专业版或社区版(免费)并完成安装。首次启动时选择默认设置或自定义主题、字体大小等界面偏好。配置Python解释器路径(推荐使用虚拟环境),确保项目依赖隔离。快捷键与导航熟悉核心快捷键能大幅…

Pycharm 给 python 程序打包EXE的配置和方法

前言: Python 语言的设计变得越来越简单,它有很多可以使用的库,所以尤其在人工智能时代,Python语言被广泛应用。但是Python语言和windows系统的兼容性稍微偏弱,如何生成windows可以执行的exe文件。是要一个很复杂的配置过程,本文就会做一个介绍。 本文,通过一个Python…

【Linux | 网络】传输层(UDP和TCP)

目录一、再谈端口号1.1 端口号1.2 端口号的范围划分1.3 常见知名端口号1.4 netstat 命令1.5 进程与端口号的关系1.6 pidof 命令二、UDP协议2.1 UDP协议段格式2.2 如何理解UDP报头和UDP报文2.2.1 UDP报头2.2.2 UDP报文和UDP报文的管理2.2.3 UDP封装过程2.3 UDP的特点2.4 UDP的缓…

mybatisX的自定义模板生成

在idea中使用mybtais的自定义模板生成,可以帮我们省去很多重复的代码。 打开一个项目,我们要修改的主要就两个文件,一个是生成的mapper接口,另一个是xml文件: 相应的mapper接口模板为: package ${mapper…

miniz:一个轻量级、高性能的开源压缩库

目录 1.简介 2.核心特性 3.基本使用示例 4.与 ZLIB 的对比 5.使用场景 6.注意事项 1.简介 miniz 是一个轻量级、高性能的开源压缩库,专注于提供 ZLIB/GZIP 兼容的压缩和解压缩功能。它的核心优势在于体积小巧(单文件实现)、跨平台支持和…

Jenkins接口自动化测试(构建)平台搭建

Python接口自动化测试零基础入门到精通(2025最新版)自动化测试流程 在进行平台搭建前,我们首先要问自己:我需要搭建的平台的功能是什么,要实现什么目标? 在我的理解中,自动化构建平台的执行流…

Day 22: 复习

机器学习数据处理与降维技术复习总结 前言 经过6天的学习,我们系统地学习了从基础的Numpy数组操作到高级的降维算法,这些内容构成了机器学习数据预处理的重要知识体系。本文将对这一系列学习内容进行全面复习和总结,帮助大家建立完整的知识…

力扣 hot100 Day56

46. 全排列 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 //抄的 class Solution { private:vector<vector<int>>result;vector<int> path; public:void backtracking(vector<int>& nu…

Android 编码规范全指南

在 Android 开发领域&#xff0c;代码不仅是功能实现的载体&#xff0c;更是团队协作与项目迭代的基础。一套完善的编码规范&#xff0c;能让代码从 “可运行” 升级为 “易维护、可扩展、低风险”。本文基于 Google、Square 等顶尖团队的实践经验&#xff0c;结合国内 Android…

[RPA] Excel中的字典处理

案例1一个Excel文件总共有2个Sheet页&#xff0c;分别为总表和对照表通过对照表sheet页&#xff0c;设置价格对照字典对照表循环总表sheet页&#xff0c;根据循环到的商品名称&#xff0c;找到对应字典中的价格&#xff0c;并计算出总价总表将总价写入到Excel表中C列&#xff0…

基于NSGAII优化算法的车间生产调度matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.部分程序 4.算法理论概述 5.参考文献 6.完整程序 1.程序功能描述 车间生产调度是制造业的核心环节&#xff0c;其目标是在满足设备约束、工序优先级等条件下&#xff0c;优化多个相互冲突的生产指标&#xff08;如…

Cmake、VS2019、C++、openGLopenCV环境安装

在 CMake 和 Visual Studio 2019 环境下安装和配置 OpenGL、OpenCV 以及 CUDA 可能会有些复杂&#xff0c;因为涉及的组件多且相互依赖。以下是一个详细的指南&#xff0c;帮助您逐步完成安装和配置。 1. 前提条件 在开始之前&#xff0c;请确保您已安装以下软件&#xff1a; …

视频二维码在产品设备说明书中的应用

在当今数字化的时代&#xff0c;传统的产品设备说明书正面临着一场变革。文字和图片虽然能提供基本信息&#xff0c;但在复杂设备的安装、操作和故障排除方面&#xff0c;往往显得力不从心。而视频二维码的出现&#xff0c;为这一困境提供了完美的解决方案&#xff0c;它将冰冷…