下一篇:
《Python数据分析基础04:预测性数据分析》
《Python数据分析基础03:探索性数据分析》
《python数据分析基础02:数据可视化分析》
《Python数据分析基础01:描述性统计分析》
描述性统计分析是统计学中最基础、应用最广泛的部分。它旨在通过总结、组织和简化数据,来描述和展示数据集合的主要特征,帮助我们理解数据的“样子”,而不涉及对总体进行推断(那是推断统计的任务)。
1.0 核心目的:
-
概括数据: 用少数几个关键指标(如平均值、标准差)代表大量数据。
-
发现模式: 识别数据的分布形状、集中趋势、离散程度以及变量间可能的关系。
-
识别异常: 找出数据中可能存在的异常值。
-
数据呈现: 通过图表清晰、直观地展示数据特征。
-
为推断统计打基础: 提供对数据的初步理解,指导后续更复杂的分析(如假设检验、回归分析)。
2.0 主要分析内容:
描述性统计分析通常从以下几个关键维度来描述数据:
-
集中趋势:
-
描述数据点围绕哪个中心值聚集。
-
常用指标:
-
均值: 所有数值的和除以数值个数。最常用,但受极端值影响大。
Mean = Σxᵢ / n
-
中位数: 将数据按大小排序后,位于中间位置的值。不受极端值影响,更能反映数据的“典型”中心。奇数个数据取中间值,偶数个取中间两个的平均值。
-
众数: 数据集中出现频率最高的值。一个数据集可以有多个众数(多峰分布)或没有众数。适用于分类数据和数值数据。
-
-
-
离散程度:
-
描述数据点偏离中心值的程度有多大,数据是紧密聚集还是分散开。
-
常用指标:
-
极差: 最大值与最小值之差。计算简单,但只利用了数据两端的信息,对异常值敏感。
-
方差: 各数据点与均值之差的平方的平均值。衡量数据偏离均值的平均程度。
Variance (s²) = Σ(xᵢ - Mean)² / (n - 1)
(样本方差公式)。 -
标准差: 方差的平方根。单位与原数据一致,是最常用的离散程度度量。
Standard Deviation (s) = √Variance
。标准差小,数据围绕均值紧密聚集;标准差大,数据分散。 -
四分位距: 第三四分位数(Q3, 75%位置)与第一四分位数(Q1, 25%位置)之差。
IQR = Q3 - Q1
。衡量中间50%数据的离散程度,不受极端值影响,是识别异常值的基础(常用Q1 - 1.5*IQR
和Q3 + 1.5*IQR
作为异常值边界)。 -
平均绝对偏差: 各数据点与均值(或中位数)之差的绝对值的平均值。概念直观,但数学性质不如方差/标准差好。
-
-
-
分布形态:
-
描述数据分布的对称性、偏斜程度和尖峰程度。
-
常用指标和图:
-
偏度: 衡量分布不对称性的方向和程度。
-
偏度 ≈ 0: 分布大致对称(如正态分布)。
-
偏度 > 0: 正偏态/右偏态。数据向右(较大值方向)拖尾。均值 > 中位数 > 众数。
-
偏度 < 0: 负偏态/左偏态。数据向左(较小值方向)拖尾。均值 < 中位数 < 众数。
-
-
峰度: 衡量分布曲线顶峰的尖锐程度(与正态分布相比)。
-
峰度 ≈ 0: 峰度与正态分布相当(常峰态)。
-
峰度 > 0: 尖峰态。数据分布比正态分布更集中在均值附近,尾部更厚。
-
峰度 < 0: 低峰态/平顶峰。数据分布比正态分布更分散,尾部更薄。
-
-
直方图: 最直观展示分布形状的图表。
-
箱线图: 能同时展示中位数、四分位数、极差、异常值,对分布形状有粗略展示(特别是偏斜和异常值)。
-
Q-Q图 / P-P图: 用于更精确地检验数据是否服从特定分布(如正态分布)。
-
-
-
变量间关系:
-
当数据集包含多个变量时,描述性统计也用于探索变量之间的关联。
-
常用方法:
-
散点图: 两个连续变量之间关系的直观展示(正相关、负相关、非线性相关、无相关)。
-
协方差: 衡量两个变量协同变化的方向。正值表示同向变化,负值表示反向变化。
Cov(X,Y) = Σ[(xᵢ - Meanₓ)(yᵢ - Meanᵧ)] / (n - 1)
。但其数值大小受变量自身量纲影响,不便于直接比较相关性强弱。 -
相关系数:
-
皮尔逊相关系数: 衡量两个连续变量之间线性关系的强度和方向。
r = Cov(X,Y) / (sₓ * sᵧ)
。取值范围 [-1, 1]。-
|r| ≈ 1: 强线性相关。
-
|r| ≈ 0: 弱线性相关或无线性相关(可能存在非线性关系)。
-
r > 0: 正相关。
-
r < 0: 负相关。
-
-
斯皮尔曼等级相关系数: 衡量两个变量之间的单调关系(不一定是线性)的强度和方向。基于数据的排名计算。
-
卡方检验 / 列联表: 用于分析两个分类变量之间是否存在关联。
-
-
交叉表: 展示两个或多个分类变量联合分布的频数或比例。
-
-
常用工具与方法:
-
统计量计算: 直接计算上述各种指标(均值、标准差、方差、中位数、四分位数、极差、IQR、偏度、峰度、相关系数等)。
-
数据可视化:
-
单变量: 直方图、箱线图、茎叶图、饼图(分类数据)、条形图(分类数据)。
-
双变量: 散点图、分组条形图、堆叠条形图、热力图。
-
多变量: 散点图矩阵、平行坐标图(较少用)。
-
-
频数分布表: 展示数据在不同类别或区间内出现的次数或比例。
描述性统计 vs. 推断性统计:
这是初学者容易混淆的关键点:
特征 | 描述性统计 | 推断性统计 |
---|---|---|
目的 | 描述样本数据的特征 | 利用样本数据推断总体特征或检验假设 |
对象 | 样本数据本身 | 样本数据代表的未知总体 |
方法 | 计算统计量、绘制图表 | 参数估计(置信区间)、假设检验、回归分析等 |
结论 | 报告样本的实际情况(如样本均值=5.2) | 对总体做出概率性陈述(如总体均值可能在4.8-5.6之间,置信度95%) |
不确定性 | 不涉及抽样误差 | 核心是量化和管理抽样误差带来的不确定性 |
重要性与应用:
描述性统计是任何数据分析项目的第一步和基础。它在几乎所有涉及数据的领域都有广泛应用:
-
商业智能: 报告销售总额、平均订单额、客户地域分布、产品销量排名等。
-
市场研究: 描述消费者人口统计特征(年龄、性别分布)、满意度评分均值、品牌认知度比例等。
-
金融: 计算股票收益率均值、波动率(标准差)、风险价值。
-
社会科学: 描述调查问卷结果(各选项比例、平均态度得分)、人口普查数据(平均收入、教育水平分布)。
-
自然科学与工程: 报告实验数据的平均值、误差范围(标准差)、测量结果的分布。
-
质量控制: 监控生产过程的均值、标准差、合格率。
-
日常报告: 任何需要总结和展示数据的场合。
总结:
描述性统计分析是打开数据宝库的第一把钥匙。它通过计算关键统计量(集中趋势、离散程度、分布形态)和绘制直观图表(直方图、箱线图、散点图等),有效地总结、简化和呈现数据的主要特征和模式,帮助我们快速理解“数据讲了什么故事”。它为后续更复杂的推断性统计分析、建模和决策提供了不可或缺的基础和洞察。不做好描述性统计就急于进行高级分析,就像不看地图就一头扎进未知森林一样危险。