机器学习之线性回归的入门学习

线性回归是一种监督学习算法，用于解决回归问题。它的目标是找到一个线性关系（一条直线或一个超平面），能够最好地描述一个或多个自变量（特征）与一个因变量（目标）之间的关系。利用回归方程对一个或多个自变量（特征值）和因变量（目标值）之间的关系进行建模的一种分析方式。

一.线性回归的简单介绍

目标： 根据输入的特征（X）来预测一个连续数值的输出（y）。例如：

例1. 根据房屋面积（特征）预测房价（目标）。
例2. 根据广告投入（特征）预测销售额（目标）。
例3. 根据学习时间（特征）预测考试分数（目标）。

“线性”的含义：

回归 (Regression): 一种监督学习任务，目标是预测一个连续值的输出变量（目标变量）。比如预测房价、温度、销售额等。

模型: 线性回归模型试图学习一个线性函数（或称为超平面，当特征多于一个时），用输入特征来最佳地拟合或预测输出目标。

找到一组最优的系数 (β₀, β₁, ..., βₙ)，使得模型预测的 ŷ (读作 y-hat) 与真实的 y 值之间的误差尽可能小。

一个自变量（X）与因变量（Y）呈直线关系：y = w * x + b，属于线性回归的基础模型

y：预测的目标值（因变量）。

x：输入的特征（自变量）。

w：权重或斜率。表示特征 x 对目标 y 的影响程度（x 每变化一个单位，y 预期变化多少）。

b：偏置项或截距。表示当所有特征为 0 时，预测的 y 值（有时有实际意义，有时没有）。

多个自变量（X₁, X₂, ..., Xₚ）共同与Y呈线性关系：y = w1 * x1 + w2 * x2 + ... + wn * xn + b，属于线性回归的核心模型

y：预测的目标值。

x1, x2, ..., xn：n 个输入特征。

w1, w2, ..., wn：每个特征对应的权重。

b：偏置项。

X与Y的关系无法用直线/平面描述（如曲线、指数关系）

处理方式：

关键点：

核心本质：线性回归的“线性”指模型对参数β是线性的（如 β₀ + β₁X₁ + β₂X₂），而非对自变量线性。因此即使自变量存在非线性项（如 X²），只要关于β线性，仍可用线性回归求解。

损失函数（也称为代价函数 - Cost Function）的核心作用是量化模型预测值与真实值之间的差距。在线性回归中，我们通常使用均方误差 (Mean Squared Error, MSE) 作为损失函数。它计算的是所有训练样本的预测值与真实值之差的平方的平均值。

它像一个打分器。我们的目标是找到一组模型参数 θ（θ₀, θ₁, ..., θₙ），使得这个打分器给出的分数 J(θ) 尽可能小。J(θ) 越小，说明模型的整体预测误差越小，拟合得越好。

数学表达式：J(θ) = (1/(2m)) * Σᵢ₌₁ᵐ (hθ(x⁽ⁱ⁾) - y⁽ⁱ⁾)²

J(θ)：损失函数的值（依赖于模型参数 θ）。
m：训练样本的数量。
hθ(x⁽ⁱ⁾)：模型对第 i 个样本 x⁽ⁱ⁾ 的预测值（hθ(x) = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ）。
y⁽ⁱ⁾：第 i 个样本的真实标签值。
Σᵢ₌₁ᵐ：对所有 m 个训练样本求和。
(1/(2m))：前面的 1/2 主要是为了后续梯度下降计算导数时方便（平方项求导会产生因子2，正好抵消），1/m 表示计算平均值。有时也会省略 1/2，直接用 1/m，这对找到最小值的位置没有影响。

直观理解：

平方的作用：
保证差值总是正数（负的差值平方后变正）。放大较大误差的惩罚：一个误差为2的点对损失的贡献是4，而一个误差为4的点贡献是16，是前者的4倍！这使得模型对异常值非常敏感。
平均的作用： 消除样本数量 m 对损失值大小的影响，使得不同大小数据集的损失值具有可比性。

优化的目标就是找到一组参数 θ，使得损失函数 J(θ) 的值最小化。

想象你站在一个山谷（代表损失函数 J(θ)）的某个山坡上，目标是走到谷底（最小值点）。梯度下降的策略是：

正规方程 (Normal Equation)：

对于线性回归，损失函数 J(θ) 是凸函数（碗状），存在一个解析解（闭式解），可以直接通过一个数学公式一步计算出最优 θ：
θ = (XᵀX)⁻¹Xᵀy
- X 是包含所有样本特征的设计矩阵（每行一个样本，第一列通常全为1对应 θ₀）。
- y 是包含所有样本真实标签的向量。
优点： 不需要选择学习率 α，不需要迭代。
缺点：
1. 计算量大： 计算矩阵 (XᵀX) 的逆的时间复杂度是 O(n³)（n 是特征数量）。当特征数量 n 非常大（如 > 10000）时，计算会非常慢甚至不可行。
2. 要求 XᵀX 可逆： 如果特征之间存在精确线性相关（多重共线性）或者样本数 m 小于特征数 n，XᵀX 不可逆（或奇异），无法使用。虽然可以通过伪逆解决，但稳定性可能变差。
适用场景： 特征数量 n 相对较小（例如几千以内）且 XᵀX 容易求逆时。

简单易懂，实现方便：

原理直观： 线性关系是人类最容易理解的关系之一。
算法成熟： 求解方法（如最小二乘法）在数学上非常成熟、高效，计算复杂度低（通常是O(n*p²)或更低，其中n是样本数，p是特征数），即使是大型数据集也能快速训练。
广泛支持： 几乎所有统计软件和编程语言（Python, R, MATLAB, Excel等）都内置了高效的线性回归实现。

可解释性强：