【机器学习笔记 Ⅱ】3 前向传播

前向传播（Forward Propagation）实现详解

前向传播是神经网络中数据从输入层流向输出层的过程，通过逐层计算每一层的输出，最终得到预测结果。以下是其实现原理和步骤的完整解析：

1. 前向传播的核心步骤

(1) 线性变换（Linear Transformation）

对输入数据 (\mathbf{X}) 进行加权求和并加上偏置：

(2) 激活函数（Activation Function）

对线性变换结果应用非线性激活：

(3) 逐层传递

重复上述步骤，直到输出层：
[
\text{输入层} \rightarrow \text{隐藏层1} \rightarrow \dots \rightarrow \text{输出层}
]

2. 数学公式示例（以3层网络为例）

假设网络结构为：输入层 → 隐藏层（ReLU）→ 输出层（Softmax）：

3. 代码实现（Python + NumPy）

(1) 定义激活函数

import numpy as npdef relu(z):return np.maximum(0, z)def softmax(z):exp_z = np.exp(z - np.max(z, axis=1, keepdims=True))  # 防溢出return exp_z / np.sum(exp_z, axis=1, keepdims=True)

(2) 初始化参数

input_size = 784  # 输入维度（如MNIST图像展平后）
hidden_size = 128  # 隐藏层神经元数
output_size = 10   # 输出类别数（如10分类）# 随机初始化权重和偏置
W1 = np.random.randn(input_size, hidden_size) * 0.01
b1 = np.zeros((1, hidden_size))
W2 = np.random.randn(hidden_size, output_size) * 0.01
b2 = np.zeros((1, output_size))

(3) 前向传播实现

def forward_propagation(X, W1, b1, W2, b2):# 隐藏层计算z1 = np.dot(X, W1) + b1a1 = relu(z1)# 输出层计算z2 = np.dot(a1, W2) + b2y_pred = softmax(z2)return y_pred, {"z1": z1, "a1": a1}  # 缓存中间结果（用于反向传播）# 示例输入（假设X是100张784维的MNIST图像）
X = np.random.randn(100, input_size)
y_pred, cache = forward_propagation(X, W1, b1, W2, b2)
print("预测结果形状：", y_pred.shape)  # 输出 (100, 10)

4. 关键细节与注意事项

(1) 维度一致性检查

输入 (\mathbf{X}) 形状：(batch_size, input_size)。
权重 (\mathbf{W}^{(l)}) 形状：(上一层神经元数, 当前层神经元数)。
偏置 (\mathbf{b}^{(l)}) 形状：(1, 当前层神经元数)（广播机制自动扩展）。

(2) 激活函数的选择

任务类型	隐藏层激活函数	输出层激活函数
二分类	ReLU	Sigmoid
多分类	ReLU	Softmax
回归	ReLU	无（线性输出）

(3) 数值稳定性

Softmax溢出问题：需减去最大值（z - np.max(z)）。
初始化权重：小随机数（如乘0.01），避免初始激活值过大。

5. 前向传播 vs 反向传播

阶段	前向传播	反向传播
目的	计算预测值 (\hat{y})	计算梯度 (\frac{\partial J}{\partial \mathbf{W}})
数据流向	输入层 → 输出层	输出层 → 输入层
缓存内容	保存 (\mathbf{z}, \mathbf{a})	利用缓存的 (\mathbf{z}, \mathbf{a}) 计算梯度

6. 实际应用中的优化

(1) 批量处理（Batch Processing）

一次性计算多个样本（如100张图像）的前向传播，利用矩阵运算加速。
输入X形状为 (batch_size, input_size)。

(2) 深度学习框架实现

TensorFlow/Keras：自动处理前向传播，用户只需定义层结构。

model = Sequential([Dense(128, activation='relu', input_shape=(784,)),Dense(10, activation='softmax')
])
y_pred = model.predict(X)

PyTorch：通过 forward 方法自定义前向逻辑。

class Net(nn.Module):def __init__(self):super().__init__()self.fc1 = nn.Linear(784, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = torch.softmax(self.fc2(x), dim=1)return x

7. 总结

前向传播是神经网络预测的核心过程，通过线性变换和激活函数逐层传递数据。
实现要点：
1. 确保权重和输入的维度匹配。
2. 合理选择激活函数（隐藏层用ReLU，输出层按任务选择）。
3. 缓存中间结果（z, a）以供反向传播使用。
扩展应用：CNN中的卷积层、RNN中的时间步展开均基于相同原理。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/88025.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/88025.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！