从认识AI开始-----AutoEncoder:生成模型的起点

前言

从15年开始,在深度学习的重要模型中,AutoEncoder(自编码器)可以说是打开生成模型世界的起点。它不仅是压缩与重建的工具,更是VAE、GAN、DIffusion等复杂生成模型的思想起源。其实AutoEncoder并不复杂,它是以一种无监督的方式教会模型将复杂的数据转换成一种更简单的表现形式


一、什么是AutoEncoder

AutoEncoder是一种无监督学习模型,其目标是通过编码器将输入压缩成低维的隐藏表示,称为隐空间,再通过解码器将其还原回原始输入。总的来说,就是:编码器压缩,解码器还原

编码器主要由两部分组成:

  • Encoder:把输入 x 映射到潜在表示 Z
  • Decoder:再将 Z 还原为近似输入的 x 


二、AutoEncoder的原理

前面我已经说了,AutoEncoder是一种神经网络,主要是用来学习数据的表示,尝试用尽可能少的特征来描述大量数据,实现数据压缩,例如下图所示:

 Encoder将输入数据压缩成潜在空间表示,潜在空间是一个低维空间,捕捉了输入数据的核心特征,Decoder则从潜在空间产生的压缩表示中重建原始数据

例如编码图像,对于上面的小狗头像,编码其将图像降维到几个关键特征,潜在空间保存这些特征,解码器再从这些低维特征中重建图像。


三、如何训练AutoEncoder 

我们已经知道了AutoEncoder工作的原理,那么训练自编码器就是最小化原始数据与重建数据之间的差异,目的是提高解码器根据隐空间表示准确重建原始数据的能力,同时,编码器也以一种更好的方式压缩数据,确保原始数据被有效地重建。

通常,我们使用MSE来表示原始数据与重建数据的差异:

Loss= \frac {1}{n}\sum _{i=1}^{n}(y-\hat y)^2


四、隐空间维度的影响

我们已经知道了如何训练AutoEncoder,接下来我们讨论一下隐空间维度对模型的影响。

我们已经知道,AutoEncoder的优势就是它能够进行数据降维,隐空间的维度是由隐空间层的神经元数量决定的,如果隐空间层神经元数量为2,则隐空间就是二维的。接下来我将使用MINST手写数字数据集,训练AutoEncoder,并可视化一下隐空间维度对模型影响。

训练AutoEncoder:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision
from torch.utils.data import DataLoader
from torchvision import transformstransform = transforms.ToTensor()
train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True)class AutoEncoder(nn.Module):def __init__(self):super(AutoEncoder, self).__init__()self.encoder = nn.Sequential(nn.Linear(784, 128),nn.ReLU(),nn.Linear(128, 64))self.decoder = nn.Sequential(nn.Linear(64, 128),nn.ReLU(),nn.Linear(128, 784),nn.Sigmoid())def forward(self, x):x = x.view(x.size(0), -1)z = self.encoder(x)out = self.decoder(z)return outmodel = AutoEncoder()
optimizer = optim.Adam(model.parameters(), lr=1e-3)
loss_fn = nn.MSELoss()for epoch in range(5):for imgs, _ in train_loader:imgs = imgs.view(imgs.size(0), -1)out = model(imgs)loss = loss_fn(out, imgs)optimizer.zero_grad()loss.backward()optimizer.step()print(f"Epoch {epoch}: Loss={loss.item():.4f}")

可视化:

import matplotlib.pyplot as plt
# 设置中文字体为黑体(可选字体)
plt.rcParams['font.sans-serif'] = ['SimHei']
# 正确显示负号  
plt.rcParams['axes.unicode_minus'] = False   model.eval()
with torch.no_grad():for imgs, _ in train_loader:imgs = imgsout = model(imgs)break  # 只看一批就够了imgs = imgs.cpu().view(-1, 1, 28, 28)
out = out.cpu().view(-1, 1, 28, 28)# 显示原图与重建图
n = 10
plt.figure(figsize=(20, 4))
for i in range(n):# 原图ax = plt.subplot(2, n, i + 1)plt.imshow(imgs[i].squeeze(), cmap='gray')plt.title("原始图")plt.axis("off")# 重建图ax = plt.subplot(2, n, i + 1 + n)plt.imshow(out[i].squeeze(), cmap='gray')plt.title("重构图")plt.axis("off")
plt.show()

当隐空间层的维度设置为2时,训练好的AutoEncoder的效果为:

 当隐空间层的维度设置为64时,训练好的AutoEncoder的效果为:

通过对比发现,隐空间的维度大小直接重构数据的质量, 为什么或这样呢?

其实这很好解释,因为AutoEncoder的任务就是压缩、重建,较差的重建质量说明隐空间的组织性较差,因为好的隐空间表示能够将每种类型的数字聚类成一簇。但是较低的隐空间维度虽然也能使得一些类型聚类成簇,但是会导致它们相互重叠,很大概率集中在同一区域,而且可能存在系数现象,如下图所示:

 而更高的维度之间的聚类的分隔度更高,但是仍然会有重叠的部分出现。


五、AutoEncoder的局限

AutoEncoder的最大的局限性就是隐空间,因为AutoEncoder只依赖重建损失来组织隐空间,虽然表现良好,但是通过第四部分我们可以知道,聚类的簇并不是特别完美。为此,大多数基于此类的自编码器都会对隐空间进行正则化,而其中最有名的就是变分自编码器(VAE)。当然,之后我会详细的介绍VAE。


总结

以上就是AutoEncoder的全部内容,相信小伙伴们已经对AutoEncoder有了深刻的理解:AutoEncoder是深度学习中一个经典且充满启发的结构,压缩重构的结构,能够学到数据的“核心特征”,为后续的复杂的生成模型奠定了基础。


如果小伙伴们觉得本文对各位有帮助,欢迎:👍点赞 | ⭐ 收藏 |  🔔 关注。我将持续在专栏《人工智能》中更新人工智能知识,帮助各位小伙伴们打好扎实的理论与操作基础,欢迎🔔订阅本专栏,向AI工程师进阶!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决MySQL8.4报错ERROR 1524 (HY000): Plugin ‘mysql_native_password‘ is not loaded

最近使用了MySQL8.4 , 服务启动成功,但是就是无法登陆,并且报错: ERROR 1524 (HY000): Plugin mysql_native_password is not loaded 使用如下的命令也报错 mysql -u root -p -P 3306 问题分析: 在MySQL 8.0版本中,默认的认证插件从mysql_native_password变更为cachi…

TDengine 开发指南——无模式写入

简介 在物联网应用中,为了实现自动化管理、业务分析和设备监控等多种功能,通常需要采集大量的数据项。然而,由于应用逻辑的版本升级和设备自身的硬件调整等原因,数据采集项可能会频繁发生变化。为了应对这种挑战,TDen…

嵌入式面试高频(5)!!!C++语言(嵌入式八股文,嵌入式面经)

一、C有几种传值方式之间的区别 一、值传递(Pass by Value) 机制:创建参数的副本,函数内操作不影响原始数据语法:void func(int x)特点: 数据安全:原始数据不受影响性能开销:需要复…

Spark 之 AQE

个人其他链接 AQE 执行顺序https://blog.csdn.net/zhixingheyi_tian/article/details/125112793 AQE 产生 AQE 的 循环触发点 src/main/scala/org/apache/spark/sql/execution/adaptive/AdaptiveSparkPlanExec.scala override def doExecute(): RDD[InternalRow] = {withFin…

FSMC扩展外部SRAM

提示:文章 文章目录 前言一、背景二、2.12.2 三、3.1 总结 前言 前期疑问: 本文目标: 一、背景 2025年6月7日 19:34:48 今天看了FSMC扩展外部SRAM的文章,大概理解到stm32除了内部存储器,还可以扩展外部存储器。其中s…

【CSS-6】深入理解CSS复合选择器:提升样式表的精确性与效率

CSS选择器是前端开发的基石,而复合选择器则是其中最强大且实用的工具之一。本文将全面解析CSS复合选择器的类型、用法、优先级规则以及最佳实践,帮助你编写更高效、更精确的样式表。 1. 什么是复合选择器? 复合选择器是通过组合多个简单选择…

使用python实现奔跑的线条效果

效果,展示(视频效果展示): 奔跑的线条 from turtle import * import time t1Turtle() t2Turtle() t3Turtle() t1.hideturtle() t2.hideturtle() t3.hideturtle() t1.pencolor("red") t2.pencolor("green") t3…

从零搭建uniapp项目

目录 创建uni-app项目 基础架构 安装 uni-ui 组件库 安装sass依赖 easycom配置组件自动导入 配置view等标签高亮声明 配置uni-ui组件类型声明 解决 标签 错误 关于tsconfig.json中提示报错 关于非原生标签错误(看运气) 安装 uview-plus 组件库…

Redis主从复制的原理一 之 概述

概述 本文概要性的介绍了Redis主从复制原理,及新旧版本主从复制的区别,优缺点。具体的主从复制过程可详见「Redis主从复制原理二 之 主从复制工作流程」 旧版主从复制的实现 Redis的复制功能分为 同步(sync)和 命令传播&#xff…

网络原理 4-TCP3

上篇文章,我们讲了TCP协议的连接管理(”三次握手“和”四次挥手“的过程)。 4、滑动窗口 这个滑动窗口是TCP中非常有特点的机制。我们知道,TCP是通过前面讲的三个机制:确认应答,超时重传,连接…

【使用 Loki + Promtail + Grafana 搭建轻量级容器日志分析平台】

使用 Loki Promtail Grafana 搭建轻量级容器日志分析平台 摘要 本文介绍如何通过 Docker Compose 快速搭建 Loki 日志存储、Promtail 日志采集和 Grafana 日志可视化/告警的完整流程。用最小化示例演示核心配置、常见问题排查和告警规则设置,帮助读者快速上手。…

CRMEB 中 PHP 快递查询扩展实现:涵盖一号通、阿里云、腾讯云

目前已有一号通快递查询、阿里云快递查询扩展 扩展入口文件 文件目录 crmeb\services\express\Express.php 默认一号通快递查询 namespace crmeb\services\express;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use think\Container; use thi…

使用 Python 自动化 Word 文档样式复制与内容生成

在办公自动化领域,如何高效地处理 Word 文档的样式和内容复制是一个常见需求。本文将通过一个完整的代码示例,展示如何利用 Python 的 python-docx 库实现 Word 文档样式的深度复制 和 动态内容生成,并结合知识库中的最佳实践优化文档处理流程…

【MATLAB代码】基于MCC(最大相关熵)的EKF,一维滤波,用于解决观测噪声的异常|附完整代码,订阅专栏后可直接查看

本文所述的代码实现了一种基于最大相关熵准则(Maximum Correntropy Criterion, MCC)的鲁棒性卡尔曼滤波算法(MCC-KF),重点解决传统卡尔曼滤波在观测噪声存在异常值时估计精度下降的问题。通过引入高斯核函数对残差进行加权处理,有效降低了异常观测值对状态估计的干扰。订…

46、web实验-遍历数据与页面bug修改

46、web实验-遍历数据与页面bug修改 在Web开发中,遍历数据和修改页面bug是常见的任务。以下是关于这两个主题的讲解: ### 一、遍历数据 **目的**:在页面上动态展示数据,例如用户列表、商品信息等。 **常用方法**: ####…

华为云Flexus+DeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己的自定义聊天助手

华为云FlexusDeepSeek征文|体验华为云ModelArts快速搭建Dify-LLM应用开发平台并创建自己的自定义聊天助手 什么是华为云ModelArts 华为云ModelArts ModelArts是华为云提供的全流程AI开发平台,覆盖从数据准备到模型部署的全生命周期管理,帮助…

Qwen大语言模型里,<CLS>属于特殊的标记:Classification Token

Qwen大语言模型里,<CLS>属于特殊的标记:Classification Token 目录 Qwen大语言模型里,<CLS>属于特殊的标记:Classification Token功能解析工作机制应用场景举例说明技术要点在自然语言处理(NLP)领域 都是<CLS> + <SEP>吗?一、CLS和SEP的作用与常见用法1. **CLS标…

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…

JAVA毕业设计224—基于Java+Springboot+vue的家政服务系统(源代码+数据库)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue的家政服务系统(源代码数据库)224 一、系统介绍 本项目前后端分离,分为用户、家政人员、管理员三种角色 1、用户: 登录、注册、轮播…

滴滴 服务端 面经

一、缓存与数据库的使用场景及性能差异 1. 缓存的适用场景 高频读、低频写场景:如商品详情页、用户信息等读多写少的数据,减少数据库压力。实时性要求不高的数据:如首页推荐列表、统计数据(非实时更新),允…