看了b站一个清华博士的视频做的笔记,对于人工智能的底层原理,训练方式,以及生成式文本输出,图片生成的底层原理有了一个了解,算是一个还不错的科普文。之前一直想要了解一下机器学习的入门原理,神经网络相关的,但是这个词一听好像于自己而言难度有点大了,但是b站的各种通俗易懂的科普视频总会给我不一样的输入。
1. 人工智能发展的各阶段
人工智能发展的几个阶段:
1)符号主义:
1960-1970年代:早期专家系统 ,在这个时期,AI研究主要集中在符号主义,以逻辑推理为中心。此时的AI主要是基于规则的系统,比如早期的专家系统。
2)联结主义:
又称为神经网络或基于学习的AI .
例如这个黑箱要识别一个苹果,它会根据不同的描述特征来对苹果进行识别,分别乘以一个正相关和负相关的系数,最后得出一个值:
计算系数:感知机,类似神经元
识别结果:
2. 智能的本质
智能的本质就是针对不同的情景给出针对性的输出反应
用数学公式简单可以表达为: (Funcitons describe the world !)
3. 神经网络
神经网络这个词听起来就比较复杂,《深度学习革命》一书中针对这个词的来源进行了非常详细的来源记录,它正式被提出是在1958年,心理学家Frank Rosenblatt提出感知机(Perceptron),这是第一个可训练的神经网络模型,用于模式识别。Rosenblatt在论文中明确使用了“神经网络”(neural network)一词,强调其与生物神经系统的相似性。
经常听到像卷积神经网CNN,循环神经网络RAN,生成对抗网络GAN,图神经网络GNN这些术语,其实这些都是深度学习的算法模型,属于深度学习的使用工具。在实际的场景中经常会多个结合一起使用。
那么深度学习=神经网络? 实际上深度学习是使用多层神经网络的方法,但神经网络本身只是其中一种技术。
人工智能(AI) #让机器模仿人类智能的大概念(比如会下棋、识图的机器都算AI)。
│
└── 机器学习(ML) #AI的一个分支,通过数据自动学习规律(比如用大量猫狗图片训练模型区分猫狗)。 │└── 深度学习(DL) #机器学习的一个分支,用多层神经网络模拟人脑学习(比如用CNN识别图片中的猫)。│├── CNN:处理图像(扫描局部特征)├── RNN:处理序列(带记忆分析)└── GAN:生成数据(真假对抗)
不同算法模型的对比:
模型 | 中文全称 | 核心能力 | 典型应用场景 | 优点 | 缺点 |
CNN | 卷积神经网络 | 图像特征提取 | 人脸识别、医学影像 | 局部感知、参数共享 | 不擅长序列数据 |
RNN/LSTM | 循环神经网络/长短期记忆网络 | 序列建模 | 语音识别、文本生成 | 记忆上下文信息 | 计算效率低、长序列处理弱 |
GAN | 生成对抗网络 | 数据生成 | AI绘画、图像修复 | 生成质量高 | 训练不稳定 |
Transformer | Transformer(无通用中文译名) | 全局依赖建模 | 机器翻译、文本生成 | 并行计算、长距离依赖强 | 资源消耗大 |
ResNet | 残差网络 | 极深网络训练 | 图像分类、目标检测 | 解决梯度消失 | 结构复杂 |
自编码器 | 自编码器 | 数据压缩与重建 | 图像去噪、异常检测 | 无监督学习 | 生成能力有限 |
GNN | 图神经网络 | 图结构分析 | 社交网络、药物研发 | 建模复杂关系 | 计算复杂度高 |
CapsNet | 胶囊网络 | 空间层次理解 | 姿态估计 | 对空间变换鲁棒 | 应用不广泛 |
看到b站有个对神经网络的比喻,感觉还蛮贴合的的,神经网络有点类似机场的构造,不过机场流动是单向的,不过神经网络有反向传播。下面这个是操作动线类比,
机场动线:值机柜台 → 安检门 → 免税店 → 登机口 → 起飞
神经网络:输入层 → 隐藏层1(激活)→ 隐藏层2(激活)→ 输出层 → 预测结果
神经元就是机场的各个服务节点,例如安检口,行李托放点,免税店等,
激活函数就等于各个通道的开关逻辑,例如安检口检查到违规金属就拦截,否则放行; vip 通道可以让vip 客户直接放行,经济舱客户需要派对等候放行;
损失函数就是类似客户满意度调查,也就是实际登机时间和预期登机时间的差距;
梯度下降就是类似于流程优化,例如排队时间过长需要增开通道或者人员配比。
举个场景例子:
场景:训练一个判断「旅客是否携带违禁品」的神经网络
- 输入层:旅客的行李X光图像(像素数据)
- 隐藏层1:安检口初步识别金属物品(边缘检测)
- 激活函数:ReLU决定是否触发开箱检查
- 隐藏层2:分析物品形状是否匹配危险品数据库
- 输出层:Sigmoid输出危险概率(0-1之间)
- 损失函数:对比预测结果与人工检查结果
- 梯度下降:优化X光机灵敏度(权重)和开箱阈值(偏置)
通过数万次「模拟旅客安检」,最终让系统自动学会精准识别危险品。
4. 感知机
最近看了人工智能的发展史才get 到感知机这个概念,这其实可以类比人的大脑神经结构:
简单的说,一个神经元把它从其他神经元接收到的所有输入信号加起来,如果达到某个特定的阈值水平,它就会被激活。
那么感知机是什么?
感知机就是一个根据加权输入的总和是否满足阈值来做出是或否(输出1或0)的决策的简单程序
5. 拟合函数
拟合函数又叫预测函数,智能的本质是一个黑箱,这个黑箱能够从输入和输出的联系中找到一个对应关系,在数据驱动的智能领域中,所谓的智能,本质上就是给你一堆点,然后用一个函数拟合它们之间的关系。
6. 损失函数
损失函数又叫代价函数。损失函数的值其实就是真实值与预测函数之间的差值大小,也就是针对每个x的输出y值 和预测函数y值的绝对值差距大小。 损失函数值越小,输出越精确
7. 激活函数
激活函数用于神经网络中,用来决定神经元是否应该被激活,也就是是否将信号传给下一代。它主要是用来在神经网络中增加非线性,可以用来处理更复杂的情况
各种激活函数,最常用的是ReLU 。这个函数的形状还有人将它比喻为排队时候的隔离柱,直线折线曲线,随意调整角度位置,
8. 梯度下降算法
梯度下降算法是众多人工智能算法的基础和鼻祖。 如何奖励惩罚一个神经网络,也就是如何通过数据来训练网络找到最好的参数:梯度下降 算法 ,梯度下降其实就是一种优化方法,用来调整模型的参数,使得损失函数值最小化。
类比就是如果你要快速下山,那么每次你需要找到往下最陡峭的点然后一步一步调整下去,步长其实就是学习率。
梯度算法的认知图谱:
一个可视化的神经网络平台
谷歌推出的一个神经网络可视化教学平台,通过设置不同类型数据集,输入特征选择,神经网络结构的隐藏层和激活函数,设置不同是训练参数集如学习率等来观察模型训练中的动态变化。
A Neural Network Playground
9. Transformer
Transformer 也是一种深度学习模型,它的核心思想是“Attention is all you need ”, Transformer 完全基于注意力机制,区别与RNN 和CNN 。 它由两部分组成,编码器(Encoder) 和解码器(Decoder) . 每个部分都是由多个相同的层堆叠而成,每层包含了多头注意力机制(Multi-head Attention) 和位置全连接前馈网络。
那么什么是注意力机制?每个词都能关注句子中的其他词,从而理解句子的含义
数学不好,Transformer 里面涉及复杂的数学知识有点令人费解,它的主要流程是:
输入处理阶段需要分词、嵌入、位置编码。编码器部分需要自注意力和前馈网络,解码器部分需要掩码注意力和交叉注意力。输出生成需要线性层和softmax。
让deepseesk 通俗讲解一下:
b站视频推荐:
王木头学科学的个人空间-王木头学科学个人主页-哔哩哔哩视频
90分钟!清华博士带你一口气搞懂人工智能和神经网络_哔哩哔哩_bilibili