机器学习的一些基本概念

看了b站一个清华博士的视频做的笔记，对于人工智能的底层原理，训练方式，以及生成式文本输出，图片生成的底层原理有了一个了解，算是一个还不错的科普文。之前一直想要了解一下机器学习的入门原理，神经网络相关的，但是这个词一听好像于自己而言难度有点大了，但是b站的各种通俗易懂的科普视频总会给我不一样的输入。

1. 人工智能发展的各阶段

人工智能发展的几个阶段：

1）符号主义：

1960-1970年代：早期专家系统，在这个时期，AI研究主要集中在符号主义，以逻辑推理为中心。此时的AI主要是基于规则的系统，比如早期的专家系统。

2）联结主义：

又称为神经网络或基于学习的AI .

例如这个黑箱要识别一个苹果，它会根据不同的描述特征来对苹果进行识别，分别乘以一个正相关和负相关的系数，最后得出一个值：

计算系数：感知机，类似神经元

识别结果：

2. 智能的本质

智能的本质就是针对不同的情景给出针对性的输出反应

用数学公式简单可以表达为：（Funcitons describe the world !）

3. 神经网络

神经网络这个词听起来就比较复杂，《深度学习革命》一书中针对这个词的来源进行了非常详细的来源记录，它正式被提出是在1958年，心理学家Frank Rosenblatt提出感知机（Perceptron），这是第一个可训练的神经网络模型，用于模式识别。Rosenblatt在论文中明确使用了“神经网络”（neural network）一词，强调其与生物神经系统的相似性。

经常听到像卷积神经网CNN，循环神经网络RAN，生成对抗网络GAN,图神经网络GNN这些术语，其实这些都是深度学习的算法模型，属于深度学习的使用工具。在实际的场景中经常会多个结合一起使用。

那么深度学习=神经网络？实际上深度学习是使用多层神经网络的方法，但神经网络本身只是其中一种技术。

人工智能（AI） #让机器模仿人类智能的大概念（比如会下棋、识图的机器都算AI）。 
│
└── 机器学习（ML） #AI的一个分支，通过数据自动学习规律（比如用大量猫狗图片训练模型区分猫狗）。 │└── 深度学习（DL） #机器学习的一个分支，用多层神经网络模拟人脑学习（比如用CNN识别图片中的猫）。│├── CNN：处理图像（扫描局部特征）├── RNN：处理序列（带记忆分析）└── GAN：生成数据（真假对抗）

不同算法模型的对比：

模型	中文全称	核心能力	典型应用场景	优点	缺点
CNN	卷积神经网络	图像特征提取	人脸识别、医学影像	局部感知、参数共享	不擅长序列数据
RNN/LSTM	循环神经网络/长短期记忆网络	序列建模	语音识别、文本生成	记忆上下文信息	计算效率低、长序列处理弱
GAN	生成对抗网络	数据生成	AI绘画、图像修复	生成质量高	训练不稳定
Transformer	Transformer（无通用中文译名）	全局依赖建模	机器翻译、文本生成	并行计算、长距离依赖强	资源消耗大
ResNet	残差网络	极深网络训练	图像分类、目标检测	解决梯度消失	结构复杂
自编码器	自编码器	数据压缩与重建	图像去噪、异常检测	无监督学习	生成能力有限
GNN	图神经网络	图结构分析	社交网络、药物研发	建模复杂关系	计算复杂度高
CapsNet	胶囊网络	空间层次理解	姿态估计	对空间变换鲁棒	应用不广泛

看到b站有个对神经网络的比喻，感觉还蛮贴合的的，神经网络有点类似机场的构造，不过机场流动是单向的，不过神经网络有反向传播。下面这个是操作动线类比，

机场动线：值机柜台 → 安检门 → 免税店 → 登机口 → 起飞
神经网络：输入层 → 隐藏层1（激活）→ 隐藏层2（激活）→ 输出层 → 预测结果

神经元就是机场的各个服务节点，例如安检口，行李托放点，免税店等，

激活函数就等于各个通道的开关逻辑，例如安检口检查到违规金属就拦截，否则放行； vip 通道可以让vip 客户直接放行，经济舱客户需要派对等候放行；

损失函数就是类似客户满意度调查，也就是实际登机时间和预期登机时间的差距；

梯度下降就是类似于流程优化，例如排队时间过长需要增开通道或者人员配比。

举个场景例子：

场景：训练一个判断「旅客是否携带违禁品」的神经网络

输入层：旅客的行李X光图像（像素数据）
隐藏层1：安检口初步识别金属物品（边缘检测）
激活函数：ReLU决定是否触发开箱检查
隐藏层2：分析物品形状是否匹配危险品数据库
输出层：Sigmoid输出危险概率（0-1之间）
损失函数：对比预测结果与人工检查结果
梯度下降：优化X光机灵敏度（权重）和开箱阈值（偏置）

通过数万次「模拟旅客安检」，最终让系统自动学会精准识别危险品。

4. 感知机

最近看了人工智能的发展史才get 到感知机这个概念，这其实可以类比人的大脑神经结构：

简单的说，一个神经元把它从其他神经元接收到的所有输入信号加起来，如果达到某个特定的阈值水平，它就会被激活。

那么感知机是什么？

感知机就是一个根据加权输入的总和是否满足阈值来做出是或否（输出1或0）的决策的简单程序

5. 拟合函数

拟合函数又叫预测函数，智能的本质是一个黑箱，这个黑箱能够从输入和输出的联系中找到一个对应关系，在数据驱动的智能领域中，所谓的智能，本质上就是给你一堆点，然后用一个函数拟合它们之间的关系。

6. 损失函数

损失函数又叫代价函数。损失函数的值其实就是真实值与预测函数之间的差值大小，也就是针对每个x的输出y值和预测函数y值的绝对值差距大小。损失函数值越小，输出越精确

7. 激活函数

激活函数用于神经网络中，用来决定神经元是否应该被激活，也就是是否将信号传给下一代。它主要是用来在神经网络中增加非线性，可以用来处理更复杂的情况

各种激活函数，最常用的是ReLU 。这个函数的形状还有人将它比喻为排队时候的隔离柱，直线折线曲线，随意调整角度位置，

8. 梯度下降算法

梯度下降算法是众多人工智能算法的基础和鼻祖。如何奖励惩罚一个神经网络，也就是如何通过数据来训练网络找到最好的参数：梯度下降 算法，梯度下降其实就是一种优化方法，用来调整模型的参数，使得损失函数值最小化。

类比就是如果你要快速下山，那么每次你需要找到往下最陡峭的点然后一步一步调整下去，步长其实就是学习率。

梯度算法的认知图谱：

一个可视化的神经网络平台

谷歌推出的一个神经网络可视化教学平台，通过设置不同类型数据集，输入特征选择，神经网络结构的隐藏层和激活函数，设置不同是训练参数集如学习率等来观察模型训练中的动态变化。

A Neural Network Playground

9. Transformer

Transformer 也是一种深度学习模型，它的核心思想是“Attention is all you need ”， Transformer 完全基于注意力机制，区别与RNN 和CNN 。它由两部分组成，编码器（Encoder）和解码器（Decoder） . 每个部分都是由多个相同的层堆叠而成，每层包含了多头注意力机制（Multi-head Attention）和位置全连接前馈网络。

那么什么是注意力机制？每个词都能关注句子中的其他词，从而理解句子的含义