一、三大概念
1.1 人工智能(AI)
- Artificial Intelligence 人工智能
- AI is the field that studies the synthesis and analysis of computational agents that act intelligently
1.2 机器学习(ML)
- Machine Learning 机器学习
- Field of study that gives computers the ability to learn without being explicitly programmed
1.3 深度学习(DL)
- Deep Learning 深度学习
1.4 三者关系
- 机器学习是实现人工智能的一种途径。
- 深度学习是机器学习的一种方法。
1.5 学习方式
1.5.1 基于规则的学习
- 基于规则的预测
- 图像与语音识别
- 自然语言处理
1.5.2 基于模型的学习
- 通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型
二、人工智能应用领域和发展史
2.1 应用领域
- 用户分析:社交网络、影评、商品评论
- 搜素引擎:网页、图片、规频、新闻、学术、地图
- 信息推荐:新闻、商品、游戏、书籍
- 图片识别:人像、用品、劢物、交通工具
- 机器翻译、摘要生成 … 生物信息学习 … 多模态 AR/VR
2.2 发展历史
2.3 发展三要素
- CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务。
- GPU:更加适合矩阵运算;主要适合计算密集型任务。
- TPU:Tensor,专门针对神经网络训练设计一款处理器。
三、常见术语
- 样本(sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录。
- 特征(feature):一列数据一个特征,有时也被称为属性。
- 标签/目标(label/target):模型要预测的那一列数据。
- 数据集:
- 训练集(training set):用来训练模型(model)的数据集
- 测试集(testing set):用来测试模型的数据集
四、算法分类
4.1 有监督学习
4.1.1 定义
输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的。
4.1.2 数据集
数据人工标注
4.1.3 分类
目标值(标签值)不连续
分类种类:二分类和多分类
4.1.4 回归
目标值(标签值)连续
4.2 无监督学习
4.2.1 定义
输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。
4.2.2 数据集
数据无需标注
4.2.3 特点
- 训练数据无标签。
- 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系。
4.3 半监督学习
4.3.1 工作原理
- 标注少量数据。
- 利用已经标注的少量数据训练出一个模型。
- 再利用训练出的模型去套用未标记的数据。
- 对比专家分类结果与模型分类结果,从而对模型做进一步改善和提高。
4.3.2 特点
- 大幅降低标注成本
4.4 强化学习
4.4.1 工作原理
四要素:
- agent
- 环境状态
- 行动
- 奖励
4.5 四者对比
Input | output | 目的 | 案例 | |
---|---|---|---|---|
监督学习(supervised learning) | 有标签 | 有反馈 | 预测结果 | 猫狗分类、房价预测 |
无监督学习(unsupervised learning) | 无标签 | 无反馈 | 发现潜在结构 | “物以类聚,人以群分” |
半监督学习(Semi-Supervised Learning) | 部分有标签,部分无标签 | 有反馈 | 降低数据标记的难度 | |
强化学习(reinforcement learning) | 决策流程及激励系统 | 一系列行动 | 长期利益最大化 | 学下棋 |
五、建模流程
步骤序号 | 步骤名称 | 具体内容 |
---|---|---|
1 | 获取数据 | 获取经验数据、图像数据、文本数据 … |
2 | 数据基本处理 | 数据缺失值处理、异常值处理 … |
3 | 特征工程 | 特征提取、特征预处理、特征降维 … |
4 | 机器学习(模型训练) | 线性回归、逻辑回归、决策树、GBDT |
5 | 模型评估 | 回归评测指标、分类评测指标、聚类评测指标 |
六、特征工程
6.1 定义
- 从数据集的角度,指一列一列的数据。
- 从模型训练的角度,指对预测结果有用的属性。
利用专业背景知识和技巧处理数据,让机器学习算法效果最好。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
6.2 特征提取
从原始数据中提取与任务相关的特征,构成特征向量。对于文本、图片这种非行列形式的数据行列形式转换,一旦转换成行列形式一列就是特征。
6.3 特征预处理
将不同的单位的特征数据转换成同一个范围内,使训练数据中不同特征对模型产生较为一致的影响。
6.4 特征降维
将原始数据的维度降低,会丢失部分信息,但需要保证数据的主要信息要保留下来。
6.5 特征选择
原始数据通常存在丰富多样的特征,对于给定任务而言,有效特征仅为全体特征构成集合中的一个子集。此时,需从原始特征集合里,甄别并选取对任务具备显著价值的重要特征或强相关特征,且整个过程不会对原始数据本身的特征表示与分布产生改变。
6.6 特征组合
通过加法、乘法等方法把多个的特征合并成一个特征。
[A x B]
:将两个特征的值相乘形成的特征组合[A x B x C x D x E]
:将五个特征的值相乘形成的特征组合[A x A]
:对单个特征的值求平方形成的特征组合
七、模型拟合
- 拟合
- 定义:表示模型对样本点的拟合情况
- 欠拟合
- 定义:模型在训练集上表现很差,在测试集表现也很差
- 原因:模型过于简单
- 过拟合
- 定义:模型在训练集上表现很好,在测试集表现很差
- 原因:模型过于复杂,数据不纯,训练数据太少
- 泛化
- 定义:模型在新数据集上的表现好坏的能力
- 奥卡姆剃刀原则
- 给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
微语录:在一切破旧褪色中,请你永远闪烁。