实战演练—基于Transformers的NLP解决方案总结
- 截至目前讲解的基础组件
- 以文本分类为例
- Transformers显存优化
截至目前讲解的基础组件
- Pipeline
流水线,用于模型推理,封装了完整的推理逻辑,包括数据预处理、模型预测及后处理 - Tokenizer
分词器,用于数据预处理,将原始文本输入转换为模型的输入,包括input ids、attention mask等 - Model
模型,用于加载、创建、保存模型,对Pytorch中的模型进行了封装,同时更好的支持预训练模型 - Datasets
数据集,用于数据集加载与预处理,支持加载在线与本地的数据集, 提供了数据集层面的处理方法。 - Evaluate
评估函数,用于对模型的结果进行评估,支持多种任务的评估函数 - Trainer
训练器,用于模型训练、评估,支持丰富的配置选项,快速启动模型训练流程
以文本分类为例
- Step1导入相关包General
- Step2加载数据集Datasets
- Step3数据集划分Datastes
- Step4数据集预处理Tokenizer Datasets
- Step5创建模型Model
- Step6设置评估函数Evaluate
- Step7配置训练参数TrainingArguments
- Step8创建训练器Trainer + Data Collator
- Step9模型训川练、评估、预测(数据集)Trainer