大模型量化004

Bert+ P-tuning

Bert+PET、Bert+P-Tuning

Chain of Thought
Few shot Cot
Auto-COT 解决手动编写高质量CoT示例麻烦耗时的问题

Auto COT 自动思维链生成器

1.业务场景：每天收到很多反馈，之前需要人工整理，找到重点，做判断那些需要立即处理，
那些可以慢慢处理，那些不是问题，希望生成报告
2反馈聚类：
根据这个反馈，看一看提出了哪些方面的问题
3代表性采样：
从历史的业务数据中找到每个类别，代表性问题
4.Zero shot Cot 生成分析范例：
把代表性问题丢给大模型，让他生成思考过程
添加大模型作为裁判
5. 构建最终提示：
将前面的内容拼接成一个few shot
把拼接好的结果丢给大模型。

比较适合的业务场景：
问题多样性要处理的问题是不是高度多样化，需要考虑不同的维度
是否需要多步复杂推理
示例构建难度（自己手动写高质量的COT是不是很耗时间）
是不是总有扩展需求
质量需求（当前任务对结果需求是否很高）
上面几个问题，有一半以上都跟场景能对得上，就是适合的场景，如果不是，自己写COT的提示词模板
速度慢，比较浪费TOKEN

大模型的量化：

H20 8卡 96G 141G
DeepSeek R1 671B FP8训练的 1B字节对应1G 输入KV-cache

4090 24G 5090 32G 量化+offload 卸载一部分参数加载到内存中
KTransformer 存内存的方式 GPU+内存

FP64
FP32
FP16、BF16
FP8 FP6 FP4
int8 int4
GGUF
在这里插入图片描述

qwen3 8B模型参数装进显卡 FP8 需要多少显存
在这里插入图片描述

FP16, BF16 int8 在各种卡上都能跑的量化方式。
v100 相对便宜一点 32G 5000元
H20 150W
消费级显卡： 3090 4090 5090 游戏卡

对称量化

在这里插入图片描述

非对称量化

范围映射与裁剪 Clipping

训练后量化 Post-Training Quantization

在这里插入图片描述
然后，这个激活值的分布被用来计算量化输出所需要的零点（z）和缩放因子（s）

Dynamic Quantization 动态

Static Quantization 静态

在这里插入图片描述

量化计算方式：
对称量化
非对称量化
量化的时机：
训练后量化：
静态量化，激活值通过一组校准数据集，走一遍模型，计算出数据经过每一层的 s 和 z，
把每层的s 和 z都存起来
动态量化：一边推理一边计算
训练时量化：

在这里插入图片描述

量化感知训练：

在这里插入图片描述

显卡：
本地化部署：
2016年 Pascal Tesla P100 Tesla P40 24G显存几百块钱
FP32 int8
FP16/BF16 不支持
Volta 2017 V100 32G/ 16G
FP16 Tensor Core BF16不支持
int8
Turing 架构 2018 年
Tesla T4 2080Ti 22G显存(2500-3000) 11G显存
FP16 int8 int4 硬件加速
BF16不支持
Ampere 2020年
A100 80G、40G显存
L20 L40 48G显存
原生支持BF16 上限与下限比较大对比FP16容易出现值溢出
Hopper H100 H200（国内有限制了）
FP8 好多大模型都是在FP8精度上进行训练的
H20 对中国大陆的阉割版算力，带宽都有限制

2024 blackwell B100 B200
FP4 原生支持

云阿里云 V100

消费机显卡，工业级显卡
消费级显卡：算力带宽比同时期的工业级显卡要小
工业级显卡：支持nylink 带宽比较高，传输效率比较高
多卡

单机单卡：

671B FP8

多机多卡：每台机器之间网络连接

量化重点：
FP16，BF16
int8 int4
FP8 现在大多数的新的模型都是在FP8精度下训练的。
int8 int4 低于8的低比特量化主要用于推理阶段

量化的计算方式：
对称：量化前是 0 和量化后还是0
非对称：
量化的时机：
训练后量化：
动态量化
静态量化
训练量化感知（训练时就考虑量化）
低比特量化：
GGUF

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/91042.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/91042.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！