大模型量化004

Bert+ P-tuning

Bert+PET、Bert+P-Tuning

Chain of Thought
Few shot Cot
Auto-COT 解决手动编写高质量CoT示例麻烦耗时的问题

Auto COT 自动思维链生成器

1.业务场景: 每天收到很多反馈,之前需要人工整理,找到重点,做判断那些需要立即处理,
那些可以 慢慢处理,那些不是问题,希望生成报告
2反馈聚类:
根据这个反馈,看一看提出了哪些方面的问题
3代表性采样:
从历史的业务数据中找到每个类别,代表性问题
4.Zero shot Cot 生成分析范例:
把代表性问题丢给大模型,让他生成思考过程
添加大模型作为裁判
5. 构建最终提示:
将前面的内容拼接 成一个few shot
把拼接好的结果丢给大模型。

比较适合的业务场景:
问题多样性 要处理的问题是不是高度多样化,需要考虑不同的维度
是否需要多步复杂推理
示例构建难度 (自己手动写高质量的COT是不是很耗时间)
是不是总有扩展需求
质量需求(当前任务对结果需求是否很高)
上面几个问题,有一半以上都跟场景能对得上,就是适合的场景,如果不是,自己写COT的提示词模板
速度慢,比较浪费TOKEN

大模型的量化:

H20 8卡 96G 141G
DeepSeek R1 671B FP8训练的 1B字节对应1G 输入KV-cache

4090 24G 5090 32G 量化+offload 卸载一部分参数加载到内存中
KTransformer 存内存的方式 GPU+内存

FP64
FP32
FP16、BF16
FP8 FP6 FP4
int8 int4
GGUF
在这里插入图片描述

qwen3 8B模型 参数装进显卡 FP8 需要多少显存
在这里插入图片描述在这里插入图片描述

FP16, BF16 int8 在各种卡上都能跑的量化方式。
v100 相对便宜一点 32G 5000元
H20 150W
消费级显卡: 3090 4090 5090 游戏卡

对称量化

在这里插入图片描述
在这里插入图片描述

非对称量化

范围映射与裁剪 Clipping

训练后量化 Post-Training Quantization

在这里插入图片描述
然后,这个激活值的分布被用来计算量化输出所需要的零点(z)和 缩放因子(s)

Dynamic Quantization 动态

Static Quantization 静态

在这里插入图片描述

量化计算方式:
对称量化
非对称量化
量化的时机:
训练后量化:
静态量化, 激活值通过一组校准数据集,走一遍模型,计算出数据经过每一层的 s 和 z,
把每层的s 和 z都存起来
动态量化:一边 推理一边计算
训练时量化:


在这里插入图片描述

在这里插入图片描述

量化感知训练:

在这里插入图片描述

显卡:
本地化部署:
2016年 Pascal Tesla P100 Tesla P40 24G显存 几百块钱
FP32 int8
FP16/BF16 不支持
Volta 2017 V100 32G/ 16G
FP16 Tensor Core BF16不支持
int8
Turing 架构 2018 年
Tesla T4 2080Ti 22G显存(2500-3000) 11G显存
FP16 int8 int4 硬件加速
BF16不支持
Ampere 2020年
A100 80G、40G显存
L20 L40 48G显存
原生支持BF16 上限与下限比较大 对比FP16容易出现值溢出
Hopper H100 H200(国内有限制了)
FP8 好多大模型都是在FP8精度上进行训练的
H20 对中国大陆的阉割版 算力,带宽都有限制

2024 blackwell B100 B200
FP4 原生支持

云 阿里云 V100

消费机显卡 , 工业级显卡
消费级显卡: 算力带宽比同时期的工业级显卡 要小
工业级显卡: 支持nylink 带宽比较高,传输效率比较高
多卡

单机单卡:

671B FP8

多机多卡:每台机器之间网络连接

量化重点:
FP16,BF16
int8 int4
FP8 现在大多数的新的模型都是在FP8精度下训练的。
int8 int4 低于8的低比特量化主要用于推理阶段

量化的计算方式:
对称: 量化前是 0 和 量化后 还是0
非对称:
量化的时机:
训练后量化:
动态量化
静态量化
训练量化感知(训练时就考虑量化)
低比特量化:
GGUF

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91042.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#(基本语法)

数据类型C#是一种强类型语言,变量必须声明类型。基本数据类型包括整型(int、long)、浮点型(float、double)、布尔型(bool)、字符型(char)和字符串型(string&a…

ARM-I2C软实现

开发流程引脚初始化引脚功能定义实现读操作实现写操作GD32F4软件I2C初始化void SoftI2C_init() {// 时钟配置rcu_periph_clock_enable(SCL_RCU);// 设置输出模式gpio_mode_set(SCL_PORT, GPIO_MODE_OUTPUT, GPIO_PUPD_NONE, SCL_PIN);gpio_output_options_set(SCL_PORT, GPIO_O…

防水医用无人机市场报告:现状、趋势与洞察

市场规模与增长趋势在全球医疗科技快速发展的当下,防水医用无人机市场正崭露头角,展现出强劲的发展势头。据 QYR统计,2023 年全球医用无人机市场销售额达到 1.9 亿美元,预计到 2030 年将飙升至 8.5 亿美元,年复合增长率…

haproxy代理

一.负载均衡 1.1.什么是负载均衡 负载均衡:Load Balance,简称LB,是一种服务或基于硬件设备等实现的高可用反向代理技术,负载均 衡将特定的业务(web服务、网络流量等)分担给指定的一个或多个后端特定的服务器或设备,…

【面试】软件测试面试题

1. 测试用例如何编写 2. bug的生命周期 项目有多少人?多少条测试用例?多少bug?自己发现的第一条?(是不是bug) 3. 缺陷管理工具 包括Jira, PingCode, 禅道,BugZilla,Redmine, TAPD&am…

HbuilderX开发小程序

1.打卡HbuilderX,选择文件—新建—项目2.创建项目3.在HbuilderX中运行前要确定微信开发这工具的服务端口号是打开的4.HbuilderX中点击预览可以实时预览5.在微信开发者中进行本地测试点击后自动跳转到微信开发者工具中运行项目

Netty中FastThreadLocal解读

io.netty.util.concurrent.FastThreadLocal 是 Netty 中提供的高性能线程局部存储(Thread-Local Storage)实现,位于 io.netty.util.concurrent 包。它是 Java 标准库 ThreadLocal 的替代品,旨在优化性能,减少内存分配和…

上海迪士尼游玩攻略 小铁寄存柜让你轻松畅玩

去上海迪士尼玩最烦带一堆行李,其实有小铁寄存柜帮忙就能轻装上阵,各个关键位置都有分布,玩起来特别省心。​刚到迪士尼的时候,要是坐地铁到上海国际旅游度假区站,1/2 号口安检区就有小铁柜,行李箱、大背包…

飞算科技重磅出品:飞算 JavaAI 重构 Java 开发效率新标杆

在 Java 开发领域,一款由国家级高新技术企业自主研发的智能工具正引发行业关注 —— 飞算 JavaAI 不仅承载着中国原创技术的创新基因,更以贴合实际开发场景的功能设计,成为众多企业提升 Java 开发效率的核心助力。​作为飞算数智科技&#xf…

python案例:基于python 神经网络cnn和LDA主题分析的旅游景点满意度分析

1.绪论1.1研究背景与意义1.1.1研究背景随着旅游业的快速发展,满意度分析成为评估旅游景点质量和提升游客体验的重要手段。作为中国的旅游城市之一,其旅游景点吸引了大量游客。然而,如何科学评估和提升旅游景点的满意度&#xff0c…

Git快速入门,完整的git项目管理工具教程,git入门到精通!

Git的下载与安装: 直接去官网下载即可; 或者查看这个博客学会下载:Git 详细安装教程(详解 Git 安装过程的每一个步骤)_git安装-CSDN博客 注意:一个文件夹下只能有一个本地仓库(就是一个.git) 细节操作

C++day07(三种取整方法)

学习目标 认识流程图 多种方式解决问题 取整方式和取整函数 1.解决编程问题的过程 1.理解题意,找出关键信息。 2.整理思路,用图或者文字写出算法。 3.将算法步骤翻译为C++代码。 4.编译运行,修改语法或逻辑错误。 不符合则需要回到上一步进行修改。 5 .输入测试用例与…

Go语言实战案例-LRU缓存机制模拟

在高性能服务开发中,缓存是提升访问速度和减少后端负载的重要手段。常见的缓存淘汰策略中,**LRU(Least Recently Used,最近最少使用)**是应用最广的一种。本篇我们用Go语言手写一个LRU缓存机制的模拟实现。一、LRU缓存…

vue2中实现leader-line-vue连线文章对应字符

效果展示 通过点击右边的tag,触发连接操作 第一步:获取右边tag展示 1.右边的tag列表展示,我这边是分为两个list嵌套的数据结构; {"人员": [{

SPEA2(Strength Pareto Evolutionary Algorithm 2)优化算法简介

前言 提醒: 文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。 其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展…

IDEA 手动下载安装数据库驱动,IDEA无法下载数据库驱动问题解决方案,IDEA无法连接数据库解决方案(通用,Oracle为例)

一、查询要下载的数据库驱动 在IDEA侧边栏找到数据库(databases),新增一个数据连接 右键,属性 点击下载,查看要下载的驱动版本 二、下载数据库驱动(Oracle为例) 下载对应MySQL/Oracle数据库的…

专业Python爬虫实战教程:逆向加密接口与验证码突破完整案例

案例背景假设我们需要爬取一家内部测试系统的动态数据API接口。该系统前端页面使用了复杂的JavaScript混淆技术来防止接口被直接调用,同时对请求参数进行了加密签名。另外,登录环节带有图形验证码用于防护。我们的目标是:分析JavaScript代码&…

【SQL】Windows MySQL 服务查询启动停止自启动(保姆级)

MySQL是一种开放源代码的轻量级关系型数据库管理系统,使用最常用的结构化查询语言(SQL)对数据库进行管理。由于MySQL具有体积小、速度快、成本低、开放源码等优点,现已被广泛应用于互联网上的中小型网站中,并且大型网站…

算法提升之数论(矩阵+快速幂)

通过矩阵和快速幂的方法来解决算法题目可以很好地降低时间复杂度,帮助大家更好地解决题目。下面这道题目有一定难度,希望大家可以好好地理解,相信对大家会有很大的帮助。问题描述有 n(2≤n≤10) 个玩家玩游戏,他们按 1 到 n 编号。…

数学建模算法-day[14]

6.2 传染病预测问题 问题提出 世界上存在很多传染病,如何根据其传播机理预测疾病得传染范围及染病人数等,对传染病的控制意义十分重大。 1.指数传播模型 基本假设 (1) 所研究的区域是一封闭区域,在一个时期内人口总量相对稳定,不考…