LLaMA-Factory 微调可配置的模型基本参数

LLaMA-Factory 微调可配置的模型基本参数

flyfish

基本参数

一、模型加载与路径配置

参数名类型描述默认值
model_name_or_pathOptional[str]模型路径(本地路径或 Huggingface/ModelScope 路径)。None
adapter_name_or_pathOptional[str]适配器路径(本地路径或 Huggingface/ModelScope 路径),多路径用逗号分隔。None
adapter_folderOptional[str]包含适配器权重的文件夹路径。None
cache_dirOptional[str]保存从 Hugging Face 或 ModelScope 下载的模型的本地路径。None
model_revisionstr所使用的特定模型版本。main
hf_hub_tokenOptional[str]用于登录 HuggingFace 的验证 token。None
ms_hub_tokenOptional[str]用于登录 ModelScope Hub 的验证 token。None
om_hub_tokenOptional[str]用于登录 Modelers Hub 的验证 token。None

二、分词器与词表配置

参数名类型描述默认值
use_fast_tokenizerbool是否使用 fast_tokenizer。True
resize_vocabbool是否调整词表和嵌入层的大小。False
split_special_tokensbool是否在分词时将 special token 分割。False
new_special_tokensOptional[str]要添加到 tokenizer 中的 special token,多个用逗号分隔。None

三、内存优化与加载策略

参数名类型描述默认值
low_cpu_mem_usagebool是否使用节省内存的模型加载方式。True
device_mapOptional[Union[str, Dict[str, Any]]]模型分配的设备映射(自动管理,无需手动指定)。None
offload_folderstr卸载模型权重的路径。offload
disable_gradient_checkpointingbool是否禁用梯度检查点。False
use_reentrant_gcbool是否启用可重入梯度检查点。True

四、性能优化与加速技术

参数名类型描述默认值
flash_attnLiteral["auto", "disabled", "sdpa", "fa2"]是否启用 FlashAttention 加速训练和推理。auto
shift_attnbool是否启用 Shift Short Attention (S²-Attn)。False
mixture_of_depthsOptional[Literal["convert", "load"]]模型转换为 Mixture of Depths (MoD) 模式的方式。None
use_unslothbool是否使用 unsloth 优化 LoRA 微调。False
use_unsloth_gcbool是否使用 unsloth 的梯度检查点。False
enable_liger_kernelbool是否启用 liger 内核以加速训练。False
moe_aux_loss_coefOptional[float]MoE 架构中 aux_loss 系数(控制专家负载均衡)。None

五、数值精度与计算配置

参数名类型描述默认值
upcast_layernormbool是否将 layernorm 层权重精度提高至 fp32。False
upcast_lmhead_outputbool是否将 lm_head 输出精度提高至 fp32。False
compute_dtypeOptional[torch.dtype]用于计算模型输出的数据类型(自动管理,无需手动指定)。None
infer_dtypeLiteral["auto", "float16", "bfloat16", "float32"]推理时的模型数据类型。auto

六、推理与生成配置

参数名类型描述默认值
infer_backendLiteral["huggingface", "vllm"]推理时使用的后端引擎。huggingface
use_cachebool是否在生成时使用 KV 缓存。True
model_max_lengthOptional[int]模型的最大输入长度(自动管理,无需手动指定)。None
block_diag_attnbool是否使用块对角注意力(自动管理,无需手动指定)。False

七、安全与调试配置

参数名类型描述默认值
trust_remote_codebool是否信任来自 Hub 上数据集/模型的代码执行。False
print_param_statusbool是否打印模型参数的状态。False
train_from_scratchbool是否随机初始化模型权重(从头训练)。False

八、位置编码与注意力机制

参数名类型描述默认值
rope_scalingOptional[Literal["linear", "dynamic", "yarn", "llama3"]]RoPE 缩放策略。None

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/915612.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/915612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu 22 安装 ZooKeeper 3.9.3 记录

Ubuntu 22 安装 ZooKeeper 3.9.3 记录 本文记录在 Ubuntu 22.04 系统上安装 ZooKeeper 3.9.3 的过程,包含 Java 环境准备、配置文件调整、启动与停机操作、以及如何将 ZooKeeper 注册为系统服务。 一、准备环境 ZooKeeper 3.9.x 要求 Java 11 或更高版本&#xff…

FreeSwitch通过Websocket(流式双向语音)对接AI实时语音大模型技术方案(mod_ppy_aduio_stream)

FreeSwitch通过WebSocket对接AI实时语音大模型插件技术方案1. 方案概述 基于FreeSWITCH的实时通信能力,通过WebSocket协议桥接AI大模型服务,实现低延迟、高并发的智能语音交互系统。支持双向语音流处理、实时ASR/TTS转换和动态业务指令执行。 1753095153…

航班调度优化策略全局概览

在机场关闭场景下的航班恢复工作,是将机场关闭期间所有的航班进行取消然后恢复还是将机场关闭期间航班全部延误而后调整呢?简单来说,在实际操作中,既不是无差别地全部取消,也不是无差别地全部延误。这两种“一刀切”的…

spring boot 异步线程@Async 传递 threadLocal数据

将父类的 threadLocal 的数据 在线程池时&#xff0c;可以转给子线程使用。 Async 的使用。 第一步在启动服务加上 EnableAsync 注解。 EnableAsync public class NetCoreApplication {... ... }第二步&#xff1a;导入阿里 线程工具类<dependency><groupId>com.a…

AI产品经理成长记《零号列车》第一集 邂逅0XAI列车

《零号列车》绝非传统意义上的 AI 产品经理教程 —— 它是我沉淀二十多年跨行业数字化转型与工业 4.0 实战经验后,首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验,不再是枯燥的文字堆砌,而是化作一场沉浸式的学习旅程。​ 这里没有生硬的理论灌输,而…

[C++11]范围for循环/using使用

范围for循环 范围for循环&#xff08;Range-based for loop&#xff09;是 C11 引入的一种简洁的循环语法&#xff0c;用于遍历容器中的元素或者其他支持迭代的数据结构。 范围for循环可以让代码更加简洁和易读&#xff0c;避免了传统for循环中索引的操作。 下面是范围for循环的…

简单了解下npm、yarn 和 pnpm 中 add 与 install(i) 命令的区别(附上两图带你一目明了)

目录 pnpm 中 add 和 i 的区别 npm 中 add 和 i 的区别 yarn 中 add 和 i 的区别 附上两图带你一目明了&#xff1a; npm、yarn和pnpm的三者区别图&#xff1a; i 和 add 的核心区别图&#xff1a; 个人建议&#xff1a;在项目中保持命令使用的一致性&#xff0c;选择一种…

ESP32-S3学习笔记<2>:GPIO的应用

ESP32-S3学习笔记&#xff1c;2&#xff1e;&#xff1a;GPIO的应用1. 头文件包含2. GPIO的配置2.1 pin_bit_mask2.2 mode2.3 pull_up_en和pull_down_en2.4 intr_type3. 设置GPIO输出/获取GPIO输入4. 中断的使用4.1 gpio_install_isr_service4.2 gpio_isr_handler_add4.3 gpio_…

得物视觉算法面试30问全景精解

得物视觉算法面试30问全景精解 ——潮流电商 商品鉴别 视觉智能&#xff1a;得物视觉算法面试核心考点全览 前言 得物App作为中国领先的潮流电商与鉴别平台&#xff0c;持续推动商品识别、真假鉴别、图像搜索、内容审核、智能推荐等视觉AI技术的创新与落地。得物视觉算法岗位…

[Linux入门] Linux 账号和权限管理入门:从基础到实践

一、Linux 用户账号&#xff1a;谁能访问系统&#xff1f; 1️⃣超级用户&#xff08;root&#xff09; 2️⃣普通用户 3️⃣程序用户 二、组账号&#xff1a;让用户管理更高效 1️⃣组的类型 2️⃣特殊组 三、用户与组的 “身份证”&#xff1a;UID 和 GID 四、配置文…

阿里云ssl证书自动安装及续订(acme)

目录 一、shell命令安装 二、docker run安装 三、docker compose安装 一、shell命令安装 # 安装acme curl https://get.acme.sh | sh -s emailfloxxx5163.com# 注册zerossl .acme.sh/acme.sh --register-account -m flowxxx25163.com --server zerossl# 获取证书 export Al…

@fullcalendar/vue 日历组件

功能&#xff1a;日程安排&#xff0c;展示日历&#xff0c;可以用来做会议日历&#xff0c;可以跨日期显示日程。 Fullcalendarvue3 日历组件 参考文档&#xff1a;【vue2】一个完整的日历组件 fullcalendar&#xff0c;会议预约功能 中文说明文档&#xff1a;https://www.he…

Dijkstra 算法求解多种操作

一、问题背景与核心需求 需要找到从a到b的最优操作序列&#xff0c;使得总花费最小。三种操作的规则为&#xff1a; 操作 1&#xff1a;x → x1&#xff0c;花费c1&#xff1b;操作 2&#xff1a;x → x-1&#xff0c;花费c2&#xff1b;操作 3&#xff1a;x → x*2&#xff0…

本地项目提交到git教程

创建远程仓库 登录 GitHub&#xff0c;点击右上角 New repository。 填写仓库名称&#xff08;如 my-project&#xff09;、描述&#xff0c;选择公开 / 私有。 不要初始化 README、.gitignore 或 LICENSE&#xff08;保持空仓库&#xff09;&#xff0c;点击 Create repositor…

Linux 密码生成利器:pwgen 命令详解

往期好文&#xff1a;统信 UOS 运行 Windows 应用新利器&#xff01;彩虹虚拟化软件 V3.2 全新上线&#xff0c;限时30天免费体验 在日常运维、安全测试、用户管理等场景中&#xff0c;随机密码的生成是一项常见需求。为了避免人工设置密码带来的重复性弱密码问题&#xff0c;…

Qt 应用程序入口代码分析

Qt 应用程序入口代码分析 这段代码是 Qt GUI 应用程序的标准入口点&#xff0c;相当于 Qt 程序的"心脏"。让我详细解释每一部分的作用&#xff1a; int main(int argc, char *argv[]) {// 1. 创建 Qt 应用程序对象QApplication a(argc, argv);// 2. 创建主窗口对象Wi…

基于springboot+mysql的中小型医院网站(源码+论文+开题报告)

一、开发环境 Java技术 描述&#xff1a;Java是一种非常常用的编程语言&#xff0c;在全球编程语言排行榜上总是前三。Java的跨平台能力十分强大&#xff0c;只需一次编译&#xff0c;任何地方都可以运行。除此之外&#xff0c;它还拥有简单的语法和实用的类库&#xff0c;让…

【Docker基础】Docker-compose常用命令实践(三):镜像与配置管理

目录 前言 1 镜像与配置管理概述 1.1 核心概念解析 2 镜像构建命令详解 2.1 构建镜像&#xff08;build命令&#xff09; 2.2 基本语法 2.3 常用选项 2.4 构建过程流程 2.5 实际应用案例 3 配置验证命令详解 3.1 验证配置&#xff08;config命令&#xff09; 3.2 基…

Android 实例 - 分页器封装实现(上一页按钮、下一页按钮、当前页码 / 总页数、每页条数、总记录数)

一、需求分页器需要包含&#xff1a;【上一页按钮】、【下一页按钮】、【当前页码 / 总页数】、【每页条数】、【总记录数】点击【上一页按钮】&#xff0c;渲染上一页的数据&#xff0c;如果当前页码为第一页&#xff0c;则禁用【上一页按钮】点击【下一页按钮】&#xff0c;渲…

从代码学习深度强化学习 - SAC PyTorch版

文章目录 前言 SAC处理连续动作空间问题 (Pendulum-v1) 核心代码实现 **工具函数与环境初始化** **ReplayBuffer、网络结构与SAC算法** **训练与结果** SAC处理离散动作空间问题 (CartPole-v1) 核心代码实现 **工具函数与环境初始化** **ReplayBuffer、网络结构与SAC算法 (离散…