目录
■准备工作
下载模型
安装依赖
安装基础依赖
安装mlc-llm
■权重转换
■生成配置文件
■模型编译
GPU版本编译
CPU版本编译
■启动服务
启动GPU服务
启动CPU服务
■服务测试
■扩展
优化量化版本(可选,节省内存)
INT4量化版本
调整窗口大小以节省内存
■准备工作
Qwen2.5 是 Qwen 大型语言模型的较新系列。对于 Qwen2.5,发布了从 0.5 到 720 亿参数的基础语言模型和指令调优语言模型。Qwen2.5 相较于 Qwen2 带来了以下改进:
- 显著