银河麒麟(Kylin) - V10 GFB高级服务器操作系统ARM64部署昇腾910b训练机以及Docker安装

银河麒麟(Kylin) - V10 GFB高级服务器操作系统ARM64部署昇腾910b训练机以及Docker安装


在这里插入图片描述

原因

项目需要使用Deepseek-r1-distill-qwen-32b来做训练,在此记录

测试环境

服务器配置

型号:G5680V2
CPU:CPU 4Kunpeng 920-5250
NPU:NPU 8
Ascend 910
内存:内存32 * 64GB
硬盘:硬盘6 * 3840GB-SATA
系统:银河麒麟高级服务器系统V10-GFB-Release-030
平台架构:ARM

准备工作

  1. 服务器安装银河麒麟高级服务器系统V10-GFB-Release-030系统

    下载:Kylin-Server-V10-GFB-Release-030.1.1-ARM64

    请去银河麒麟下载测试版本

  2. 去华为官网获取安装驱动
    选择Ascend HDK 23.0.RC1系列版本
    根据产品系统架构在“软件分类”中勾选“910-aarch64”或“910-x86_64”

我选择:“Ascend-hdk-910b-npu-driver-24.1.rc3-1.aarch64.rpm”安装包

  1. 去华为官网获取安装固件
    驱动和固件是对应关系

我选择:“Ascend-hdk-910b-npu-firmware-7.5.0.1.129-1.noarch.rpm” 安装包

开始安装

  1. 服务器进入raid卡页面做raid5

  2. 安装系统

系统安装完成如下:
在这里插入图片描述
注:如系统未激活会有激活提示以及部分功能限制,其他不受影响

  1. 安装驱动

    把驱动包和固件包导入系统中

    在这里插入图片描述

安装驱动源码编译所需依赖

在这里插入图片描述

执行如下命令,切换至root用户

su - root

在软件包所在路径执行如下命令完成驱动包安装

rpm -ivh Ascend-hdk-910b-npu-driver-24.1.rc3-1.aarch64.rpm

出现如下关键信息,则表示驱动安装成功

在这里插入图片描述

  1. 执行如下命令查看驱动加载是否成功
npu-smi info

在这里插入图片描述

  1. 安装固件

执行如下命令,切换至root用户

su - root

在软件包所在路径执行如下命令完成固件包安装

rpm -ivh Ascend-hdk-910b-npu-firmware-7.5.0.1.129-1.noarch.rpm

出现如下关键信息,则表示固件安装成功

在这里插入图片描述
在这里插入图片描述

提示说明:

  • 若重新安装固件后安装配套版本的驱动,则无需重启系统,驱动安装后固件版本会自动生效。
  • 若单独安装固件,则需执行reboot命令重启系统或执行npu-smi set -t reset命令复位标卡或芯片生效。
  • 软件包安装过程中,若无HwHiAiUser用户系统会自动创建该用户。

执行如下命令查看芯片固件版本号。若与固件软件包版本号一致,则说明安装成功。

/usr/local/Ascend/driver/tools/upgrade-tool --device_index -1 --component -1 --version

如果安装驱动时指定安装路径,则命令中的“/usr/local/Ascend”请根据实际情况替换。

请按照 “驱动->固件” 的顺序,分别安装组件软件包。

  1. 安装CANN
    CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。
  • 安装依赖
  • 在OS上安装依赖前需确认服务器已连接网络
  • 配置最大线程数

训练场景下,OS的最大线程数可能不满足训练要求,以root用户执行以下命令修改最大线程数为无限制。

  • 配置环境变量,修改线程数为无限制,打开“/etc/profile”文件。
    vi /etc/profile
  • 在文件的最后添加如下内容后保存退出。
    ulimit -u unlimited
  • 执行如下命令使环境变量生效。
    source /etc/profile
  • 配置昇腾源
  • 在线安装时,执行如下操作配置昇腾源,否则将无法安装
  • 执行如下命令新建昇腾源文件。
    sudo vim /etc/yum.repos.d/ascend.repo
  • 在文件的最后添加如下内容后保存退出。
    [ascend] name=ascend baseurl=https://repo.oepkgs.net/ascend/cann/$basearch/ enabled=1 gpgcheck=1 gpgkey=https://repo.oepkgs.net/ascend/cann/RPM-GPG-KEY-CANN sslverify=false
  • 更新源索引。
    sudo yum clean all && sudo yum makecache
  • 安装依赖
    以安装用户登录服务器,执行如下命令安装依赖软件(如果使用root用户安装依赖,请将命令中的sudo删除)
sudo yum install -y python3 python3-pip

CANN支持Python3.7.x至3.11.4版本,若安装失败、版本不满足或者未包含动态库libpython3.x.so

  • 执行如下命令安装运行时依赖的Python第三方库(如果使用root用户安装,请将命令中的–user删除)
pip3 install attrs cython numpy==1.24.0 decorator sympy cffi pyyaml pathlib2 psutil protobuf==3.20 scipy requests absl-py --user

这里安装会出现一个报错 、 因为系统自带Python3.7.9

在这里插入图片描述

注意Python3.7.x时推荐安装numpy 1.21.6版本,否则提示版本过高安装失败

  • 安装CANN软件包

  • 安装Toolkit开发套件包
    CANN Toolkit开发套件包,在训练&推理&开发调试场景下安装,主要用于训练和推理业务、模型转换、算子/应用/模型的开发和编译。

    安装Toolkit软件前请确保安装目录可用空间大于10G,如不满足请清理空间或更换安装目录。

  • 执行安装命令

sudo yum install -y Ascend-cann-toolkit

CANN软件包在线安装时仅支持安装在默认路径“/usr/local/Ascend”下。

安装完成后,若显示如下信息,则说明软件安装成功:

Ascend-cann-toolkit 8.1.Rcl linux-aarch64 install success

在这里插入图片描述

  • 配置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh

上述环境变量配置只在当前窗口生效,用户可以按需将以上命令写入环境变量配置文件(如.bashrc文件)

  • 安装后检查。执行如下命令查询CANN版本信息,查询结果与安装软件包的版本一致时,则验证安装成功
sudo yum list installed | grep toolkit
  • 安装Kernels算子包
    CANN二进制算子包,包括单算子API执行(例如aclnn类API)动态库文件,以及kernel二进制文件

  • 根据处理器类型执行命令安装

sudo yum install -y Ascend-cann-kernels-<chip_type>    #其中<chip_type>表示处理器类型,在当前设备上执行npu-smi info查询

我安装的是:Ascend-cann-kernels-910b-8.1.RC1-linux.aarch64

安装完成后,若显示如下信息,则说明软件安装成功:

Ascend-cann-kernels-910b-8.1.RC1-linux.aarch64 install success

在这里插入图片描述

  • 安装后检查。执行如下命令查询软件版本信息,查询结果与安装软件包的版本一致时,则验证安装成功
sudo yum list installed | grep kernels
  • 安装NNAL神经网络加速库(可选)
    NNAL神经网络加速库中提供了面向大模型领域的ATB(Ascend Transformer Boost)加速库,实现了基于Transformer结构的神经网络推理加速引擎库,提供昇腾亲和的融合算子、通信算子、内存优化等,作为算子的公共底座提升了大模型训练和推理性能
    加速库安装之前,需已安装同一版本的Toolkit并配置环境变量。

  • 执行安装命令

sudo yum install -y Ascend-cann-nnal

安装完成后,若显示如下信息,则说明软件安装成功:

xxx install success

  • 配置环境变量
source /usr/local/Ascend/nnal/atb/set_env.sh

上述环境变量配置只在当前窗口生效,用户可以按需将以上命令写入环境变量配置文件(如.bashrc文件)

  • 安装后检查。执行如下命令查询NNAL软件版本信息,查询结果与安装软件包的版本一致时,则验证安装成功
sudo yum list installed | grep nnal
  1. 安装Docker
  • 执行安装命令
sudo yum install docker-engine

在这里插入图片描述

  • 启动Docker命令
sudo systemctl start docker.service
  • Docker设置开机自启命令
sudo systemctl enable docker.service

在这里插入图片描述

  • 安装完成,查看Docker版本信息命令
sudo docker --version   或   sudo docker version

在这里插入图片描述

  • Docker拉取Deepseek-r1-distill-qwen-32b镜像

需要到华为昇腾镜像仓库

可能需要权限

昇腾开放Docker镜像仓库,提供昇腾软件Docker镜像

在这里插入图片描述

在这里插入图片描述

  • 昇腾社区下载镜像地址和概述

例如:

  • Docker拉取Centos系统镜像
  • 镜像版本选择

在这里插入图片描述

自适应架构:

docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/centos:7.6.1810

在这里插入图片描述

  • Docker启动Centos镜像

  • 查看镜像命令

docker images

在这里插入图片描述

  • 启动镜像命令
docker run -it swr.cn-south-1.myhuaweicloud.com/ascendhub/centos:7.6.1810  /bin/bash

在这里插入图片描述

  • 查看运行中的容器
docker ps

在这里插入图片描述

安装完成

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/89098.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/89098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息中间件(Kafka VS RocketMQ)

目录 一、概要介绍 二、架构与原理 三、消费模式 1、Kafka—纯拉模式 2、RocketMQ—拉模式 3、RocketMQ—推模式 4、模式对比 四、特殊消息 1、顺序消息 2、消息过滤 3、延迟消息 4、事务消息 5、广播消息 五、高吞吐 六、高可用 七、高可靠 一、概要介绍 Apa…

MyBatis级联查询深度解析:一对多关联实战指南

MyBatis级联查询深度解析&#xff1a;一对多关联实战指南在实际企业级开发中&#xff0c;单表操作仅占20%的场景&#xff0c;而80%的业务需求涉及多表关联查询。本文将以一对多关系为例&#xff0c;深入剖析MyBatis级联查询的实现原理与最佳实践&#xff0c;助你掌握高效的数据…

搜索框的显示与隐藏(展开与收起)

效果如下直接上代码v-if"showAll || 0 < 3" 的意思是&#xff1a;如果 showAll 为 true&#xff0c;或者 0 小于 3&#xff0c;这个表单项就会显示。<el-form :inline"true" class"demo-form-inline" size"default" label-width…

01 启动流程实例

前言本文基于 Activiti 7.0.0.GA 源码&#xff0c;研究 Activiti 如何启动一个流程实例。审批流程图如下图&#xff0c;在此流程图中&#xff0c;存在两个UserTask节点&#xff0c;第一个节点是主管审批&#xff0c;第二个节点是产品经理审批&#xff0c;两个节点中间有一个排他…

LeetCode--47.全排列 II

解题思路&#xff1a;1.获取信息&#xff1a;给定一个可包含重复数字的序列&#xff0c;按任意顺序返回所有不重复的全排列提示信息&#xff1a;1 < nums.length < 8-10 < nums[i] < 102.分析题目&#xff1a;相较于46题&#xff0c;它多限制了一个条件&#xff0c…

vue3 服务端渲染时请求接口没有等到数据,但是客户端渲染是请求接口又可以得到数据

原因是: 服务端请求 后端接收到 请求 ‘Content-Type’: ‘application/x-www-form-urlencoded; charsetUTF-8’ 直接返回错误的code 200000 增加 data: {} 服务端请求 后端接收到 请求 ‘Content-Type’: ‘application/json; charsetUTF-8’ 服务端请求就可以得到数据 expo…

Linux 文件操作命令大全:从入门到精通的实用指南

Linux 文件操作命令大全&#xff1a;从入门到精通的实用指南 在 Linux 系统中&#xff0c;文件操作是日常工作的核心内容之一。无论是开发者、运维工程师还是 Linux 爱好者&#xff0c;掌握常用的文件操作命令都能极大提升工作效率。本文将详细介绍 Linux 系统中最常用的文件操…

Linux开发利器:探秘开源,构建高效——基础开发工具指南(上)【包管理器/Vim】

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨个人…

基于迁移学习的培养基配方开发方法

本文为学习笔记&#xff0c;原文专利&#xff1a; 中国专利公布公告 然后输入 202110622279.7 概览 一、问题背景 传统培养基开发痛点&#xff1a; 数据依赖&#xff1a;需大量细胞实验&#xff08;1000配方&#xff09;训练专用模型 迁移性差&#xff1a;A细胞模型无法直接…

Web3.0与元宇宙:重构数字文明的技术范式与社会变革

一、技术融合&#xff1a;Web3.0与元宇宙的底层架构互补1.1 区块链与智能合约&#xff1a;构建信任基石去中心化信任机制&#xff1a;Web3.0的区块链技术为元宇宙提供去中心化信任框架&#xff0c;虚拟资产&#xff08;如土地、道具&#xff09;通过NFT&#xff08;非同质化代币…

Java: OracleHelper

/*** encoding: utf-8* 版权所有 2025 ©涂聚文有限公司 * 许可信息查看&#xff1a;言語成了邀功盡責的功臣&#xff0c;還需要行爲每日來值班嗎* 描述&#xff1a; https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html ojdbc11* Author : geovi…

OSPFv3-一二类LSA

文章目录OSPFv3 LSA类型Router LSANetwork LSA&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;Datacom专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2025年07月12日20点01分 OSPFv3 LSA类型 Router LSA 不再包含地址信息&#xff0c;使能 OS…

HugeGraph 【图数据库】JAVA调用SDK

1.引入依赖<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>28.0-jre</version> </dependency><dependency><groupId>com.squareup.okhttp3</groupId><artifac…

软考中级【网络工程师】第6版教材 第2章 数据通信基础(中)

考点分析&#xff1a;重要程度&#xff1a;⭐⭐⭐&#xff0c;本章可能是全书最难的章节&#xff0c;偏理论&#xff0c;公式多除了传输介质&#xff0c;其他知识点只考选择题&#xff0c;考试一般占3 ~ 5分高频考点&#xff1a;PCM、奈奎斯特定理、曼彻斯特编码&#xff1b;难…

单片机(STM32-中断)

一、中断基础知识 1.概念 中断&#xff08;Interrupt&#xff09;是一种特殊的事件处理机制。当CPU正在执行主程序时&#xff0c;如果出现了某些紧急或重要的事件&#xff08;如外设请求、定时器溢出等&#xff09;&#xff0c;可以暂时中止当前的程序&#xff0c;转而去处理…

gitlab-ci.yml

.gitlab-ci.yml 文件的位置 该文件应放置在 GitLab 项目的代码仓库的根目录 下&#xff0c;具体说明如下&#xff1a;存储库根目录 .gitlab-ci.yml 是 GitLab 持续集成&#xff08;CI&#xff09;的配置文件&#xff0c;需直接放在项目的代码仓库的根目录&#xff08;与 .git 目…

使用JS编写一个购物车界面

使用JS编写一个购物车界面 今天我们来剖析一个精心设计的家具商店购物车页面&#xff0c;这个页面不仅美观大方&#xff0c;还具备丰富的交互功能。让我们一步步拆解它的设计理念和技术实现&#xff01; 页面展示 页面整体结构 这个购物车页面采用了经典的电商布局模式&…

零信任安全架构:如何在云环境中重构网络边界?

一、云原生时代&#xff1a;传统防火墙为何轰然倒塌&#xff1f; 当业务碎片化散落在AWS、阿里云、私有IDC&#xff0c;当员工随手在咖啡厅WiFi连接生产数据库&#xff0c;“内网可信”的基石瞬间崩塌&#xff0c;传统防火墙彻底沦为马奇诺防线&#xff1a; 边界消亡&#xff1…

css实现烧香效果

效果&#xff1a;代码&#xff1a;<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>动态香烛效果&…

硬件产品的技术资料管控是确保研发可追溯、生产可复制、质量可控制的核心环节。

硬件产品的技术资料管控是确保研发可追溯、生产可复制、质量可控制的核心环节。以下针对BOM单、PCB文件、程序代码、原理图四大核心要素&#xff0c;结合行业实践提出管控方向划分及优化策略&#xff1a;&#x1f4cb; 一、硬件BOM单的精细化管控方向BOM单是硬件生产的“配方表…