hugging-face数据集快速下载

开发机配置外网代理并使用 git lfs 高速下载 Hugging Face 数据集流程

本文档将介绍如何配置开发机的代理,登录 Hugging Face,并使用 git-lfs (Git Large File Storage)进行数据集的高速下载。


1. 配置代理连接外网

开发机在某些网络环境下可能无法直接访问外网,因此需要配置代理以保证能够访问外部资源(如 Hugging Face 数据集)。执行以下步骤来配置 HTTP 和 HTTPS 代理:

步骤 1.1:编辑系统的 /etc/profile 文件

首先,我们需要在 /etc/profile 文件中添加代理配置:

sudo vim /etc/profile

在文件末尾添加以下内容:

# 设置 HTTP 和 HTTPS 代理
export http_proxy="http://xxxxxx"
export https_proxy="http://xxxxxx"

请根据实际的代理地址替换 xxxxxx 部分。

步骤 1.2:使配置生效

修改完 /etc/profile 文件后,需要执行以下命令使配置生效:

source /etc/profile

2. 安装 git-lfs 并进行设置

git-lfs 是用于管理和下载大文件的 Git 扩展,特别适用于存储在 Git 仓库中的大型文件。在本步骤中,我们将安装 git-lfs 并进行相关设置。

步骤 2.1:安装 git-lfs

使用 yum 包管理器来安装 git-lfs

sudo yum install git-lfs
步骤 2.2:初始化 git-lfs

安装完成后,我们需要初始化 git-lfs

git lfs install

此命令将设置 Git LFS 的必要配置,确保它能够正确工作。

3. 登录 Hugging Face 并配置 Git

为了能够从 Hugging Face 下载数据集,我们需要进行认证。下面是登录过程:

步骤 3.1:安装 huggingface-cli

huggingface-cli 是 Hugging Face 提供的命令行工具,可以用来进行认证和访问数据集。

pip install huggingface-cli
步骤 3.2:登录 Hugging Face

使用 huggingface-cli login 命令登录 Hugging Face:

huggingface-cli login

系统会要求输入 token,复制并粘贴你的 Hugging Face 账户的 token。你可以通过以下链接获取 token:

Hugging Face 账户页面

4. 配置 Git 存储凭据

为避免每次推送或拉取时都需要输入密码,可以配置 Git 存储凭据:

git config --global credential.helper store

这将使 Git 保存凭据信息,避免频繁地要求输入认证信息。

5. 克隆并下载数据集

步骤 5.1:克隆数据集仓库

使用 git clone 命令来克隆数据集仓库。为了提高下载速度,执行 git-lfs 拉取大文件时使用 GIT_LFS_SKIP_SMUDGE=1 跳过初始化文件下载,避免速率限制:

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mlfoundations/MINT-1T-PDF-CC-2024-18

该命令将克隆指定的 Hugging Face 数据集仓库。

步骤 5.2:进入克隆后的仓库目录

进入数据集仓库的目录:

cd MINT-1T-PDF-CC-2024-18
步骤 5.3:使用 git lfs pull 拉取大文件

接下来,使用 git lfs pull 命令触发大文件的下载,并完成数据集的下载。这个操作会确保通过 Git LFS 完成大文件的下载:

git lfs pull

下载完成后,你将能够使用这些大文件。

6. 完成

git lfs pull 完成后,数据集将下载完毕,输出如下信息:

echo "pull done"

此时,你已经成功下载了 Hugging Face 上的 MINT-1T 数据集,并能够在本地进行使用。


总结

  1. 配置代理:通过修改 /etc/profile 配置 HTTP 和 HTTPS 代理。
  2. 安装 git-lfs:使用 yum install git-lfs 安装 Git LFS,并初始化它。
  3. 登录 Hugging Face:通过 huggingface-cli login 登录 Hugging Face 账户。
  4. 克隆和下载数据集:使用 git clonegit lfs pull 克隆数据集并下载大文件。

通过这些步骤,你能够顺利配置开发机的代理、登录 Hugging Face 账户并使用 git-lfs 下载大数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17、Python对象操作全解析:同一运算符、成员运算符与整数缓存机制实战

适合人群:零基础自学者 | 编程小白快速入门 阅读时长:约8分钟 文章目录 一、问题:Python 同一运算符的本质与实战?1、例子1:双胞胎身份证验证2、答案:(1)is 同一运算符介绍&#xff…

使用auto-coder将kotti项目的pyramid依赖从1.x升级到2.x,将SQLALchemy从1.x升级到2.x

缘起 kotti是一个非常好的基于pyramid框架的web搭建项目,但是由于作者离世,已经3年没有更新了。 尝试使用auto-coder将kotti项目的pyramid依赖从1.x升级到2.x,同时发现SQLALchemy依赖也有问题,将SQLALchemy从1.x升级到2.x 开始…

luckysheet的使用——17.将表格作为pdf下载到本地

luckysheet源码里面自带有打印按钮,但是功能是无法使用的,所以我把该功能重写了一遍 1.在menuButton.js文件中找到源码打印按钮的触发事件: $("#luckysheet-icon-print").click(function () {}2.使用自己写的挂载方法 window.pr…

仿真APP助力提升卡车驾驶室驾乘舒适度与安全性

驾驶室作为卡车的重要组成部分,其振动特性对于驾驶员的舒适度和长期健康具有至关重要的影响。振动不仅会导致驾驶员疲劳、分散注意力,还可能引发一系列健康问题。为了确保卡车在复杂路面工况下驾驶室结构不受破坏,并保持良好的NVH性能&#x…

功能强大且易于使用的 JavaScript 音频库howler.js 和AI里如何同时文字跟音频构思想法

howler.js 是一个功能强大且易于使用的 JavaScript 音频库,它提供了跨浏览器的音频播放功能,支持多种音频格式,并且具有丰富的 API,可以方便地控制音频的播放、暂停、循环、音量等。下面是如何在 Vue 项目中使用 howler.js 实现音…

JUC入门(七)

14、ForkJoin ForkJoin框架是Java中用于并行执行任务的框架,特别适合处理可以分解为多个子任务的复杂计算。它基于“分而治之”的思想,将一个大任务分解为多个小任务,这些小任务可以并行执行,最后将结果合并。 ForkJoin框架的核…

第 7 章:综合回顾与性能优化

本章目标: 系统化地回顾各类外设接口选型原则 深入探讨多接口并存时的资源冲突与管理策略 掌握软硬件协同的性能分析方法,快速定位并消除瓶颈 总结一整套从架构设计到现场调试的最佳实践与防坑指南 7.1 综合选型决策矩阵(深度分析) 除了前文的基础矩阵,这里引入两个更细化…

交换机的连接方式堆叠和级联

以下是交换机的堆叠和级联各自的优缺点总结,帮助快速对比选择: ​一、堆叠(Stacking)​ ​优点 ​高性能 堆叠链路带宽高(如10G/40G/100G),成员间数据通过背板直连,无带宽瓶颈。支…

C++高效求解非线性方程组的实践指南

非线性方程组的求解是科学与工程计算中的核心问题之一,涉及物理建模、机器学习、金融分析等多个领域。C因其高性能和底层控制能力成为此类问题的首选语言,但如何高效实现求解仍存在诸多挑战。本文从算法选择、工具应用、稳定性优化及性能提升四个维度&am…

2025年- H42-Lc150 --146. LRU缓存(哈希表,双链表)需二刷--Java版

1.题目描述 2.思路 LRU(最近最少使用):如果缓存的容量为2,刚开始的两个元素都入栈。之后该2元素中有其中一个元素(重点元素)被访问。把最近访问过的重点元素保留,另一个边缘元素就得离开缓存了。 下面是l…

5G 网络中 DNN 的深度解析:从基础概念到核心应用

摘要 本文深度剖析 5G 网络中 DNN(数据网络名称)的核心作用与运行机制,从基础概念入手,详细阐述 DNN 在会话管理、用户面资源分配、切片选择等方面的关键功能。通过实际应用场景分析与技术实现细节探讨,揭示 DNN 如何助力 5G 网络满足多样化业务需求,为 5G 网络部署、优…

MLpack 开源库介绍与使用指南

MLpack 开源库介绍与使用指南 1. MLpack 简介 MLpack 是一个快速、灵活的 C 机器学习库,专注于可扩展性、速度和易用性。它提供了大量经典的机器学习算法实现,包括: 监督学习(分类、回归)无监督学习(聚类…

Python版scorecardpy库woebin函数使用

scorecardpy 是一款专门用于评分卡模型开发的 Python 库,由谢士晨博士开发,该软件包是R软件包评分卡的Python版本。量级较轻,依赖更少,旨在简化传统信用风险计分卡模型的开发过程,使这些模型的构建更加高效且易于操作。…

英语写作中“假设”suppose, assume, presume 的用法

一、suppose 是给出推理的前提,与事实无关,例如: Suppose x >0. Then the square root of x is a real number. (假设x大于0,则x的平方根是实数。) Suppose Jack and Alice share a private channel. …

CAD标注样式如何设置?详细教程来了

CAD中有很多的标注,比如线性标注,对齐标注,坐标标注,面积标注,直径标注,弧长标注等等,标注的种类多,标注的样式也多,今天来给大家介绍一下浩辰CAD看图王中如何设置不同的…

vscode include总是报错

VSCode 的 C/C 扩展可以通过配置 c_cpp_properties.json 来使用 compile_commands.json 文件中的编译信息,包括 include path、编译选项等。这样可以确保 VSCode 的 IntelliSense 与实际编译环境保持一致。 方法一:直接指定 compile_commands.json 路径…

自动化立体仓库WCS与PLC通讯设计规范

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。欢迎大家使用我们的仓储物流技术AI智能体。 新书《智能物流系统构成与技术实践》 新书《智能仓储项目出海-英语手册,必备!》 完整版文件和更多学习资料&#xf…

【window QT开发】简易的对称密钥加解密工具(包含图形应用工具和命令行工具)

前言 项目开发时,配置文件中某些信息不适合直接明文显示,本文提供基于对称密钥的AES-256算法的加解密工具,可集成到项目中。 AES讲解 以下是我分享的一个在国产信创系统(Linux)下使用openssl实现AES加解密的博文 对称加密--AES加解密 本文…

「极简」扣子(coze)教程 | 小程序UI设计进阶(二)!让系统动起来,“禁用”,“加载”状态设置

大家好,上一期大师兄通过一个例子来介绍一下扣子界面中“可见性”的应用。今天大师兄想再进一步介绍控件中的其他一些重要的属性。 扣子(coze)编程 「极简」扣子(coze)教程 | 小程序UI设计进阶!控件可见性设置 「极简」扣子(coze…

前端三件套之html详解

目录 一 认识 二 标签的分类 三 标签 body标签 标题标签 段落标签 换行标签 水平分割线 文本格式化标签 图片标签 音频标签 链接标签 列表标签 表格标签 表单标签 input标签 下拉菜单标签 textarea文本域标签 label标签 语义化标签 button标签 字符实体 …