爬虫+动态代理助力 AI 训练数据采集

文章目录
  • 引言
  • 新手之选:网页抓取API
  • 可靠之选:动态住宅代理
  • 总结

引言

近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。一方面,互联网每天都在源源不断地产生新数据,另一方面,各大网站普遍设有反爬机制,阻止自动化程序抓取信息。在这种情况下,动态代理服务成为破解难题的关键工具。通过动态代理,我们的爬虫程序可以模拟不同的用户身份,在访问网站时伪装 IP 地址,从而有效降低被封禁的风险。

作为行业的先行者,亮数据是最早开展代理 IP 服务的企业之一,经过多年积累,已构建起庞大且稳定的代理 IP 资源。借助其代理服务,我们可以显著提高爬虫程序的访问成功率,从而更高效地获取数据,助力 AI 模型的训练。

维基百科是 AI 领域的重要数据来源,广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。本次,我们将以采集维基百科数据为例,分别面向零经验的初学者和熟练开发者介绍如何结合爬虫技术与动态代理,高效获取训练数据。

新手之选:网页抓取API

如果你是第一次接触爬虫技术,可能会感到有些无从下手,不知道该从哪里开始。别担心,其实并没有那么复杂!你可以尝试使用 亮数据的网页抓取API,它已经为100多个网站量身打造了不同的爬虫方案,覆盖了各种应用场景。而且,你无需编写复杂的代码,只需通过可视化界面进行简单配置,就能轻松获取所需的数据。

登录以后进入控制台,点击网页抓取API,选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。

在其中定位到Wikipedia网站,可以看到有一项抓取Wikipedia文章的应用,这就是我们的目标了。

点击以后选择爬虫API,它相比无代码抓取器有更多的定制空间。

在爬虫的设置界面中,进入API请求构建器,在这里配置一下令牌,还可以在网址的部分配置采集的页面。

而在词典中可以管理要采集的字段,如果没有你需要的字段,也可以提交工单等待工作人员优化。

配置完成后点击右上角开始运行。稍等片刻,就可以在日志中下载结果。是不是很简单呢?

可靠之选:动态住宅代理

如果你已经对爬虫技术比较熟悉,并且有定制化采集需求,或者想要将数据抓取功能集成到自己的应用中,那么网页抓取 API 可能会有些局限。这时候,不妨试试 动态住宅代理,搭配自己编写的爬虫程序,自由度更高,也更灵活。亮数据的动态住宅代理服务拥有超过 7200 万个住宅 IP,覆盖全球多个国家和地区,IP 质量稳定,成功率高,而且价格公道,性价比极佳。对于需要长期、大规模数据采集的开发者来说,这是一个非常可靠的选择。

登录之后,在控制面板的代理&抓取基础设施中选择动态住宅IP。

之后在代理设置界面填写名称,选择要选购IP的地点,之后就可以开始使用。

确认之后就可以看到代理服务的主机名、用户名和密码。将它们复制下来,之后会用到。同时将本地IP添加到白名单中。

之后我们开始编写爬虫。我们这次爬取Wikipedia的最近体育新闻板块,这个功能在网页抓取API中没有提供,所以需要我们自行开发。注意到这一个板块可以使用title="2025 in sports"定位标题,然后向上选取四层定位到整个栏目。然后向下选取到第二个div中的ul和dl即为所需。

首先,我们将代理服务器、请求头和url定义为一些常量便于管理。接下来,我们创建一个带有代理的opener对象,和一个包含目标URL和请求头的请求对象。随后,发送HTTP请求,获取页面的HTML内容,并使用lxml库将HTML解析为可操作的XML树结构。

proxy = {'http': 'http://brd-customer-hl_a0a48734-zone-residential_proxy3:7sl48y9j3jfm@brd.superproxy.io:33335'}proxy.io:33335','https': 'http://brd-customer-hl_a0a48734-zone-residential_proxy3:7sl48y9j3jfm@brd.superproxy.io:33335'}
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"}
url = "https://en.wikipedia.org/wiki/Portal:Current_events"
opener = request.build_opener(request.ProxyHandler(proxy))
req = request.Request(url=url, headers=headers)
html = opener.open(req).read()

接下来,首先定位到页面中 “2025 in sports” 这个链接所在的 HTML 节点,并向上回溯以找到包含完整新闻内容的 div 元素。随后,进一步解析该 div,提取其中的新闻标题和超链接,将其整理成一个字典格式的数据结构。其中,result字典用于存储爬取到的新闻内容,年份被固定设置为 2025,而新闻条目被存入 content 字段。

root = etree.HTML(html)
div = root.xpath('.//a[@title="2025 in sports"]/../../../..')
ilist = div.xpath('./div[1]')
result = {"time": 2025, "content": []}
for item in ilist.xpath('./ul'):temp = []for lis in ilist.xpath('./dl/dd/ul/li'):for li in lis:link = li.xpath('./a/@href')name = li.xpath('./a/@title')temp.append({"name": name, "link": link})result["content"].append({i7sl48y9j3jfm@brd.superproxy.io:33335'}proxy.io:33335',

最后,将获取到的新闻信息转换为字符串,并将其写入到本地文件中,以便后续处理或分析。

with open('wiki_sport.txt', 'w') as f:f.write(str(result))

完整代码如下:

from urllib import request
from lxml import etreeproxy = {'http': 'http://brd-customer-hl_a0a48734-zone-residential_proxy3:7sl48y9j3jfm@brd.superproxy.io:33335','https': 'http://brd-customer-hl_a0a48734-zone-residential_proxy3:7sl48y9j3jfm@brd.superproxy.io:33335'}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0"}url = "https://en.wikipedia.org/wiki/Portal:Current_events"opener = request.build_opener(request.ProxyHandler(proxy))
req = request.Request(url=url, headers=headers)
html = opener.open(req).read()root = etree.HTML(html)
div = root.xpath('.//a[@title="2025 in sports"]/../../../..')
ilist = div.xpath('./div[1]')
result = {"time": 2025, "content": []}
for item in ilist.xpath('./ul'):temp = []for lis in ilist.xpath('./dl/dd/ul/li'):for li in lis:link = li.xpath('./a/@href')name = li.xpath('./a/@title')temp.append({"name": name, "link": link})result["content"].append({item.xpath('./li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f:f.write(str(result))

总结

在 AI 训练的道路上,高质量的数据是不可或缺的,但获取这些数据往往面临诸多挑战。网站的反爬机制让直接抓取变得困难,而手动收集数据又过于低效。在这样的背景下,动态代理服务成为了一种高效、可靠的解决方案。

亮数据作为行业的佼佼者,提供了强大的代理 IP 资源,无论是刚入门的数据采集爱好者,还是经验丰富的开发者,合理利用爬虫技术与代理服务,都能帮助我们在 AI 领域迈出更坚实的一步。希望本次的分享能为你的数据获取任务提供实用的思路和工具,让 AI 训练更加顺畅。

最近亮数据也开启了一系列活动,感兴趣的朋友不妨了解一下:

  • 亮数据住宅代理全部套餐5折!错过等一年!所有新老客户均可使用,点击
    注册或登录,即可直接享受折扣。
  • 亮数据网页抓取API,全线75折!有效期6个月!所有新老客户均可使用,点
    击注册或登录,即可直接享受折扣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909198.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenEuler服务器警告邮件自动化发送:原理、配置与安全实践

OpenEuler服务器警告邮件自动化发送:原理、配置与安全实践 在服务器的运维管理过程中,及时感知系统异常状态至关重要。当OpenEuler系统运行时,将服务器的警告信息实时推送至邮箱,能帮助运维人员快速响应潜在问题,保障…

使用vite-plugin-html在 HTML 文件中动态注入数据,如元数据、环境变量、标题

vite-plugin-html 是一个用于 Vite 构建工具的插件,它可以帮助你在构建过程中动态注入一些 HTML 内容,比如标题、元数据、环境变量等。通过使用这个插件,你可以根据项目的配置和环境变量自动生成带有动态内容的 HTML 文件,适用于 …

学习笔记087——Java接口和抽象类的区别和使用

文章目录 1、主要区别2、使用场景2.1 使用接口的情况:2.1 使用抽象类的情况: 3、Java 8及以后的接口增强4、设计建议 1、主要区别 特性接口(Interface)抽象类(Abstract Class)定义方式使用interface关键字使用abstract class关键字方法实现Java 8前不能…

Squid 代理服务器实战:解决动态 IP 访问第三方接口的生产级方案

前言:动态IP场景下的业务痛点与解决方案 在企业开发场景中,经常会遇到这样的需求:第三方服务(如API接口、云平台服务)要求将访问源IP加入白名单以保障安全。然而,企业办公网络通常采用动态IP分配&#xff0…

React中子传父组件通信操作指南

文章目录 为什么需要子传父通信?方法一:回调函数(最常用)基础示例实际场景:待办事项列表 方法二:使用useRef传递引用方法三:Context API(跨层级通信)方法四:自…

【android bluetooth 框架分析 04】【bt-framework 层详解 5】【AbstractionLayer介绍】

1. AbstractionLayer 介绍 我们在阅读 native 和 java 层 蓝牙服务代码时,会发现很多 AbstractionLayer.xxxxx 的字段。 这些字段 虽然很容易理解是干什么的。 但是 大家有没有考虑过, 为啥要专门定义一个类来存放他们。 这样设计的意义是什么&#xff…

AI大模型从0到1记录学习 大模型技术之机器学习 day27-day60

机器学习概述 机器学习(Machine Learning, ML)主要研究计算机系统对于特定任务的性能,逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确…

c/c++ 汇编码中的.cfi 指令有什么用途?

author: hjjdebug date: 2025年 06月 12日 星期四 14:24:40 CST descrip: c/c 汇编码中的.cfi 指令有什么用途? 文章目录 1. 几个简写词.2. 看一个简单的测试代码:3. 生成汇编代码:4. 分析.cfi 指令5. 小结: 1. 几个简写词. cfi(call frame info) 调用帧信息, 名词. 描述的是…

ArcGIS Pro 3.4 二次开发 - 任务

环境:ArcGIS Pro SDK 3.4 + .NET 8 文章目录 任务1 任务1.1 检索项目中的所有任务项1.2 打开任务文件 - .esriTasks 文件1.3 打开项目任务项1.4 关闭任务项1.5 导出任务项1.6 获取任务信息 - 从 TaskProjectItem1.7 获取任务信息 - 从 .esriTasks 文件1.8 在任务文件中打开特定…

vscode如何修改终端的默认配置

问题困扰: 每次打开都是 powershell, 因为每次要是用 git bash, 所以每次手动切换很麻烦。 要将默认终端设置为 Git Bash,可以通过以下步骤完成。以下是详细的操作方法: 步骤 1:打开终端设置 在 Visual Studio Code 的菜单栏中…

kafka快速入门与知识汇总

​ kafka快速入门与知识汇总 一、前言 kafka是一款消息中间件,可以用于传输消息和日志收集、监控项目状况。与其类似的技术栈有rocketmq、rabbitmq等,但这些技术栈大多应用在一些简单的消息传输平台,而kafka则因其对大量数据的高性能处理在…

设计模式——观察者设计模式(行为型)

摘要 本文详细介绍了观察者设计模式,包括其定义、结构、实现方式、适用场景以及实战示例。通过代码示例展示了如何在Spring框架下实现观察者模式,以及如何通过该模式实现状态变化通知。同时,对比了观察者模式与消息中间件在设计理念、耦合程…

uniapp 页面栈一定深度后,回首页导航到新页面的解决方案

uniapp 页面栈一定深度后,回首页导航到新页面的解决方案 uniapp 页面导航解决方案 在 uniapp 中,要实现先弹出页面栈回到首页,然后再跳转到指定页面。 /*** description 后台选择链接专用跳转*/ interface Link {path: string;name?: stri…

数据结构 散列表 学习 2025年6月12日15:30:48

数据结构 散列表 哈希表(Hash Table): 通过哈希函数将键&#xff08;key&#xff09;映射到存储位置&#xff0c;从而实现快速的插入、删除和查找操作。 哈希表是现代编程中最重要的数据结构之一&#xff0c;几乎所有编程语言都提供了内置实现。 计数 #include <stdio.h&g…

数据结构之LinkedList

系列文章目录 数据结构之ArrayList-CSDN博客 目录 系列文章目录 前言 一、模拟实现链表 1. 遍历链表 2. 插入节点 3. 删除节点 4. 清空链表 二、链表的常见操作 1. 反转链表 2. 返回链表的中间节点 3. 链表倒数第 k 个节点 4. 合并两个有序链表 5. 分割链表 6. 判…

DC3靶机渗透

1. 靶机介绍 主要的内容有 sql 注入漏洞、joomla 框架漏洞、ssh 攻击、shell 反弹、提权 信息收集(ip、端口、目录、指纹信息)--->利用漏洞--->反弹---->提权 2. 信息收集 2.1. 扫描存活 ip 192.168.220.134 2.2. 端口扫描 nmap -T4 -A -p- 192.168.220.134 …

C# 线程交互

一、为什么要进行线程交互 在C#中&#xff0c;线程交互通常涉及到多个线程之间的数据共享和同步。‌. 一、全局变量 在C#中&#xff0c;全局变量是指在程序的任何地方都可以访问的变量。通常&#xff0c;全局变量是在类的外部定义的&#xff0c;或者在所有方法之外定义的。全…

Cursor 编辑器中的 Notepad 功能使用指南

Cursor 编辑器中的 Notepad 功能使用指南 摘要 本指南全面介绍了 Cursor 编辑器中的 Notepad 功能&#xff0c;涵盖其用途、多种访问方式、适用场景以及与其它功能的整合技巧等内容&#xff0c;助力用户高效利用该功能提升工作流程效率。 不同访问方式介绍 功能概述 Curso…

用于评估大语言模型(LLMs)能力的重要基准任务(Benchmark)

基准任务涵盖了 多领域&#xff08;如语言理解、数学、推理、编程、医学等&#xff09;和 多能力维度&#xff08;如事实检索、计算、代码生成、链式推理、多语言处理&#xff09;。常用于模型发布时的对比评测&#xff0c;例如 GPT-4、Claude、Gemini、Mistral 等模型的论文或…

力扣HOT100之技巧:169. 多数元素

这道题如果不考虑空间复杂度和时间复杂度的限制的话很好做&#xff0c;一种思路是通过一次遍历将所有元素的数量记录在一个哈希表中&#xff0c;然后我们直接返回出现次数最多的键即可。另一种思路是直接对数组进行排序&#xff0c;数组中间的值一定是多数元素&#xff0c;因为…