Python 异步爬虫(aiohttp)高效抓取新闻数据

一、异步爬虫的优势

在传统的同步爬虫中,爬虫在发送请求后会阻塞等待服务器响应,直到收到响应后才会继续执行后续操作。这种模式在面对大量请求时,会导致大量的时间浪费在等待响应上,爬取效率较低。而异步爬虫则等待可以在服务器响应的同时,继续执行其他任务,大大提高了爬取效率。

<font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp</font> 是一个支持异步请求的 Python 库,它基于 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">asyncio</font> 框架,可以实现高效的异步网络请求。使用 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp</font> 构建异步爬虫,可以在短时间内发起大量请求,同时处理多个响应,从而实现高效的数据抓取。

二、环境准备

在开始编写异步爬虫之前,需要确保已经安装了 Python 以及 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp</font> 库。如果尚未安装 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp</font>

此外,为了更好地处理 HTML 内容,我们还需要安装 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">beautifulsoup4</font> 库,用于解析 HTML 文档:

三、构建异步爬虫

1. 初始化异步爬虫

首先,我们需要创建一个异步函数来初始化爬虫。在这个函数中,我们将设置异步会话(<font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp.ClientSession</font>),用于发送网络请求。

import aiohttp
import asyncio
from bs4 import BeautifulSoupasync def fetch(session, url):"""异步发送 GET 请求:param session: aiohttp.ClientSession 对象:param url: 请求的 URL:return: 响应的 HTML 内容"""async with session.get(url) as response:return await response.text()

2. 解析新闻数据

在获取到新闻页面的 HTML 内容后,我们需要使用 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">BeautifulSoup</font> 对其进行解析,提取出新闻的标题、链接等关键信息。

def parse_news):
(html    """解析 HTML 内容,提取新闻信息:param html: 新闻页面的 HTML 内容:return: 新闻信息列表"""soup = BeautifulSoup(html, 'html.parser')news_list = []# 假设新闻标题在 <h2> 标签中,新闻链接在 <a> 标签的 href 属性中for item in soup.find_all('h2'):title = item.get_text()link = item.find('a')['href']news_list.append({'title': title, 'link': link})return news_list

3. 异步任务调度

为了实现高效的异步爬取,我们需要将多个请求任务调度到事件循环中。通过创建多个异步任务,并将它们添加到事件循环中,可以同时发起多个请求。

async def main():url = 'https://example.com/news'  # 新闻网站的 URLasync with aiohttp.ClientSession() as session:html = await fetch(session, url)news_list = parse_news(html)for news in news_list:print(news)if __name__ == '__main__':asyncio.run(main())

4. 多任务并发

在实际应用中,我们通常需要爬取多个新闻页面。为了提高效率,可以使用 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">asyncio.gather</font> 方法并发执行多个异步任务。

async def fetch_news(session, url):html = await fetch(session, url)return parse_news(html)async def main():urls = ['https://example.com/news/page1','https://example.com/news/page2','https://example.com/news/page3',# 更多新闻页面的 URL]async with aiohttp.ClientSession() as session:tasks = [fetch_news(session, url) for url in urls]all_news = await asyncio.gather(*tasks)for news_list in all_news:for news in news_list:print(news)if __name__ == '__main__':asyncio.run(main())

四、优化与注意事项

1. 错误处理

在爬取过程中,可能会遇到各种错误,如网络请求超时、服务器返回错误状态码等。为了保证爬虫的稳定性,需要对这些错误进行处理。

async def fetch(session, url):try:async with session.get(url, timeout=10) as response:  # 设置请求超时时间response.raise_for_status()  # 检查响应状态码return await response.text()except asyncio.TimeoutError:print(f"请求超时:{url}")except aiohttp.ClientResponseError as e:print(f"请求错误:{url}, 状态码:{e.status}")except Exception as e:print(f"未知错误:{url}, 错误信息:{e}")

2. 遵守网站规则

在爬取新闻数据时,需要遵守目标网站的 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">robots.txt</font> 文件规定,避免对网站造成过大压力。同时,合理设置请求间隔,避免被网站封禁。

3. 数据存储

爬取到的新闻数据可以存储到本地文件、数据库或云存储中,以便后续进行分析和处理。

五、总结

本文介绍了如何使用 Python 的 <font style="color:rgba(0, 0, 0, 0.9);background-color:rgba(0, 0, 0, 0.03);">aiohttp</font> 库构建异步爬虫,高效抓取新闻数据。通过异步请求和并发任务调度,可以显著提高爬取效率。在实际应用中,还需要注意错误处理、遵守网站规则以及数据存储等问题。希望本文能够帮助读者更好地理解和应用 Python 异步爬虫技术。

六、完整代码

import aiohttp
import asyncio
from bs4 import BeautifulSoup# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"
proxyUrl = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"async def fetch(session, url):try:async with session.get(url, timeout=10, proxy=proxyUrl) as response:response.raise_for_status()return await response.text()except asyncio.TimeoutError:print(f"请求超时:{url}")except aiohttp.ClientResponseError as e:print(f"请求错误:{url}, 状态码:{e.status}")except Exception as e:print(f"未知错误:{url}, 错误信息:{e}")def parse_news(html):soup = BeautifulSoup(html, 'html.parser')news_list = []for item in soup.find_all('h2'):title = item.get_text()link = item.find('a')['href'] if item.find('a') else Noneif title and link:news_list.append({'title': title, 'link': link})return news_listasync def fetch_news(session, url):html = await fetch(session, url)if html:return parse_news(html)return []async def main():urls = ['https://example.com/news/page1','https://example.com/news/page2','https://example.com/news/page3',# 更多新闻页面的 URL]# 配置代理认证proxy_auth = aiohttp.BasicAuth(proxyUser, proxyPass)conn = aiohttp.TCPConnector(limit=10)  # 限制连接数async with aiohttp.ClientSession(connector=conn) as session:tasks = [fetch_news(session, url) for url in urls]all_news = await asyncio.gather(*tasks)for news_list in all_news:for news in news_list:print(news)if __name__ == '__main__':asyncio.run(main())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913543.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jenkins Pipeline(二)

1.Pipeline 变量 在 Jenkins 管道&#xff08;Pipeline&#xff09;中&#xff0c;变量是一种非常有用的功能&#xff0c;它们可以帮助你在构建过程中存储和传递数据。Jenkins 管道支持多种方式来定义和使用变量&#xff0c;包括环境变量、脚本变量以及全局变量。 1.2 脚本变…

springsecurity02

提前打开Redis1&#xff09;通过内置的用户名和密码登录spring-boot-starter-security.jar2&#xff09;使用自定义用户名和密码登录UserDetailService自定义类实现UserDetailService接口&#xff0c;重写loadUserByUsername方法class UserDetailServiceImpl implements UserDe…

Apache组件遭大规模攻击:Tomcat与Camel高危RCE漏洞引发数千次利用尝试

漏洞态势分析帕洛阿尔托网络公司Unit 42团队最新研究报告显示&#xff0c;针对Apache Tomcat和Apache Camel关键漏洞的网络攻击正在全球激增。2025年3月披露的这三个远程代码执行&#xff08;RCE, Remote Code Execution&#xff09;漏洞——CVE-2025-24813&#xff08;Tomcat&…

Odoo 中国特色高级工作流审批模块研发

本文旨在为基于Odoo 18平台开发一款符合中国用户习惯的、功能强大的通用工作流审批模块提供一份全面的技术实现与产品设计方案。该模块的核心特性包括&#xff1a;为最终用户设计的图形化流程设计器、对任意Odoo模型的普适性、复杂的审批节点逻辑&#xff08;如会签、条件分支、…

unplugin-vue-components 最佳实践手册

&#x1f3a8; unplugin-vue-components 最佳实践手册 整理不易&#xff0c;收藏、点赞、关注支持下&#xff01;本文详细介绍了 unplugin-vue-components 插件的作用、配置方法、常用场景及与 unplugin-auto-import 配合使用的实战技巧&#xff0c;特别适合 Vue 3 Vite 项目。…

⿻ Java 学习日志 01

Java 运行机制&#xff1a; 原文件>编译器>字节码&#xff08;class后缀&#xff09;>JVM虚拟机>操作系统既有编译的过程也有解释的过程。JVM&#xff1a;Java Virture Machine/执行字节码的虚拟机&#xff0c;是实现跨平台——Java核心机制的核心。 JRE&…

基于Flutter的web登录设计

基于Flutter的web登录设计 1. 概述 本文档详细介绍了基于Flutter Web的智能家居系统登录模块的设计与实现。登录模块作为系统的入口&#xff0c;不仅提供了用户身份验证功能&#xff0c;还包括注册新用户的能力&#xff0c;确保系统安全性的同时提供良好的用户体验。 本文档…

Maven继承:多模块项目高效管理秘笈

Maven继承是Maven项目管理中的核心机制&#xff0c;允许子模块共享并统一管理父模块的配置信息&#xff08;尤其是依赖关系&#xff09;&#xff0c;其核心原理与Java中的类继承类似。以下是关键要点解析&#xff1a;一、核心概念与作用消除配置冗余 多个子模块共享相同依赖&am…

关于系统无法找到 arm-linux-gcc 命令,这表明你的环境中尚未安装 ARM 交叉编译工具链。以下是详细的解决方案:(DIY机器人工房)

1. 错误原因分析 错误信息&#xff1a;无法将“arm-linux-gcc”项识别为 cmdlet/函数/程序 这说明 Windows 或 Cygwin 环境中没有安装 ARM 交叉编译工具&#xff0c;或者工具路径未添加到系统 PATH 中。当前环境&#xff1a; 你之前使用的是 Cygwin 环境下的 x86_64 架构 GCC&…

redis一篇入门

一、Redis 安装 Linux 系统安装通过包管理器安装 (以 Ubuntu 为例): sudo apt update sudo apt install redis-server从源码编译安装: wget https://download.redis.io/redis-stable.tar.gz tar -xzvf redis-stable.tar.gz cd redis-stable make sudo make installWindows 安装…

【JAVAFX】webview导入本地html并传入参数

java侧String num"234234";URL url1 getClass().getResource("/html/imGroupVar.html");webview.getEngine().load(url1.toExternalForm() "?cc" num);本地html <!DOCTYPE html> <html lang"en"> <head><met…

Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态

作为致力于构建健康游戏生态与优质用户体验的领先游戏平台&#xff0c;Playfun始终以“让游戏更有价值”为理念&#xff0c;持续探索Web3与GameFi融合的新可能。凭借其开放、公平与共创的核心价值观&#xff0c;Playfun正逐步成为连接玩家、开发者与数字资产生态的重要桥梁。为…

WSL2配置freesurfer

Windows 11 安装 WSL2 Ubuntu 22.04 并迁移到 E 盘 前言 本文详细记录了在 Windows 11 上通过 Microsoft Store 安装 WSL2 Ubuntu 22.04&#xff0c;并将其从默认的 C 盘迁移到 E 盘的完整过程。适合想要节省 C 盘空间或需要将 WSL2 安装到其他磁盘的用户。 环境信息 操作系…

论客邮箱导出发信信息脚本

#!/bin/bash# 检查是否提供了CSV文件名if [ $# -ne 1 ]; thenecho "用法: $0 <csv文件>"exit 1ficsv_file"$1"# 暂存用户和midoutput_csv"user_mid.csv"# 抄送人优化extract_value() {[[ "$1" *,* ]] || return # 无逗号直接返…

Windows 本地安装部署 Apache Druid

在 Windows 本地安装部署 Apache Druid 可以按照以下步骤进行。由于 Druid 是基于 Java 的应用&#xff0c;需要先准备好 Java 环境&#xff0c;然后下载配置 Druid。 一、环境准备 1. 安装 Java 确保已安装 Java 8 或以上版本&#xff08;推荐 Java 11&#xff09;&#xf…

PY32F002A单片机 低成本控制器解决方案,提供多种封装

PY32F002A 是一款32 位 ARM Cortex-M0 内核的高性价比单片机。PY32F002A单片机提供了多种封装类型&#xff0c;最大有18个IO&#xff0c;芯片采用32位ARM内核&#xff0c;M0架构&#xff0c;最高工作频率24MHz。flash 存储器20KByte,SRAM 3K。最大支持9路12位ADC&#xff0c;5个…

区块链技术在物联网(IoT)中的核心应用场景

以下是区块链技术在物联网&#xff08;IoT&#xff09;中的核心应用场景及具体实例&#xff0c;涵盖技术原理、实施架构和实际价值&#xff1a;一、区块链解决物联网的四大核心问题痛点区块链方案技术实现设备身份伪造唯一数字身份链上注册非对称加密生成设备DID&#xff08;去…

PostgreSQL DELETE 语句详解

PostgreSQL DELETE 语句详解 在数据库管理中,删除数据是日常操作中不可或缺的一环。PostgreSQL 是一款功能强大的开源关系型数据库管理系统,其 DELETE 语句在数据删除方面表现出色。本文将详细解析 PostgreSQL 的 DELETE 语句,包括其语法、使用场景和注意事项。 1. DELETE…

传统报警难题频现,安全运行隐患重重

在企业生产运营与安全管理过程中&#xff0c;报警系统作为保障安全运行的重要防线&#xff0c;其作用不言而喻。然而&#xff0c;传统报警系统在实际应用中却难题频现&#xff0c;不仅无法及时、准确地预警潜在风险&#xff0c;还为企业的安全运行埋下了重重隐患。青岛国瑞信息…

WPF学习笔记(23)Window、Page与Frame、ViewBox

Window、Page与Frame一、Window1.模态窗口与非模态窗口2.Window类3.示例二、Page1.概述2.Page类三、Frame1.概述2.Frame类3.示例四、ViewBox1. 概述2. 详解3. 示例总结一、Window 1.模态窗口与非模态窗口 2.Window类 属性说 明Title获取或设置窗口的标题。lcon设获取或设置窗…