Python 爬虫初学者教程

 一、爬虫基础概念

 

什么是爬虫?

爬虫是模拟浏览器行为,自动获取网页数据的程序,常用于数据采集、信息监控等场景。

 

爬虫的基本流程:

 

1. 发送请求获取网页内容

2. 解析内容提取数据

3. 存储数据

 

二、环境准备

 

1. 安装 Python:推荐 Python 3.8+,官网 下载后按提示安装,记得勾选“Add to PATH”。

2. 安装必要库:

-  requests :发送 HTTP 请求( pip install requests )

-  BeautifulSoup :解析 HTML/XML 数据( pip install beautifulsoup4 )

-  lxml :高效解析库( pip install lxml ,BeautifulSoup 可配合此库使用)

 

三、第一个爬虫:获取网页标题

 

以获取豆瓣电影首页标题为例,代码如下:

 

import requests

from bs4 import BeautifulSoup

 

# 1. 发送请求

url = "https://movie.douban.com/"

response = requests.get(url)

 

# 2. 处理编码(避免中文乱码)

response.encoding = response.apparent_encoding

 

# 3. 解析网页

soup = BeautifulSoup(response.text, 'lxml')

 

# 4. 提取数据:获取所有电影标题

movie_titles = soup.find_all('span', class_='title')

 

# 5. 输出结果

print("豆瓣电影首页部分标题:")

for title in movie_titles:

    # 过滤非中文标题(避免广告等干扰)

    if "·" not in title.text:

        print(title.text)

 

 

代码解析:

 

-  requests.get(url)  发送 GET 请求获取网页内容

-  BeautifulSoup  用 lxml 解析器处理 HTML

-  find_all('span', class_='title')  根据标签和类名提取元素

- 过滤逻辑避免输出非电影标题(如广告)

 

四、进阶:处理动态网页(以豆瓣短评为例)

 

动态网页数据通常通过 API 接口返回,需分析网络请求获取真实数据地址:

 

import requests

import json

 

# 豆瓣电影《奥本海默》短评 API(需从浏览器开发者工具获取)

api_url = "https://movie.douban.com/j/chart/top_list_comments"

params = {

    "movie_id": "35477223", # 电影ID

    "start": 0, # 起始评论数

    "limit": 20, # 每页评论数

}

 

# 发送请求(带参数)

response = requests.get(api_url, params=params)

comments_data = json.loads(response.text) # 解析JSON数据

 

# 提取并输出评论

print("《奥本海默》短评:")

for comment in comments_data:

    print(f"用户 {comment['author']}:{comment['content'][:50]}...")

 

 

五、爬虫注意事项(避免被封IP)

 

1. 设置请求头:模拟浏览器行为(添加  User-Agent  等)

 

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",

    "Accept": "text/html,application/xhtml+xml,application/xml"

}

response = requests.get(url, headers=headers)

 

 

2. 控制请求频率:添加延时(避免频繁请求)

 

import time

time.sleep(1) # 每次请求间隔1秒

 

 

3. 遵守网站规则:查看网站  robots.txt (如豆瓣允许合理爬虫,但禁止高频请求)

 

六、实战练习:爬取小说网站章节

 

以爬取某小说网站章节为例,完整代码框架:

 

import requests

from bs4 import BeautifulSoup

import os

import time

 

# 小说主页

novel_url = "https://example.com/novel"

 

# 1. 获取章节列表

def get_chapter_list(url):

    response = requests.get(url)

    soup = BeautifulSoup(response.text, 'lxml')

    chapters = soup.find_all('a', class_='chapter-link')

    return [(chapter.text, chapter['href']) for chapter in chapters]

 

# 2. 获取章节内容

def get_chapter_content(chapter_url):

    response = requests.get(chapter_url)

    soup = BeautifulSoup(response.text, 'lxml')

    content = soup.find('div', class_='content').text

    return content

 

# 3. 保存内容到文件

def save_to_file(chapter_name, content, novel_name):

    if not os.path.exists(novel_name):

        os.makedirs(novel_name)

    file_path = f"{novel_name}/{chapter_name}.txt"

    with open(file_path, 'w', encoding='utf-8') as f:

        f.write(content)

    print(f"已保存:{chapter_name}")

 

# 主流程

if __name__ == "__main__":

    novel_name = "小说名称"

    chapters = get_chapter_list(novel_url)

    for i, (chapter_name, chapter_url) in enumerate(chapters):

        print(f"正在爬取第 {i+1}/{len(chapters)} 章:{chapter_name}")

        content = get_chapter_content(chapter_url)

        save_to_file(chapter_name, content, novel_name)

        time.sleep(2) # 间隔2秒,避免频繁请求

 

 

七、进一步学习资源

 

- 书籍:《Python爬虫开发与项目实战》《精通Python网络爬虫》

- 在线课程:

- 廖雪峰 Python 教程

- 爬虫实战:B站视频信息采集

- 工具推荐:

- 浏览器开发者工具(F12):分析网络请求

- Postman:调试 API 请求

 

通过以上步骤,你可以完成基础爬虫的开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/912002.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/912002.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows下 tomcat的安装部署

Tomcat是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP程序的首选。 本文将详细介绍在Windows环境下搭建Tomcat服务器,来搭建小型应用。 要…

ASIO 避坑指南:高效、安全与稳健的异步网络编程

ASIO 避坑指南:高效、安全与稳健的异步网络编程 引言 ASIO是很强大的一个异步io库,但服务器除了高效以外,稳定也是关键,这篇文章主要总结了ASIO使用遇到的典型问题和坑: 如何榨干io_context的性能,让CPU…

鲸孪生中三维模型的常见问题~

鲸孪生是山海鲸中专门负责3D 场景搭建和渲染的组件,可以双击进入编辑,进入编辑之后组件栏也会跟着变化,可以插入更多的 3D 内部的组件。 搭建三维场景经常会使用到模型,包括人物模型、建筑物模型、汽车模型等,这些都可…

PyTorch中实现开立方

技术背景 在PyTorch中,没有直接实现cbrt这一算子。这个算子是用于计算一个数的开立方,例如,最简单的-8开立方就是-2。但这里有个问题是,在PyTorch中,因为没有cbrt算子,如果直接用幂次计算去操作数字&#x…

关于如何在 Git 中切换到之前创建的分支的方法

文章目录 关于如何在 Git 中切换到之前创建的分支的方法一、确保你在项目目录中二、查看所有分支(可选)三、切换到目标分支四、如果分支仅在远程存在五、验证是否切换成功六、常见问题处理七、总结命令流程 PS:下次进入分支时,只需完成步骤1 …

基于深度学习的智能图像语义分割系统:技术与实践

前言 图像语义分割是计算机视觉领域中的一个重要任务,其目标是将图像中的每个像素分配到预定义的语义类别中。这一技术在自动驾驶、医学影像分析、机器人视觉等多个领域有着广泛的应用。近年来,深度学习技术,尤其是卷积神经网络(C…

历史轨迹组件性能优化方案

针对历史轨迹组件的性能优化,可从数据处理、渲染策略、内存管理和交互优化四个方面入手。以下是具体的优化方向和实现方案: 一、数据处理优化 1. 轨迹数据抽稀算法 原理:在不影响轨迹整体形状的前提下,减少轨迹点数量实现方案&…

【论文阅读36】- Graph Attention Network(2025)

这篇论文主要介绍了一种基于改进型图注意力网络(Graph Attention Network, GAT)的滑坡变形异质性监测方法。该方法通过融合多尺度时间嵌入和自适应图学习,能够同时捕捉监测点之间复杂的时空依赖关系,有效反映滑坡的局部与整体变形…

CSS基础3

动画-animation 动画-animation与 transition过渡动画的区别 transition过渡动画:实现两个状态间的变化过程动画animation:实现多个状态间的变化过程,动画过程可控(重复播放、最终画面、是否暂停) 走马灯-使用transiti…

Java 程序设计试题​

​考试时间:120 分钟​ ​总分:100 分​ 一、选择题(每题 2 分,共 30 分) 1.以下哪个不是 Java 的关键字? A. final B. sizeof C. static D. void 2.以下代码输出结果是? System.out.printl…

Elasticsearch(ES)与 OpenSearch(OS)

Elasticsearch(ES)与 OpenSearch(OS)本质上是同源分叉、独立演进的技术,两者关系可概括为“起源相同、目标分化”。以下是关键要点解析: 🔍 一、核心关系:分叉与独立演进 起源相同 O…

Python爬虫实战:研究Ghost.py相关技术

1 引言 1.1 研究背景与意义 随着互联网技术的不断发展,现代网页越来越多地采用 JavaScript 动态生成内容,传统的静态爬虫技术已难以满足需求。例如,许多新闻网站的评论区、电商平台的商品列表以及社交网站的动态内容均通过 AJAX 异步加载,普通爬虫无法获取这些内容。Ghos…

PostgreSQL(知识片):查询/计算Selectivity(可选性)

一、视图pg_ststs查询可选性 1、当可选性较小时,可以用视图pg_ststs来查询 表的每一列的MVC(most Common Value)作为一对most_common_vals和most_common_freqs的列存储在pg_ststs视图中。 (1)most_common_vals&#x…

Android Studio 打 APK 包报错 Invalid keystore format 的解决方法

提示:“奔跑吧邓邓子” 的必备核心技能专栏聚焦计算机技术与职场场景,拆解程序员、产品经理等技术从业者的核心能力图谱。内容涵盖编程思维、算法实战、项目管理、技术架构等硬核技能,结合案例解析代码优化、跨团队协作等落地方法论。定期更新…

通义灵码2.5智能体模式实战———集成高德MCP 10分钟生成周边服务地图应用

1 引言 在当今快节奏的开发环境中,智能编程助手正成为开发者生产力的倍增器。通义灵码2.5的智能体模式通过任务分解、多轮对话和上下文感知,将传统代码补全提升为完整的解决方案生成能力。本文将以实战案例展示如何利用通义灵码2.5集成高德地图MCP服务&…

【Linux】使用ip link命令设置bond

目录 1、介绍2、设置步骤【1】创建bonding接口【2】设置bonding模式【3】添加物理网口到bonding接口【4】激活bonding接口 3、解除步骤【1】关闭bond接口【2】接触从属接口【3】删除bond接口 1、介绍 设置bond的方法有很多种,其中通过命令行ip link设置就是其中一种…

Camunda相关表结构和字段备注SQL脚本

Camunda相关表结构和字段备注SQL脚本 引camunda engine表和字段备注 引 Camunda engine服务启动时会自动创建相关的表,沿用了activity的设计,我这里使用的是7.17.0版,自动生成了49张表,但所有的表和字段都没有备注信息&#xff0c…

Qt、C++自定义按钮、组件、事件编程开发练习,万字实战解析!!

x项目地址:https://gitee.com/fan-wenshan/qt_learn_button-andevent_zhengzhuo 项目界面截图: ### 项目介绍:comstomSingal (Qt应用程序) 项目基本信息 - 项目类型 :Qt Widgets应用程序 - 开发环境 :Qt 5.12.12 Min…

商务年度总结汇报PPT模版分享

商务汇报,工作总结,毕业答辩,简历竞聘PPT模版,创意年终汇报PPT模版,IDEAS商务汇报PPT模版,年度总结PPT模版,创意低多边形PPT模版,商务型PPT模版,小清新创意花朵PPT模版&a…

电机设计仿真软件学习DAY3——Maxwell界面功能+3D几何模型绘制

"手把手教你玩转电机!每日更新教程,评论区答疑解惑,小白也能变大神!" 目录 maxwell基础操作 一.Maxwell基础操作:新建项目 二.maxwell3D界面 三.maxwell3D绘图 3.1绘制圆柱体的方法 3.2绘制正方体的方法…