Python实战：海量获取京东商品信息

在数据驱动的商业时代，数据就是最宝贵的资源。对于电商从业者、市场分析师而言，从京东这类大型电商平台获取商品信息，能够为市场调研、竞品分析、销售策略制定提供重要依据。今天，就来分享如何用Python实现京东商品信息的海量获取。

一、准备工作

（一）环境搭建

首先，确保你的电脑安装了Python 3.x版本。Python 3在语法简洁性、性能优化以及对新特性的支持上更胜一筹。安装完成后，还要为Python配置好环境变量，让系统能够顺利识别Python命令。

接下来是安装第三方库，这是实现爬虫功能的关键。通过pip命令，可以轻松安装所需的库：

- requests ：用于发送HTTP请求，与京东服务器进行通信，获取网页内容。

- BeautifulSoup ：负责解析HTML页面，将杂乱的网页代码转化为结构化的数据，方便我们提取所需信息。

- pandas ：强大的数据处理和分析库，能将爬取到的数据整理成规范的表格形式，便于后续分析和存储。

- time ：控制请求间隔时间，避免因请求过于频繁而触发京东的反爬机制。

- random ：生成随机数，结合 time 库，实现更灵活的请求间隔设置，让爬虫行为更接近真实用户。

安装命令如下：

pip install requests beautifulsoup4 pandas time random

（二）分析网页结构

在编写代码前，要深入了解京东商品页面的结构。打开京东网站，输入目标商品关键词，比如“笔记本电脑”，进入商品搜索结果页面。按下F12键，调出浏览器的开发者工具，通过“Elements”选项卡，查看页面的HTML代码。

仔细观察可以发现，商品的名称、价格、销量、评价等信息都包含在特定的HTML标签和类名中。例如，商品名称可能在 <div class="p-name"> 标签内，价格在 <div class="p-price"> 标签内。掌握这些标签和类名的规律，是精准提取商品信息的基础。

（三）构造请求头

京东作为大型电商平台，有着严格的反爬机制。为了让爬虫顺利获取数据，需要构造合理的请求头，伪装成真实用户的访问行为。请求头中， User - Agent 字段尤为重要，它标识了访问客户端的信息，包括浏览器类型、版本、操作系统等。我们可以在网上搜索常见的 User - Agent ，然后随机选择一个进行设置，模拟不同用户的访问：

import random

user_agents = [

"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",

# 更多User - Agent

]

headers = {

"User - Agent": random.choice(user_agents)

}

二、代码实现

（一）发送请求获取页面内容

使用 requests 库向京东商品页面发送GET请求，获取网页的HTML内容：

import requests

url = "https://search.jd.com/Search?keyword=笔记本电脑" # 可替换为其他商品关键词

response = requests.get(url, headers=headers)

if response.status_code == 200:

html_content = response.text

else:

print(f"请求失败，状态码：{response.status_code}")

这里， requests.get() 方法发送请求， headers 参数传递构造好的请求头。如果请求成功，状态码为200，将网页内容存储在 html_content 变量中；否则，打印出错误状态码。

（二）解析页面提取商品信息

借助 BeautifulSoup 库解析HTML内容，提取商品信息：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')

products = soup.find_all('div', class_='gl-i-wrap') # 假设商品信息所在的div类名为gl-i-wrap

data = []

for product in products:

name = product.find('div', class_='p-name').find('em').text.strip()

price = product.find('div', class_='p-price').find('i').text.strip()

# 尝试获取销量信息，若无则设为None

sales = product.find('div', class_='p-commit').find('strong')

if sales:

sales = sales.text.strip()

else:

sales = None

data.append({

'商品名称': name,

'商品价格': price,

'商品销量': sales

})

这段代码中， BeautifulSoup(html_content, 'html.parser') 创建解析对象， find_all() 方法查找所有包含商品信息的 <div> 标签。然后，通过层层查找子标签，提取商品名称、价格和销量信息，并存储在 data 列表中。

（三）数据存储

利用 pandas 库将提取到的数据整理成表格形式，并保存为CSV文件：

import pandas as pd

df = pd.DataFrame(data)

df.to_csv('jd_products.csv', index=False, encoding='utf-8-sig')

pd.DataFrame(data) 将列表数据转换为DataFrame表格， to_csv() 方法将表格保存为CSV文件， index=False 表示不保存行索引， encoding='utf-8-sig' 确保文件编码正确，避免中文乱码问题。

三、进阶与优化

（一）分页爬取

京东商品搜索结果通常有多页，要获取海量数据，就需要实现分页爬取。通过分析URL规律可以发现，页码参数一般在URL中以 page 表示。例如，第一页的URL可能是 https://search.jd.com/Search?keyword=笔记本电脑&page=1 ，第二页是 https://search.jd.com/Search?keyword=笔记本电脑&page=2 ，以此类推。

利用这个规律，通过循环改变 page 参数的值，实现多页数据的获取：

for page in range(1, 11): # 假设获取前10页数据

url = f"https://search.jd.com/Search?keyword=笔记本电脑&page={page}"

response = requests.get(url, headers=headers)

if response.status_code == 200:

html_content = response.text

# 解析页面提取商品信息的代码...

else:

print(f"第{page}页请求失败，状态码：{response.status_code}")

time.sleep(random.uniform(1, 3)) # 设置随机请求间隔，避免反爬

（二）应对反爬机制

除了设置请求头和请求间隔，还可以使用代理IP进一步绕过反爬。代理IP就像是一个中间人，爬虫通过它向京东服务器发送请求，隐藏真实IP地址，降低被封禁的风险。可以从一些免费或付费的代理IP服务提供商获取代理IP列表，然后在代码中随机选择使用：

proxies = [

{"http": "http://111.111.111.111:8080"},

{"http": "http://222.222.222.222:8080"},

# 更多代理IP

]

proxy = random.choice(proxies)

response = requests.get(url, headers=headers, proxies=proxy)

（三）异常处理

在爬取过程中，可能会遇到各种异常情况，如网络波动导致请求超时、页面结构变化导致元素无法提取等。为了提高爬虫的稳定性和可靠性，需要添加异常处理机制：

try:

response = requests.get(url, headers=headers, proxies=proxy, timeout=5)

response.raise_for_status() # 检查请求是否成功，不成功则抛出异常

html_content = response.text

# 解析页面提取商品信息的代码...

except requests.exceptions.RequestException as e:

print(f"请求发生异常：{e}")

except Exception as e:

print(f"其他异常：{e}")

四、法律与道德考量

在进行网页爬取时，必须遵守相关法律法规和网站的使用条款。京东的 robots.txt 文件规定了哪些页面可以被爬取，哪些不可以，一定要严格遵守，避免侵权和法律风险。同时，爬取数据应仅用于合法的商业分析、学术研究等正当目的，不得用于非法竞争、数据贩卖等不当行为。

通过以上步骤和技巧，你已经掌握了使用Python获取京东商品信息的方法。在实际应用中，可以根据具体需求，进一步优化和扩展代码，让数据更好地为业务服务，创造更大的价值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/82669.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/82669.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！