Java使用Selenium反爬虫优化方案

当我们爬取大站的时候,就得需要对抗反爬虫机制的场景,因为项目要求使用Java和Selenium。Selenium通常用于模拟用户操作,但效率较低,所以需要我们结合其他技术来实现高效。

在这里插入图片描述

在 Java 中使用 Selenium 进行高效反爬虫对抗时,需结合特征隐藏、行为模拟、代理管理及验证码处理等策略,以下为系统性优化方案及代码实现:

一、特征隐藏:消除自动化痕迹

Selenium 暴露的 JS 特征(如 window.navigator.webdriver=true)是主要检测点。需通过启动参数和 JS 注入主动消除:

1. 修改浏览器启动参数
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;public class StealthDriver {public static ChromeDriver createStealthDriver() {ChromeOptions options = new ChromeOptions();// 关键:排除自动化标志options.setExperimentalOption("excludeSwitches", List.of("enable-automation"));options.addArguments("--disable-blink-features=AutomationControlled");return new ChromeDriver(options);}
}
2. 注入 JS 重写 Navigator 属性

在页面加载前覆盖关键属性:

import org.openqa.selenium.JavascriptExecutor;public class NavigatorMask {public static void maskWebDriver(ChromeDriver driver) {String js = "Object.defineProperty(navigator, 'webdriver', { get: () => undefined });";((JavascriptExecutor) driver).executeScript(js);}
}

作用:使 navigator.webdriver 返回 undefined

二、行为模拟:模仿人类操作模式

通过随机化操作间隔、鼠标轨迹等降低行为规律性:

1. 随机化操作间隔
import java.util.Random;public class HumanBehavior {public static void randomDelay(int minMs, int maxMs) throws InterruptedException {int delay = minMs + new Random().nextInt(maxMs - minMs);Thread.sleep(delay);}
}// 使用示例
HumanBehavior.randomDelay(1000, 5000); // 随机等待1~5秒
2. 模拟鼠标移动与点击

使用 Actions 类实现非线性移动:

import org.openqa.selenium.interactions.Actions;
import org.openqa.selenium.WebElement;public void simulateHumanClick(WebElement element, ChromeDriver driver) {Actions actions = new Actions(driver);actions.moveToElement(element, randomOffset(), randomOffset()) // 随机偏移坐标.pause(Duration.ofMillis(500)).click().perform();
}private int randomOffset() {return new Random().nextInt(20) - 10; // -10~10像素偏移
}

三、代理与请求管理:分散访问源

避免 IP 封禁需结合代理池和请求头动态化:

1. 代理 IP 池集成
import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import java.util.List;
import java.util.Random;public class ProxyManager {private static final List<String> PROXY_LIST = List.of("ip1:port", "ip2:port"); // 代理池public static Proxy getRandomProxy() {String proxyAddr = PROXY_LIST.get(new Random().nextInt(PROXY_LIST.size()));Proxy proxy = new Proxy();proxy.setHttpProxy(proxyAddr);return proxy;}
}// 使用示例
ChromeOptions options = new ChromeOptions();
options.setProxy(ProxyManager.getRandomProxy());
WebDriver driver = new ChromeDriver(options);
2. 动态请求头设置
options.addArguments("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...");
options.addArguments("referer=https://google.com"); // 动态变换引用来源

四、验证码处理:半自动与自动化结合

1. 人工介入型验证码
import java.util.Scanner;public class CaptchaSolver {public static String solveManually(WebElement captchaImage) {System.out.println("请查看浏览器中的验证码并输入:");return new Scanner(System.in).nextLine();}
}// 使用:输入框.sendKeys(CaptchaSolver.solveManually(captchaImage));
2. 第三方 API 集成(如 2Captcha)
import com.twocaptcha.TwoCaptcha;public String solveViaAPI(String imageUrl) {TwoCaptcha solver = new TwoCaptcha("API_KEY");return solver.normal(imageUrl); // 返回识别结果
}

五、Cookie 复用:绕过登录限制

通过手动获取 Cookie 实现免登录访问:

import org.openqa.selenium.Cookie;public void loadCookies(ChromeDriver driver) {driver.get("https://example.com/login");// 手动登录后获取Cookie并存储到文件/数据库Set<Cookie> cookies = driver.manage().getCookies();// 后续自动加载cookies.forEach(cookie -> driver.manage().addCookie(cookie));driver.navigate().refresh(); // 刷新后生效
}

六、高级技巧:无头浏览器与底层协议控制

1. 接管已开启的浏览器会话

绕过部分指纹检测:

# 命令行启动Chrome
chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium_profile"
ChromeOptions options = new ChromeOptions();
options.setExperimentalOption("debuggerAddress", "127.0.0.1:9222");
WebDriver driver = new ChromeDriver(options); // 接管现有会话
2. 使用无头浏览器(Headless Chrome)
options.addArguments("--headless=new"); // Chrome 111+ 推荐语法

注意:无头模式更易被检测,需配合特征隐藏使用。

最佳实践总结

策略适用场景关键优势
JS 特征重写所有基于检测的网站根本性绕过自动化标志
随机行为模拟行为分析型反爬(如鼠标轨迹监测)大幅降低行为规律性
动态代理池IP 高频访问封禁场景分散请求源,避免黑名单
Cookie 复用登录态验证的网站跳过登录流程,减少验证码触发
graph LR
A[启动Driver] --> B[注入JS隐藏特征]
B --> C[加载代理/IP池]
C --> D[模拟人类操作]
D --> E{遇到验证码?}
E -->|是| F[人工/API解决]
E -->|否| G[提取数据]
F --> G
G --> H[存储结果]

通过组合使用特征隐藏(JS 重写 + 启动参数)、行为模拟(随机延迟 + 鼠标移动)、资源管理(动态代理 + Cookie 复用),可显著提升 Selenium 在 Java 环境中的反爬能力。复杂验证码场景推荐结合第三方 API 实现自动化突破。

以上就是今天全部的内容,如果有任何疑问都可以留言交流交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

状态管理方案对比与决策

1. 状态管理的基本概念 现代前端应用随着功能复杂度提升&#xff0c;状态管理已成为架构设计的核心挑战。状态管理本质上解决的是数据的存储、变更追踪和响应式更新问题&#xff0c;以确保UI与底层数据保持同步。 核心挑战: 状态共享与组件通信可预测的状态变更性能优化与重…

Fetch与Axios:区别、联系、优缺点及使用差异

Fetch与Axios&#xff1a;区别、联系、优缺点及使用差异 文章目录 Fetch与Axios&#xff1a;区别、联系、优缺点及使用差异一、联系二、区别1. 浏览器支持与兼容性2. 响应处理3. 请求拦截和响应拦截4. 错误处理 三、优缺点1. Fetch API优点缺点 2. Axios优点缺点 四、使用上的差…

【Docker】快速入门与项目部署实战

我们在部署一个项目时&#xff0c;会出现一系列问题比如&#xff1a; 命令太多了&#xff0c;记不住软件安装包名字复杂&#xff0c;不知道去哪里找安装和部署步骤复杂&#xff0c;容易出错 其实上述问题不仅仅是新手&#xff0c;即便是运维在安装、部署的时候一样会觉得麻烦…

Java面试题尚硅谷版第1季

1、写出如下代码运行结果 1.1、 使用局部变量表和操作数栈解题 1.2、使用前置和后置递增解题 2、写一个单例模式 2.1、考察知识点 2.2、单例模式实现 3、类加载和初始化顺序 package classload;public class Father {private int i test();private static int j method();st…

关于Qt阻断样式继承的解决办法

引言 在使用 Qt 开发桌面应用时&#xff0c;借助样式表&#xff08;StyleSheet&#xff09;来统一定义界面风格是非常常见的做法。通常&#xff0c;你会在主程序中通过 qApp->setStyleSheet(...) 或者直接给某个父控件设置样式表&#xff0c;让所有的子控件都采用相同的配色…

鼠标右键添加新建某种文件的方法

场景 我经常用到.emmx&#xff0c;.eddx文件&#xff0c;电脑上装的是wpsX亿图&#xff08;因为有wps会员&#xff09;&#xff0c;没有开亿图会员。 然后问题就是&#xff0c;思维导图和流程图我都能正常开&#xff0c;正常编辑&#xff0c;但鼠标右键没有新建这两个文件的按…

Inxpect安全雷达传感器与控制器:动态检测 + 抗干扰技术重构工业安全防护体系

Inxpect 推出工业安全领域新型智能传感器与控制器&#xff0c;其核心产品为雷达扫描仪&#xff0c;具备动态调整检测区域、抗干扰能力强等特点&#xff0c;可精准检测危险区域人员进入或存在情况&#xff0c;适用于移动机器人等场景。 Inxpect安全雷达传感器核心功能 动态检测…

【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈:多模态发展的历史和未来

仔细阅读了文章《专访张祥雨&#xff1a;多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻》 https://mp.weixin.qq.com/s/892QuRPH9uP6zN6dS-HZMw 非常赞叹的一篇文章&#xff0c;说清楚了NLP、CV发展中的许多重大问题&#xff0c;读来醍醐灌顶&#xff01;这样的文章&…

C++中std::deque详解和实战工程代码示例

C中std::deque详解和实战工程代码示例 std::deque&#xff08;双端队列&#xff09;是 C 标准库中的一个序列容器&#xff0c;与 std::vector 类似&#xff0c;但它支持从头部和尾部高效地插入和删除元素。它底层采用分段连续空间实现&#xff0c;兼具灵活性与性能。 一、基本…

【AI大模型入门指南】概念与专有名词详解 (二)

【AI大模型入门指南】概念与专有名词详解 &#xff08;二&#xff09; 一 、前言 当你和聊天机器人聊得天花乱坠时&#xff0c;当你用文字让AI生成精美图片时&#xff0c;当手机相册自动帮你分类照片时 —— 这些看似智能的操作背后&#xff0c;都藏着 AI 大模型的身影。 本…

AIStor 的模型上下文协议 (MCP) 服务器:管理功能

在本系列的上一篇博文中&#xff0c;我们讨论了 MinIO AIStor 的模型上下文协议 (MCP) 服务器的基本用户级功能。我们学习了如何使用人类语言命令查看存储桶的内容、分析对象并标记它们以便将来处理&#xff0c;以及如何通过 LLM&#xff08;例如 Anthropic Claude&#xff09;…

期权末日轮实值期权盈利未平仓怎么办?

本文主要介绍期权末日轮实值期权盈利未平仓怎么办&#xff1f;期权末日轮实值期权盈利未平仓该怎么办&#xff0c;需要明确几个关键点&#xff1a;末日轮指的是期权到期日临近的时候&#xff0c;通常指最后一周&#xff0c;尤其是最后一天&#xff0c;这时候时间价值衰减很快&a…

C++/Qt 联合编程中的定时器使用陷阱:QObject::startTimer 报错详解

在 Qt 开发中&#xff0c;QTimer 是一个常用的工具类&#xff0c;用于处理定时事件。但不少开发者在 C/Qt 联合编程&#xff0c;尤其是在工具类、静态类、线程中使用定时器时&#xff0c;会遇到如下令人困惑的报错&#xff1a; QObject::startTimer: Timers can only be used …

CentOS7.9 查询运维安全日志,排查恶意用户

1、查看系统版本 cat /etc/redhat-release uname -a 2、查看所有账号 cat /etc/shadow 3、修改 root 密码 passwd 3、查看账号ID id jinzhi 4、查看登录日志 lastlog 5、查看操作日志 cat .bash_history sudo cat /home/yunwei/.bash_history sudo grep root /va…

多模态大语言模型arxiv论文略读(117)

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文标题&#xff1a;Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文作者&#xff1a;Ren-Di Wu, Yu-Yen L…

如何正确的配置eureka server集群

将 Eureka Server 实例的 hostname 都配置成相同的值&#xff0c;在 Eureka Server 集群环境下同样是不推荐且通常会导致严重问题的&#xff0c; 核心问题&#xff1a;Eureka Server 集群的工作机制 Eureka Server 集群通过相互注册&#xff08;Peering&#xff09;来实现高可…

AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用

查看原文>>> 从入门到精通-AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用 结合ArcGIS和GPT的优势&#xff0c;本文重点进行AI大模型应用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力数据读取与处理、AI助力空间分析、AI助力遥感…

vue3-ts: v-model 和 props 的关系

在 Vue.js 中&#xff0c;v-model 是一个语法糖&#xff0c;它实际上是 :value 和 input 事件的组合。 当你使用 v-model 绑定一个组件时&#xff0c;默认情况下&#xff0c;组件会通过 props 接收 value 这个 prop&#xff0c; 并通过触发 input 事件来更新父组件中的数据。 …

学车笔记 变挡

超15就可以加一档了 有些人对手动挡的档位有一些误解_哔哩哔哩_bilibili 献给所有新司机.开手动档摆脱顿挫的根本方法.学会看转速!没那么复杂!_哔哩哔哩_bilibili 减速到怠速降一档

STM32的DMA简介

STM32的DMA简介 一、DMA概述 DMA&#xff08;Direct Memory Access&#xff0c;直接存储器存取&#xff09;是一种硬件机制&#xff0c;它允许外设和存储器之间或者存储器和存储器之间进行高速数据传输&#xff0c;而无需CPU的干预。这种机制可以极大地节省CPU资源&#xff0c…