解决Spark4.0.0依赖问题

Apache Spark 4.0.0 冲突解决指南

1. 问题背景

在尝试运行一个基于 Apache Spark 4.0.0 的 Java 应用程序。根据 Spark 4.0.0 的发布说明,该版本默认支持 Scala 2.13 和 JDK 17。在初始设置和运行过程中,遇到了以下主要问题:

  • 依赖冲突 (POM 问题):Maven 项目的 pom.xml 配置不当,导致依赖解析失败。
  • Java 版本不兼容:尽管 pom.xml 中指定了 JDK 17,但系统默认的 Java 版本 (JDK 21/23) 导致运行时错误,包括 java.lang.UnsupportedOperationException: getSubject is supported only if a security manager is allowed
  • Servlet API 兼容性问题:运行应用程序时出现 java.lang.NoClassDefFoundError: jakarta/servlet/SingleThreadModel 错误。这是由于 Spark 4.0.0 内部使用了在较新 Servlet API 版本中已弃用或移除的类。

2. 解决方案

为解决上述问题,我们采取了一系列配置和调整措施。

2.1 pom.xml 配置调整

针对依赖和 Java 版本兼容性问题,对 pom.xml 进行了以下关键修改:

  • 指定 Java 版本: 确保 Maven 项目使用 JDK 17 进行编译和运行。

    <!-- ... existing code ... -->
    <properties><java.version>17</java.version><maven.compiler.source>${java.version}</maven.compiler.source><maven.compiler.target>${java.version}</maven.compiler.target><spark.version>4.0.0</spark.version><scala.compat.version>2.13</scala.compat.version>
    </properties>
    <!-- ... existing code ... -->
    
  • 添加 Spark Core 和 Spark SQL 依赖: 确保 Spark 核心库和 SQL 模块正确引入,并设置为 provided 范围,避免与应用程序的其他依赖冲突。

    <!-- ... existing code ... -->
    <dependencies><!-- ... existing dependencies ... --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope><exclusions><exclusion><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId></exclusion><exclusion><groupId>org.eclipse.jetty</groupId><artifactId>*</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_${scala.compat.version}</artifactId><version>${spark.version}</version><scope>provided</scope></dependency><!-- ... existing dependencies ... -->
    </dependencies>
    <!-- ... existing code ... -->
    
  • 解决 Servlet API 兼容性问题: 为了解决 jakarta.servlet.SingleThreadModel 错误(Spark 4.0.0 内部仍在使用),我们显式排除了 spark-core 中的 jakarta.servlet-apiorg.eclipse.jetty 依赖,并手动引入了包含该类的较旧版本的 Servlet API (5.0.0)。

    <!-- ... existing code ... -->
    <dependency><groupId>jakarta.servlet</groupId><artifactId>jakarta.servlet-api</artifactId><version>5.0.0</version><scope>compile</scope> <!-- Or runtime, depending on specific need -->
    </dependency>
    <!-- ... existing code ... -->
    

    注意: 这个问题在 Apache Spark Jira (SPARK-51434) 中有记录,并计划在 Spark 4.1.0 中修复。手动引入旧版本 Servlet API 是一个临时性的解决方案。

  • 添加测试依赖: 解决 SparkDemoApplicationTests.java 中的编译错误,引入 Spring Boot 测试依赖。

    <!-- ... existing code ... -->
    <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.5.0</version> <!-- Use an appropriate version --><scope>test</scope>
    </dependency>
    <!-- ... existing code ... -->
    
  • Maven Compiler Plugin 配置: 显式配置 Maven 编译器插件使用 JDK 17。

    <!-- ... existing code ... -->
    <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.11.0</version> <!-- Use an appropriate version --><configuration><source>${java.version}</source><target>${java.version}</target></configuration></plugin><!-- ... existing plugins ... --></plugins>
    </build>
    <!-- ... existing code ... -->
    
  • Maven Exec Plugin 配置: 配置 exec-maven-plugin 以便直接运行主类,并添加 --add-opens 参数以解决 Java 模块化系统相关的运行时访问限制。

    <!-- ... existing code ... -->
    <plugin><groupId>org.codehaus.mojo</groupId><artifactId>exec-maven-plugin</artifactId><version>3.1.0</version> <!-- Use an appropriate version --><configuration><mainClass>Spark_RDD.RDDCreateExample</mainClass><executable>java</executable><arguments><argument>--add-opens</argument><argument>java.base/java.nio=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.nio.channels=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.lang=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/java.util.concurrent.atomic=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/jdk.internal.misc=ALL-UNNAMED</argument><argument>--add-opens</argument><argument>java.base/sun.nio.ch=ALL-UNNAMED</argument><!-- Optional: For security manager if needed --><!-- <argument>-Djava.security.manager=allow</argument> --></arguments></configuration>
    </plugin>
    <!-- ... existing code ... -->
    
2.2 Java 环境配置

确保系统环境中的 Java 版本与项目要求一致是至关重要的。

  • 设置 JAVA_HOME 环境变量:
    通过在 shell 配置文件(如 ~/.zshrc~/.bashrc)中设置 JAVA_HOME 变量,并将其指向 JDK 17 的安装路径,可以确保 Maven 和其他工具使用正确的 Java 版本。

    export JAVA_HOME="/Library/Java/JavaVirtualMachines/openjdk-17.jdk/Contents/Home"
    export PATH="$JAVA_HOME/bin:$PATH"
    

    修改后,请务必执行 source ~/.zshrc (或 ~/.bashrc) 使更改生效。

  • 验证 Java 和 Maven 版本:
    在终端中运行以下命令,验证 Java 版本和 Maven 使用的 Java 版本是否正确:

    java -version
    mvn --version
    

    确保 java -version 显示的是 17.x.x,并且 mvn --version 输出中 “Java version” 字段也指向 JDK 17。

2.3 Spark UI 禁用 (可选但推荐)

为了规避潜在的 Jetty 或 Servlet API 相关的运行时问题,可以通过 Spark 配置禁用 Spark UI,尤其是在只需要执行批处理任务时。在 RDDCreateExample.java 中添加以下配置:

// ... existing code ...
SparkConf conf = new SparkConf().setAppName("RDD Create").setMaster("local[*]").set("spark.ui.enabled", "false"); // Disable Spark UI
JavaSparkContext sc = new JavaSparkContext(conf);
// ... existing code ...
2.4 Maven Toolchains 尝试与经验

在解决 Java 版本问题时,我们曾尝试使用 Maven Toolchains 来管理不同 JDK 版本。尽管配置了 ~/.m2/toolchains.xml,但遇到了 Cannot find matching toolchain definitionsToolchain JDK[...] is missing required property: vendor 等错误。

经验总结:虽然 Maven Toolchains 是一个强大的工具,但在某些复杂的 Java 环境(特别是 macOS 上 OpenJDK 的安装路径和供应商识别)中,配置可能会比较棘手。在这种情况下,直接通过设置 JAVA_HOME 环境变量来管理 Java 版本,通常是更直接和有效的解决方案,特别是对于单一项目或开发环境。清理 Maven 本地仓库 (rm -rf ~/.m2/repository/*) 有助于清除旧的或损坏的依赖,但在 Toolchains 配置问题中,它并未直接解决根本问题。

3. 最终结果

经过上述一系列的配置和调整,应用程序最终成功运行。日志中显示 Spark 应用程序使用了 Java version 17.0.15,并且应用程序逻辑正确执行,输出了预期的结果。

成功运行的关键点:

  • pom.xml 中严格指定了 JDK 17。
  • 解决了 Spark 4.0.0 与 jakarta.servlet.SingleThreadModel 之间的兼容性问题,通过手动排除和引入特定版本的 Servlet API。
  • 通过设置 JAVA_HOME 确保了整个构建和运行环境都使用了正确的 Java 版本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909655.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是SeaTunnel

SeaTunnel&#xff1a;高性能、分布式数据集成平台 1. 什么是SeaTunnel&#xff1f; SeaTunnel&#xff08;原名Waterdrop&#xff09;是一个高性能、分布式、可扩展的数据集成平台&#xff0c;专为大规模数据同步、ETL&#xff08;Extract, Transform, Load&#xff09;和实…

Android 使用OkHttp 下载文件失败问题定位和修复

一、背景 使用Okhttp下载文件时,存在失败情况,刚开始以为是网络问题,后面添加相关日志发现,是在网络波动比较大的情况下,被判为timeout超时,结束了下载任务。 二、解决方案 有问题的下载配置写法: 注:这里只是展示配置下载的关键代码 val client OkHttpClient()val request…

【Docker基础】Docker核心概念:命名空间(Namespace)之PID详解

目录 引言 1 基础概念回顾 1.1 命名空间概述 1.2 命名空间的类型 2 PID命名空间详解 2.1 PID命名空间的概念 2.2 PID命名空间的作用 2.3 PID命名空间的工作原理 2.3.1 PID命名空间的创建与销毁 2.3.2 PID命名空间的层次结构 2.3.3 PID命名空间的进程ID映射 3 PID命…

SSM框架:企业级Java开发利器

SSM框架详解&#xff1a;Java企业级开发的核心基石 SSM框架是Java企业级开发中最流行的框架组合&#xff0c;由Spring、Spring MVC和MyBatis三大框架整合而成。这个轻量级的框架组合为Java开发者提供了高效、灵活的企业级应用解决方案。 一、SSM框架组成解析 1. Spring框架 …

网络安全中的人工智能应用

人工智能&#xff08;AI&#xff09;在网络安全中的应用从根本上改变了企业抵御网络威胁的方式。它利用先进的机器学习&#xff08;ML&#xff09;算法分析多源海量风险数据&#xff0c;挖掘威胁模式&#xff0c;从而更轻松地快速应对新兴风险。AI 能以惊人的速度和准确性帮助发…

Vue + Spring Boot 前后端交互实践:正确使用 `Content-Type: application/json` 及参数传递方式

在前后端分离开发中&#xff0c;前端通过 HTTP 请求与后端进行数据交互是常见的操作。其中&#xff0c;Content-Type 是决定请求体格式的重要字段之一。本文将以一个具体的例子出发&#xff0c;讲解如何在 Vue 前端 使用 Axios 发送 JSON 格式请求&#xff0c;并在 Spring Boot…

微服务拆分 SpringCloud

拆分原则 什么时候拆分 大多数小型项目&#xff1a; 一般是先采用单体架构&#xff0c;随着用户规模扩大、业务复杂后再逐渐拆分为微服务架构&#xff08;前易后难&#xff09;。确定的大型项目&#xff1a; 资金充足&#xff0c;目标明确&#xff0c;可以直接选择微服务架构…

DataX Hive写插件深度解析:从数据写入到Hive表关联实战

引言 在大数据处理流程中&#xff0c;将数据高效写入Hive表是数据仓库建设的关键环节。DataX作为阿里巴巴开源的数据同步工具&#xff0c;其Hive写插件&#xff08;Hdfswriter&#xff09;提供了将数据写入HDFS并与Hive表无缝关联的能力。本文将系统介绍Hdfswriter的功能特性、…

基于国产USRP搭建十六通道同步采集系统, 耗费200万 欢迎免费体验

随着无线通信、雷达探测和电子侦察等技术的发展&#xff0c;多通道信号同步采集的需求日益突出。我司基于8台USRP-LW N321设备&#xff0c;构建了一套高精度十六路通道信号同步采集系统&#xff0c;该系统通过并行采集与精确时频对齐&#xff0c;可为空间谱测向和MIMO系统等关键…

《前端编译工具源映射配置:Webpack与Gulp的深度剖析》

当我们深入探索不同前端编译工具时&#xff0c;Webpack与Gulp在源映射配置上的差异与特色&#xff0c;如同隐藏在代码深处的神秘宝藏&#xff0c;等待我们去挖掘、去解读。 Webpack作为现代前端构建的核心工具&#xff0c;在源映射配置方面展现出了高度的灵活性与可定制性。它…

4. 时间序列预测的自回归和自动方法

4.1自回归 自回归是一种时间序列预测方法&#xff0c;仅依赖于时间序列的先前输出&#xff1a;该技术假设下一个时间戳的未来观测值与先前时间戳的观测值存在线性关系。 在自回归中&#xff0c;前一个时间戳的输出值成为预测下一个时间戳的输入值&#xff0c;并且误差遵循简单线…

Android 多屏幕旋转控制原理与实战

在嵌入式设备、双显示终端或定制系统中&#xff0c;Android 多屏幕控制&#xff08;尤其是屏幕方向旋转&#xff09;是一个兼具挑战与价值的功能模块。本文将深入分析如何识别多个显示、如何通过系统 API 控制旋转&#xff0c;并讨论为何某些 displayId 无法旋转。 &#x1f4c…

faiss上的GPU流程,GPU与CPU之间的联系

GPU使用流程 1、初始化阶段 1.1:初始化GPU资源对象 目的: 为GPU上的操作分配和管理资源,例如临时内存和CUDA流。 操作: 创建StandardGpuResources对象来管理GPU的内存和计算资源。例如: faiss::gpu::StandardGpuResources res; res.setTempMemory(1024 * 1024 * 512); …

在CentOS 7系统安装PostgreSQL 15时出现`libzstd.so.1`依赖缺失问题

--> 正在处理依赖关系 libzstd.so.1()(64bit)&#xff0c;它被软件包 postgresql15-server-15.13-1PGDG.rhel7.x86_64 需要---> 软件包 python3-pip.noarch.0.9.0.3-8.el7 将被 安装---> 软件包 python3-setuptools.noarch.0.39.2.0-10.el7 将被 安装--> 解决依赖关…

走进Coinate|迪拜第二大交易平台如何构建极速金融引擎

在加密资产交易飞速发展的今天&#xff0c;技术实力已成为交易平台生存与发展的核心竞争力。与那些高调营销却技术薄弱的平台不同&#xff0c;来自迪拜的头部交易平台——Coinate&#xff0c;则始终坚持”以技术立命”的发展路径。 在迪拜这片充满创新与资本活力的中东热土&am…

手机日志是什么?如何调试手机日志

目录 一、手机日志的类型&#xff1a; 二、如何查看和调试手机日志&#xff08;以 Android 为例&#xff09;&#xff1a; 方法 1&#xff1a;使用 Android Studio ADB&#xff08;推荐&#xff09; 方法 2&#xff1a;使用手机端日志工具&#xff08;免电脑&#xff09; …

篇章八 论坛系统——业务开发——登录

目录 1.登录 1.1 顺序图 1.2 参数要求 1.3 接口规范 1.4 实现流程 1.编写SQL 2.dao层接口 3.定义Service接口 4.实现Service接口 5.单元测试 6. Controller实现方法对外提供API接口 7.测试API接口 8.实现前端逻辑,完成前后端交互 ​编辑 1.登录 1.1 顺序图 1.2 参…

AI-Compass前沿速览:从企业级智能体CoCo到腾讯开源3D建模,Meta视频预测模型V-JEPA 2、小红书开源文本大模型

AI 大事件 智谱推出首个企业级超级助手 Agent——CoCo**[1]** 智谱推出首个企业级超级助手 Agent——CoCo&#xff0c;具备交付导向、记忆机制和无缝嵌入三大企业级特性。能全流程辅助工作&#xff0c;根据员工职能和需求主动服务&#xff0c;无缝接入企业资源&#xff0c;提…

element ui el-table嵌套el-table,实现checkbox联动效果

HTML代码&#xff1a; <el-table header-row-class-name"my-el-table-header" row-class-name"my-el-table-body" ref"multipleGroupTable" :data"vehicleGroupTableData" tooltip-effect"dark" style"width: 100…

android stdio 关闭所有真机

Android Studio如何关闭所有真机 Android Studio是开发Android应用程序的集成开发环境&#xff0c;通常我们需要使用真机来进行应用程序的调试和测试。但是&#xff0c;在某些情况下&#xff0c;我们可能需要关闭所有已连接的真机。本文将介绍如何在Android Studio中关闭所有真…