第三阶段—8天Python从入门到精通【itheima】-140节（pysqark实战—

140节——pysqark实战——基础准备

1.学习目标

2.pysqark库的安装

3.pyspark的路径安装问题

一、为什么不需要指定路径？

二、如何找到 pyspark 的具体安装路径？

三、验证一下：直接定位 pyspark 的安装路径

四、总结：记住这 2 个关键点

4.构建pyspark执行环境入口对象

编辑

一、先看懂错误：Java 版本 “跟不上”

二、解决步骤：安装匹配的 Java 版本

步骤 1：检查当前 Java 版本

步骤 2：下载并安装 Java 17（或更高版本）

步骤 3：配置 JAVA_HOME 环境变量（关键）

步骤 4：验证 Java 版本是否生效

步骤 5：重新运行你的 PySpark 代码

三、为什么必须用高版本 Java？

总结：核心是 “Java 版本要和 PySpark 匹配”

5.关于SparkConf + SparkContext vs SparkSession的spark执行环境入口对象的不同的区别到底为什么不一样

一、先看本质：Spark 的 3 代编程入口

二、为什么会有两种写法？（以 PySpark 为例，Scala 同理）

1. 旧写法：SparkConf + SparkContext（图片里的方式）

2. 新写法：SparkSession（你老师教的方式）

三、Python 和 Scala 的写法差异？完全一致！

四、现在该用哪种？无脑选 SparkSession！

五、图片里的写法为啥还存在？

总结：理解 “进化关系”

6.什么是API？

一、先举个生活例子：外卖平台是商家和用户的 API

二、技术里的 API 到底是什么？

类比手机充电口（物理 API）：

三、技术中 API 的 3 种常见形态（结合你的代码）

1. 库的 API（如 PySpark 的 SparkSession）

2. 网络 API（如微信支付、天气接口）

3. 操作系统 API（如 Python 的 print）

四、API 的核心价值：「解耦 + 偷懒」

五、为什么叫 “接口”？

总结：API 就是「别人写好的功能，你按规矩用」

一、类比你写的 “成员方法”：完全一致的核心逻辑

二、API 和 “自己写的函数” 的 3 个细微差别

三、用 “做蛋糕” 类比，秒懂 API 的本质

四、总结：API 是 “功能的标准化接口”

7.为什么from pyspark import SparkConf,SparkContext没有看到SparkSession的存在呢？

一、SparkSession 藏在哪个模块里？

二、版本会影响吗？

三、新旧入口的关系：SparkContext vs SparkSession

四、为什么老代码只讲 SparkConf + SparkContext？

五、现代开发如何正确使用？

六、总结：你需要记住的 3 个关键点

8.local[*] 是什么？

一、local[*] 的字面含义：本地模式 + 用所有 CPU 核心

二、为什么需要并行线程？提升计算速度！

三、对比 3 种常见的运行模式：

四、用生活例子类比：

五、什么时候用 local[*]？

六、常见误区提醒：

七、动手验证：查看实际使用的核心数

总结：一句话记住 local[*]

9.小节总结

好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：

140节——pysqark实战——基础准备

1.学习目标

1.掌握pysqark库的安装

2.掌握pysqark执行环境入口对象的构建

3.理解pysqark的编程模型