1、元组(有序 不可变 可重复)
管道工程中pipeline类接收的是一个包含多个小元组的列表作为输入。可以这样理解这个结构:
(1) 列表 []: 定义了步骤执行的先后顺序。Pipeline 会按照列表中的顺序依次处理数据。之所以用列表,是未来可以对这个列表进行修改。
(2)元组 (): 用于将每个步骤的名称和处理对象捆绑在一起。名称用于在后续访问或设置参数时引用该步骤,而对象则是实际执行数据转换或模型训练的工具。固定了操作名+操作
不用字典因为字典是无序的。
2、可迭代对象
可迭代对象 (Iterable) 是 Python 中一个非常核心的概念。简单来说,一个可迭代对象就是指那些能够一次返回其成员(元素)的对象,可以在一个循环(比如 for 循环)中遍历它们。
Python 中有很多内置的可迭代对象,目前我们见过的类型包括:
序列类型 (Sequence Types):list(列表)、tuple(元组)、str(字符串)、range(范围)
集合类型 (Set Types):set(集合)
字典类型 (Mapping Types):dict(字典) - 迭代时返回键 (keys)
文件对象(File objects)
生成器(Generators)
迭代器(Iterators) 本身
3、os模块
os.chdir('D:\python_learning') # 切换工作目录到指定路径
os.getcwd() # 再次查看当前工作目录,确认已切换
目录树
os.walk() 是 Python os 模块中一个非常有用的函数,它用于遍历(或称“行走”)一个目录树。
核心功能:
os.walk(top, topdown=True, οnerrοr=None, followlinks=False) 会为一个目录树生成文件名。对于树中的每个目录(包括 top 目录本身),它会 yield(产生)一个包含三个元素的元组 (tuple):
深度优先搜索(DFS):
os.walk() 函数默认使用深度优先搜索(DFS)的方式遍历目录树。这意味着它会先遍历目录的子目录,然后再遍历子目录的子目录,以此类推。
yield 关键字:
(dirpath, dirnames, filenames)
dirpath: 一个字符串,表示当前正在访问的目录的路径。
dirnames: 一个列表(list),包含了 dirpath 目录下所有子目录的名称(不包括 . 和 ..)。
filenames: 一个列表(list),包含了 dirpath 目录下所有非目录文件的名称。
@浙大疏锦行