1. 规范的文件命名
核心原则:
清晰明确:文件名应准确描述内容(如data_preprocessing.py)
风格统一:
推荐小写+下划线(Python惯例,如model_training.py)
或使用驼峰式(如DataVisualization.java)
避免特殊字符
2. 规范的文件夹管理
标准结构示例:
project_root/
│── data/ # 数据文件
│ ├── raw/ # 原始数据(不可修改)
│ ├── processed/ # 处理后的数据
│ └── external/ # 第三方数据
│── docs/ # 文档
│── src/ # 源代码
│ ├── utils/ # 通用工具
│ └── modeling/ # 模型代码
│── notebooks/ # Jupyter笔记本
│── tests/ # 单元测试
│── configs/ # 配置文件
│── outputs/ # 输出结果(模型/日志)
└── README.md # 项目说明
3. 机器学习项目的拆分
典型工作流模块:
数据层:
采集 (data_collection.py)
清洗 (data_cleaning.py)
特征工程 (feature_engineering.py)
模型层:
训练 (train.py)
评估 (evaluation.py)
预测服务 (predict.py)
支持模块:
配置管理 (config.py)
日志工具 (logger.py)
异常处理 (exceptions.py)
拆分解耦技巧:
使用pipeline组织工作流
通过__init__.py控制模块暴露接口
依赖抽象(如定义BaseModel接口)
4. 编码格式和类型注解
Python规范:
PEP8标准:
行长≤79字符
函数间空2行,类方法空1行
import分组(标准库/第三方/本地)