矿物分类系统开发笔记（二）：模型训练[删除空缺行]

一、阶段衔接与开发目标

二、数据准备

三、模型选择与训练

1. 逻辑回归（LR）

2. 随机森林（RF）

3. 高斯朴素贝叶斯（GNB）

4. 支持向量机（SVM）

5. AdaBoost

6. XGBoost

四、模型评估与结果分析

评估指标

评估结果

结果分析

五、开发总结

六、后续计划

一、阶段衔接与开发目标

在《矿物分类系统开发笔记（一）》中，我们完成了矿物数据集的收集、清洗与预处理工作，重点对数据中的空缺值进行了分析，并采用 “删除空缺行” 的方式生成了可供模型训练的标准化数据集。本阶段作为开发流程的延续，主要基于预处理后的数据完成以下目标：

选取 6 种经典机器学习算法进行矿物分类模型训练
通过网格搜索优化模型参数，提升分类性能
构建统一的评估体系，对比各模型在测试集上的表现
记录并分析实验结果，为后续系统选型提供依据

二、数据准备

数据来源：使用预处理阶段生成的训练集（训练数据集 [删除空缺行].xlsx）和测试集（测试数据集 [删除空缺行].xlsx）

数据划分：

特征集（X）：所有样本的属性数据（除最后一列标签外的所有列）
标签集（y）：
- 训练集标签：包含 0、1、3 三类（训练集中标签为 2 的样本均存在数据空缺，已在预处理阶段随空缺行一同删除）
- 测试集标签：包含 0、1、2、3 四类（保留了数据完整的标签 2 样本，用于验证模型对未见过类别的泛化能力）

特殊处理：
针对 XGBoost 模型特性，构建标签映射关系：{0:0, 1:1, 3:2}，将原始标签转换为连续整数编码；预测后通过反向映射{0:0, 1:1, 2:3}还原原始标签，对测试集特有的标签 2 单独处理（预测结果中若出现未映射编码则判定为 2）

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
import json# 数据读取
train_data = pd.read_excel('..//temp_data//训练数据集[删除空缺行].xlsx')
test_data = pd.read_excel('..//temp_data//测试数据集[删除空缺行].xlsx')# 特征与标签分割
train_X = train_data.iloc[:, :-1]
train_y = train_data.iloc[:, -1]  # 训练标签：0、1、3
test_X = test_data.iloc[:, :-1]
test_y = test_data.iloc[:, -1]    # 测试标签：0、1、2、3# XGBoost标签映射处理
label_mapping = {0: 0, 1: 1, 3: 2}
reverse_mapping = {v: k for k, v in label_mapping.items()}
train_y_xgb = train_y.map(label_mapping)  # 转换为连续编码
test_y_xgb = test_y.map(label_mapping)# 结果存储容器
result_data = {}

三、模型选择与训练

选取 6 种经典分类算法进行对比实验，均采用网格搜索（GridSearchCV）进行参数优化，5 折交叉验证确定最佳参数：

1. 逻辑回归（LR）

核心参数：C=0.001, max_iter=100, multi_class='ovr', penalty='l1', solver='liblinear'
特点：采用 L1 正则化（Lasso），适合高维数据特征选择，使用 ovr 策略处理多分类

# 网格搜索优化（实际运行时启用）
# logreg = LogisticRegression()
# param_grid = [
#     {'penalty': ['l1'], 'solver': ['liblinear'], 'C': [0.001, 0.01, 0.1], 'multi_class': ['ovr']},
#     {'penalty': ['l2'], 'solver': ['lbfgs'], 'C': [0.001, 0.01, 0.1], 'multi_class': ['multinomial']}
# ]
# grid_search = GridSearchCV(logreg, param_grid, cv=5)
# grid_search.fit(train_X, train_y)
# print("LR最佳参数:", grid_search.best_params_)# 最佳模型训练
LR_result = {}
lr = LogisticRegression(C=0.001, max_iter=100, multi_class='ovr', penalty='l1', solver='liblinear')
lr.fit(train_X, train_y)# 评估
train_pred = lr.predict(train_X)
test_pred = lr.predict(test_X)
print("LR训练集评估:\n", metrics.classification_report(train_y, train_pred))
print("LR测试集评估:\n", metrics.classification_report(test_y, test_pred))# 结果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
LR_result['recall_0'] = float(report[6])
LR_result['recall_1'] = float(report[11])
LR_result['recall_2'] = float(report[16])
LR_result['recall_3'] = float(report[21])
LR_result['acc'] = float(report[25])
result_data['LR'] = LR_result

2. 随机森林（RF）

核心参数：bootstrap=True, criterion='gini', max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=200
特点：集成多棵决策树降低过拟合风险，Gini 系数作为不纯度度量，保留完整决策树深度

# 网格搜索优化（实际运行时启用）
# rf = RandomForestClassifier(random_state=42)
# param_grid = {
#     'n_estimators': [100, 200],
#     'max_depth': [None, 20],
#     'min_samples_split': [2, 5],
#     'bootstrap': [True]
# }
# grid_search = GridSearchCV(rf, param_grid, cv=5, n_jobs=-1)
# grid_search.fit(train_X, train_y)
# print("RF最佳参数:", grid_search.best_params_)# 最佳模型训练
RF_result = {}
rf = RandomForestClassifier(bootstrap=True, criterion='gini', max_depth=None,min_samples_leaf=1, min_samples_split=2, n_estimators=200,random_state=42
)
rf.fit(train_X, train_y)# 评估
train_pred = rf.predict(train_X)
test_pred = rf.predict(test_X)
print("RF训练集评估:\n", metrics.classification_report(train_y, train_pred))
print("RF测试集评估:\n", metrics.classification_report(test_y, test_pred))# 结果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
RF_result['recall_0'] = float(report[6])
RF_result['recall_1'] = float(report[11])
RF_result['recall_2'] = float(report[16])
RF_result['recall_3'] = float(report[21])
RF_result['acc'] = float(report[25])
result_data['RF'] = RF_result

3. 高斯朴素贝叶斯（GNB）

核心参数：var_smoothing=1e-06
特点：基于贝叶斯定理的概率模型，通过 var_smoothing 参数提高数值稳定性

# 网格搜索优化（实际运行时启用）
# gnb = GaussianNB()
# param_grid = {'var_smoothing': [1e-9, 1e-6, 1e-3]}
# grid_search = GridSearchCV(gnb, param_grid, cv=5)
# grid_search.fit(train_X, train_y)
# print("GNB最佳参数:", grid_search.best_params_)# 最佳模型训练
GNB_result = {}
gnb = GaussianNB(var_smoothing=1e-06)
gnb.fit(train_X, train_y)# 评估
train_pred = gnb.predict(train_X)
test_pred = gnb.predict(test_X)
print("GNB训练集评估:\n", metrics.classification_report(train_y, train_pred))
print("GNB测试集评估:\n", metrics.classification_report(test_y, test_pred))# 结果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
GNB_result['recall_0'] = float(report[6])
GNB_result['recall_1'] = float(report[11])
GNB_result['recall_2'] = float(report[16])
GNB_result['recall_3'] = float(report[21])
GNB_result['acc'] = float(report[25])
result_data['GNB'] = GNB_result