【Datawhale AI 夏令营】用AI做带货视频评论分析（二）

5.预训练模型跑分

回顾赛题

回顾赛题任务

挑战与难点：

标注数据少 ——> 半监督学习 or 数据增强
聚类分析噪点影响严重

回顾Baseline

问题：

TF-IDF无法捕捉以下语义。
聚类分析粗糙，未评估聚类质量。

提升方案：

分类任务（任务一和任务二）
- 使用BERT模型
- 数据增强（对于任务一）
- 微调方式
聚类任务

预训练模型步骤

任务一：商品识别

数据准备: 我们把文字标签（比如 “Xfaiyx Smart Translator”）映射成数字（0, 1），因为模型只能理解数字。
模型和分词器: AutoTokenizer 负责把汉字句子切分成模型认识的“词元”(Token)。AutoModelForSequenceClassification 是一个专门用于分类任务的BERT模型结构。
训练: TrainingArguments 用来设置训练的超参数（比如训练几轮、每批次用多少数据等）。Trainer 是一个高级封装，我们把模型、参数、数据都喂给它，它就会自动帮我们完成整个复杂的训练过程。
预测: 训练好后，我们用 pipeline 这个便捷工具对所有视频的文本进行预测，得到商品名称。

任务二：情感分析

这个过程和任务一非常类似，但是我们用一个 for 循环来为四个不同的情感维度分别独立地训练四个模型。
因为每个维度的分类任务都不同（比如sentiment_category是5分类，而user_scenario是2分类），所以为每个任务单独训练一个模型效果最好。
注意，这里我们将 1,2,3,4,5 这样的原始标签也转换成了从 0 开始的 0,1,2,3,4，训练完再转换回去。这是Hugging Face模型的标准要求。

任务三：评论聚类

句向量模型: 我们加载 SentenceTransformer 模型，它会把每个评论变成一个包含384或768个数字的向量，这个向量精准地捕捉了评论的语义。
寻找最佳K: 这是关键的改进！代码会遍历 K 从 5 到 8，对每个 K 值都进行一次KMeans聚类，并计算轮廓系数。轮廓系数越高，代表聚类效果越好（类内越紧密，类间越疏远）。最后，代码会选用分数最高的那个 K 值。
最终聚类: 使用找到的最佳 K，进行最后一次聚类，并把每个评论分到的簇标签（比如属于第0簇，第1簇…）记录下来。
主题生成: 我们为每个簇生成了一个简单的名字，比如 positive_主题_1。这样做的好处是清晰明了，并且百分百符合提交格式。

步骤

前期准备

安装所需要的库

!pip install --upgrade transformers accelerate sentence-transformers -q

2. 导入

import pandas as pd
import numpy as np
import torch
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from transformers import (AutoTokenizer,AutoModelForSequenceClassification,TrainingArguments,Trainer,pipeline,
)
from sentence_transformers import SentenceTransformer
from datasets import Dataset
import os
import zipfile

全局设置（模型定义）和准备数据

# ---------------------------------
# 1. 全局设置和模型定义
# ---------------------------------
print("\n--> 1. 开始进行全局设置...")
CLASSIFICATION_MODEL = 'bert-base-multilingual-cased'
EMBEDDING_MODEL = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"将使用设备: {DEVICE}")# ---------------------------------
# 2. 加载和准备数据
# ---------------------------------
print("\n--> 2. 开始加载和准备数据...")
video_data = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data["text"] = video_data["video_desc"].fillna("") + " " + video_data["video_tags"].fillna("")

因为评论有多个国家的语言，所以分类模型选的bert-base-multilingual-cased，多语言句向量模型sentence-transformers/paraphrase-multilingual-mpnet-base-v2 （也可以尝试其它模型）

任务一：商品识别

数据准备：处理数据和标签

# 1. 筛选出有商品名的数据
train_video_df = video_data[~video_data["product_name"].isnull()].copy()# 2. 获取所有不重复的商品名，并排序
labels_list = sorted(train_video_df["product_name"].unique())# 3. 创建“商品名” -> “数字ID” 的映射 (字典)
label2id = {label: i for i, label in enumerate(labels_list)}# 4. 创建“数字ID” -> “商品名” 的映射 (反向字典，方便以后查看结果)
id2label = {i: label for i, label in enumerate(labels_list)}# 5. 在数据中创建新的一列 "label"，存放转换后的数字ID
train_video_df["label"] = train_video_df["product_name"].map(label2id)

分词与编码

# 1. 加载一个预训练好的分词器
#    CLASSIFICATION_MODEL 是一个预训练模型的名字，比如 "bert-base-chinese"
tokenizer = AutoTokenizer.from_pretrained(CLASSIFICATION_MODEL)# 2. 对所有文本进行分词和编码
#    - tolist(): 把一列文本转换成一个列表
#    - truncation=True: 如果句子太长，就截断
#    - padding=True: 如果句子太短，就用特殊数字填充，让所有句子一样长
#    - max_length=128: 指定句子的最大长度
train_encodings = tokenizer(train_video_df["text"].tolist(), truncation=True, padding=True, max_length=128)# 3. 把我们之前转换好的数字标签也放进这个编码结果里
train_encodings['label'] = train_video_df["label"].tolist()# 4. 将整个编码结果（包含文本编码和标签）封装成一个标准的数据集对象
train_dataset = Dataset.from_dict(train_encodings)

加载模型与配置训练

# 1. 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained(CLASSIFICATION_MODEL,          # 模型的名字，要和Tokenizer一致num_labels=len(labels_list),   # 告诉模型我们总共有多少个分类id2label=id2label,             # 把我们之前创建的ID->标签映射告诉模型label2id=label2id              # 也把标签->ID的映射告诉模型
).to(DEVICE) # 2. 设置训练参数
training_args = TrainingArguments(output_dir='./results',              # 训练结果存到哪里num_train_epochs=3,                  # 所有数据要学习3遍per_device_train_batch_size=8,       # 每次看8个样本logging_dir='./logs',                # 日志存到哪里logging_steps=10,                    # 每训练10步就打印一次日志report_to="none"                     # 不上报到第三方平台
)trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset
)

4.训练与预测

# 1. 开始训练
trainer.train()# 2. 使用 pipeline（管道）
classifier = pipeline("text-classification",      # 任务类型是文本分类model=model,                # 用我们刚训练好的模型tokenizer=tokenizer,        # 用我们之前加载的分词器device=0                    # 0代表使用第一块GPU，-1代表使用CPU
)# 3. 把所有视频的文本都扔给它进行预测
predictions = classifier(video_data["text"].tolist())# 4. 从预测结果中提取出标签名字，并更新回原数据
video_data["product_name"] = [pred['label'] for pred in predictions]

pipeline 是 Hugging Face 提供的最高度封装的预测工具。它把“输入原始文本 -> 分词 -> 转换成ID -> 模型预测 -> 输出 logits -> Softmax -> 翻译回标签”这一整套繁琐的流程，压缩成了一步

classifier = pipeline("任务名称", model=训练好的模型, tokenizer=配套的分词器)

优化尝试

因为我用BERT微调之后，看了一下分数只有80左右，

数据太少: 生成伪标签 + 5折交叉验证

假设标签是“答案”，有标签的数据是“教材”，就是让5个专家做没有答案的练习册，如果5个专家的答案都一样，就把这道题收入到教材，这样教材的内容就更多了，最后再让学生学习这本“教材”

分离数据：一部分有标签(答案)和一部分没标签

# 有答案的“教材”
train_video_df = video_data[~video_data["product_name"].isnull()].copy()
# 没答案的“练习题”
unlabeled_video_df = video_data[video_data["product_name"].isnull()].copy()# ... (标签数字化的部分和之前一样) ...

训练5个模型(专家)，并让每个专家做一次“练习册”，收集“答案”
1. 把教材（train_video_df）平均分成5份。
2. 第1轮：用第1、2、3、4份当教材训练模型，第5份当模拟考（这里代码省略了验证，直接训练）。
3. 第2轮：用第1、2、3、5份当教材训练模型，第4份当模拟考。
4. …以此类推，一共训练5个模型。
5. 每个模型都学习了80%的数据，而且学习的内容都不完全相同，这样就组成了我们的“专家委员会”。

# 引入分层K折交叉验证工具，它能保证每一折里各类别的比例都差不多
from sklearn.model_selection import StratifiedKFold# 设定交叉验证：分成5份，打乱顺序
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
unlabeled_preds = [] # 用来存放5个专家对“练习题”的答案# skf.split(...) 会自动循环5次，每次都生成不同的训练集索引(train_idx)
for fold, (train_idx, val_idx) in enumerate(skf.split(train_video_df['text'], train_video_df['label'])):print(f"\n===== 开始训练第 {fold+1} 位专家 =====")# 1. 准备当前这位专家的教材train_fold_df = train_video_df.iloc[train_idx]# (数据编码过程，和之前一样，只是数据源是 train_fold_df)train_dataset = ... # 2. 请来一位全新的专家（模型）model = AutoModelForSequenceClassification.from_pretrained(...)# 3. 对这位专家进行特训trainer = Trainer(model=model, args=training_args, train_dataset=train_dataset)trainer.train()# 4. 专家学成！让他去做“练习题”（unlabeled_video_df）unlabeled_dataset = ... # 把练习题也编码成模型能读懂的格式# trainer.predict 返回原始的、未经处理的预测分数(logits)raw_preds, _, _ = trainer.predict(unlabeled_dataset)# 5. 将该专家的答案（处理成0-1之间的概率后）存起来unlabeled_preds.append(F.softmax(torch.from_numpy(raw_preds), dim=-1).numpy())

生成“新教材”

# 1. 计算平均意见：对5位专家的预测概率取平均值
#    axis=0 表示在“专家”这个维度上求平均
avg_preds = np.mean(unlabeled_preds, axis=0)# 2. 确定最终投票结果：取平均概率最高的那个类别作为预测结果(第一题选A， 对应标签0)
pred_labels = np.argmax(avg_preds, axis=1) # 得到数字标签，如 0, 1, 2# 3. 取最高的那个平均概率作为置信度分数
pred_scores = np.max(avg_preds, axis=1) # 得到分数，如 0.98, 0.75, 0.91# 4. 只有信心超过90%的答案，我们才采纳
confidence_threshold = 0.90 
pseudo_df = pd.DataFrame({'text': unlabeled_video_df['text'], 'label': pred_labels, 'score': pred_scores})
high_confidence_pseudo_df = pseudo_df[pseudo_df['score'] > confidence_threshold].copy()# 5. 将“新教材”和“老教材”合并
if not high_confidence_pseudo_df.empty:print(f"成功筛选出 {len(high_confidence_pseudo_df)} 条新教材！")combined_train_df = pd.concat([train_video_df, high_confidence_pseudo_df], ignore_index=True)
else:# 如果没筛出来，就还用老教材combined_train_df = train_video_df

4.得到新的数据集，进行训练

# 1. 准备最全的教材
final_dataset = Dataset.from_pandas(combined_train_df)
final_dataset = final_dataset.map(...) # 编码# 2. 加载模型
final_model = AutoModelForSequenceClassification.from_pretrained(...)# 3. 用所有数据进行训练
final_trainer = Trainer(model=final_model, args=training_args, train_dataset=final_dataset)
final_trainer.train()print("\n--- 开始预测所有视频... ---")
final_classifier = pipeline("text-classification", model=final_model, ...)
final_predictions = final_classifier(video_data["text"].tolist())# 更新最终结果
video_data["product_name"] = [pred['label'] for pred in final_predictions]