用AI做带货视频评论分析进阶提分【Datawhale AI 夏令营】

文章目录

  • 回顾赛题
  • 优化1️⃣
  • 优化2️⃣


回顾赛题

模块内容类型说明/示例
赛题背景概述参赛者需构建端到端评论分析系统,实现商品识别、多维情感分析、评论聚类与主题提炼三大任务。
商品识别输入video_desc(视频描述)+ video_tags(标签)
输出商品名称(如:Xfaiyx Smart Translator/Recorder)
多维情感分析情感维度- 情感倾向(5类)
- 用户场景
- 用户疑问
- 用户建议
挑战点隐晦表达处理,如“这重量出门带着刚好”暗示出行场景
评论聚类与主题提炼聚类目标针对5类评论进行聚类分析
输出示例主题词如:续航短|充电慢|发热严重
赛题目标AI目标从原始评论中提取商品与用户洞察,转化为商业智能
评估标准商品识别准确率(Accuracy):正确识别商品的比例
情感分析宏平均 F1 值:多分类性能衡量
评论聚类轮廓系数(Silhouette Score):评估聚类合理性
数据集视频数据85 条,4 个字段,部分标注 product_name
评论数据6,477 条,12 个字段,部分情感字段已标注
挑战与难点标注比例低仅约 15% 样本有人工标注
泛化能力挑战需提升未标注样本上的表现
推荐方法- 半监督学习(如 UDA)
- 提示学习(Prompt Learning)
最终目标总结构建商品识别 → 情感分析 → 聚类主题提炼的完整 AI 处理链路

优化1️⃣

使用 Pipeline 封装 TF-IDF + 分类/聚类流程

  • 说明:通过 make_pipeline()TfidfVectorizerSGDClassifier / KMeans 组合成统一流程,简化训练和预测步骤。

聚类 + 高频关键词提取逻辑封装成函数

  • 说明extract_cluster_theme(...) 函数统一处理文本聚类与主题词抽取,减少冗余代码。

文本字段预处理策略合理整合

  • 说明:将 video_descvideo_tags 组合生成 text 字段用于分类模型训练。
import os
import jieba
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import make_pipeline
from sklearn.cluster import KMeans# -----------------------------
# 1. 加载数据
# -----------------------------
video_data = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")# 合并视频文本信息作为商品预测输入
video_data["text"] = video_data["video_desc"].fillna("") + " " + video_data["video_tags"].fillna("")# -----------------------------
# 2. 商品名称预测(分类任务)
# -----------------------------
product_name_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, max_features=50),SGDClassifier()
)
video_train = video_data[~video_data["product_name"].isnull()]
product_name_predictor.fit(video_train["text"], video_train["product_name"])
video_data["product_name"] = product_name_predictor.predict(video_data["text"])# -----------------------------
# 3. 评论情感&属性多维度分类
# -----------------------------
target_cols = ['sentiment_category', 'user_scenario', 'user_question', 'user_suggestion']for col in target_cols:predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut),SGDClassifier())train_data = comments_data[~comments_data[col].isnull()]predictor.fit(train_data["comment_text"], train_data[col])comments_data[col] = predictor.predict(comments_data["comment_text"])# -----------------------------
# 4. 聚类 + 主题提取封装函数
# -----------------------------
def extract_cluster_theme(dataframe, filter_cond, target_column, n_clusters=5, top_n_words=10):"""对特定子集评论进行聚类并提取主题词"""cluster_texts = dataframe[filter_cond]["comment_text"]kmeans_pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut),KMeans(n_clusters=n_clusters, random_state=42))kmeans_pipeline.fit(cluster_texts)cluster_labels = kmeans_pipeline.predict(cluster_texts)# 提取高频主题词tfidf = kmeans_pipeline.named_steps['tfidfvectorizer']kmeans = kmeans_pipeline.named_steps['kmeans']feature_names = tfidf.get_feature_names_out()cluster_centers = kmeans.cluster_centers_top_keywords = []for i in range(n_clusters):indices = cluster_centers[i].argsort()[::-1][:top_n_words]keywords = ' '.join([feature_names[idx] for idx in indices])top_keywords.append(keywords)# 写入对应字段dataframe.loc[filter_cond, target_column] = [top_keywords[label] for label in cluster_labels]# -----------------------------
# 5. 进行五个维度的聚类主题提取
# -----------------------------
extract_cluster_theme(comments_data,comments_data["sentiment_category"].isin([1, 3]),"positive_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["sentiment_category"].isin([2, 3]),"negative_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_scenario"] == 1,"scenario_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_question"] == 1,"question_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_suggestion"] == 1,"suggestion_cluster_theme"
)# -----------------------------
# 6. 导出预测结果
# -----------------------------
os.makedirs("submit", exist_ok=True)video_data[["video_id", "product_name"]].to_csv("submit/submit_videos.csv", index=False)comments_data[['video_id', 'comment_id', 'sentiment_category','user_scenario', 'user_question', 'user_suggestion','positive_cluster_theme', 'negative_cluster_theme','scenario_cluster_theme', 'question_cluster_theme','suggestion_cluster_theme'
]].to_csv("submit/submit_comments.csv", index=False)

对比效果

在这里插入图片描述


优化2️⃣

import os
import jieba
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import make_pipeline
from sklearn.cluster import KMeans# -----------------------------
# 1. 加载数据
# -----------------------------
video_data = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")# 合并视频描述 + 标签,形成商品分类模型的输入字段
video_data["text"] = video_data["video_desc"].fillna("") + " " + video_data["video_tags"].fillna("")# -----------------------------
# 2. 商品名称预测(分类任务)
# -----------------------------
# 构建商品分类器:使用 TF-IDF(最多 50 个词)+ SGD 分类器(适合大规模稀疏特征)
product_name_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, max_features=50),SGDClassifier()
)
# 拿有真实标签的部分训练模型
video_train = video_data[~video_data["product_name"].isnull()]
product_name_predictor.fit(video_train["text"], video_train["product_name"])# 使用模型预测所有视频的商品名称
video_data["product_name"] = product_name_predictor.predict(video_data["text"])# ✅ 可选优化:
# - 模型替换:`SGDClassifier` 可替换为 `LogisticRegression`, `XGBoost`, `RandomForest` 等
# - 分词改进:`jieba` 可替换为 `pkuseg`, `LAC`,或使用 `BERT` tokenizer(更强但慢)
# - 增加 n-gram:`ngram_range=(1,2)` 可捕捉“关键词组合”,提高分类准确率# -----------------------------
# 3. 评论情感&属性多维度分类
# -----------------------------
# 要预测的评论属性标签(分类任务)
target_cols = ['sentiment_category', 'user_scenario', 'user_question', 'user_suggestion']# 对每个目标列都训练一个 TF-IDF + SGD 分类器
for col in target_cols:predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut),SGDClassifier())train_data = comments_data[~comments_data[col].isnull()]predictor.fit(train_data["comment_text"], train_data[col])comments_data[col] = predictor.predict(comments_data["comment_text"])# ✅ 可选优化:
# - 使用 `MultiOutputClassifier` 构建联合多标签分类器
# - 样本不均衡时,考虑添加 `class_weight='balanced'`
# - 加入 `classification_report` 输出分类指标,辅助调参# -----------------------------
# 4. 聚类 + 主题提取封装函数
# -----------------------------
def extract_cluster_theme(dataframe, filter_cond, target_column, n_clusters=5, top_n_words=10):"""对指定条件筛选出的评论子集,使用 KMeans 聚类并提取每类高频关键词,写入主题字段"""cluster_texts = dataframe[filter_cond]["comment_text"]# 构建聚类模型:TF-IDF + KMeanskmeans_pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut),KMeans(n_clusters=n_clusters, random_state=42))kmeans_pipeline.fit(cluster_texts)cluster_labels = kmeans_pipeline.predict(cluster_texts)# 提取每个聚类的高频关键词(TF-IDF 值最高的前 n 个词)tfidf = kmeans_pipeline.named_steps['tfidfvectorizer']kmeans = kmeans_pipeline.named_steps['kmeans']feature_names = tfidf.get_feature_names_out()cluster_centers = kmeans.cluster_centers_top_keywords = []for i in range(n_clusters):indices = cluster_centers[i].argsort()[::-1][:top_n_words]keywords = ' '.join([feature_names[idx] for idx in indices])top_keywords.append(keywords)# 为筛选子集中的每条评论赋予对应主题标签dataframe.loc[filter_cond, target_column] = [top_keywords[label] for label in cluster_labels]# ✅ 可选优化:
# - 聚类算法替换:`KMeans` → `MiniBatchKMeans`(更快)、`LDA`(更语义)、`HDBSCAN`(无需指定簇数)
# - TF-IDF 可以添加 `max_features`, `stop_words`, `ngram_range` 等增强表达
# - 可加 `TSNE` / `UMAP` 降维可视化聚类分布
# - 可保存最具代表性的样本(如每类中心附近评论)# -----------------------------
# 5. 进行五个维度的聚类主题提取
# -----------------------------
# 对以下几类评论子集做主题提取,并写入指定列
extract_cluster_theme(comments_data,comments_data["sentiment_category"].isin([1, 3]),"positive_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["sentiment_category"].isin([2, 3]),"negative_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_scenario"] == 1,"scenario_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_question"] == 1,"question_cluster_theme"
)extract_cluster_theme(comments_data,comments_data["user_suggestion"] == 1,"suggestion_cluster_theme"
)# ✅ 可选优化:
# - 添加异常处理,避免聚类文本为空时程序崩溃
# - 若后续支持多语言数据,可替换 tokenizer 和聚类逻辑为更通用版本# -----------------------------
# 6. 导出预测结果
# -----------------------------
# 创建输出目录
os.makedirs("submit", exist_ok=True)# 导出商品预测结果
video_data[["video_id", "product_name"]].to_csv("submit/submit_videos.csv", index=False)# 导出评论多分类 + 聚类主题提取结果
comments_data[['video_id', 'comment_id', 'sentiment_category','user_scenario', 'user_question', 'user_suggestion','positive_cluster_theme', 'negative_cluster_theme','scenario_cluster_theme', 'question_cluster_theme','suggestion_cluster_theme'
]].to_csv("submit/submit_comments.csv", index=False)

对比结果:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/89518.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/89518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis常见数据结构详细介绍

Redis 作为一款高性能的开源内存数据库,凭借其丰富多样的数据结构和出色的性能,在缓存、会话存储、实时分析等众多场景中得到了广泛应用。下面将详细介绍 Redis 主要的数据结构,包括它们的类型、具体用法和适用场景。1、字符串(St…

HAMR硬盘高温写入的可靠性问题

热辅助磁记录(HAMR)作为突破传统磁记录密度极限的下一代存储技术,其在数据中心大规模应用的核心挑战在于可靠性保障。 扩展阅读: 下一个存储战场:HAMR技术HDD HAMR技术进入云存储市场! 漫谈HAMR硬盘的可靠性 随着存储密度向4Tbpsi迈进,传统磁记录技术遭遇"三难困境…

使用llama-factory进行qwen3模型微调

运行环境 Linux 系统(ubuntu) Gpu (NVIDIA) 安装部署 llama factory CUDA 安装 首先,在 https://developer.nvidia.com/cuda-gpus 查看您的 GPU 是否支持CUDA 保证当前 Linux 版本支持CUDA. 在命令行中输入 uname -m && cat /etc/*release,应当看到类似的输出 x8…

tcp/udp调试工具

几款tcp/udp调试工具 下载地址:夸克网盘

智慧光伏发电信息化系统需求文档

以下是从产品经理角度撰写的智慧光伏发电信息化系统需求文档,聚焦光伏行业痛点与业务价值,遵循标准PRD结构:智慧光伏发电信息化系统需求文档 版本:1.0 日期:2025年7月19日 作者:产品经理视角一、文档概述 1…

ARCS系统机器视觉实战(直播回放)

ARCS系统机器视觉实战本次培训主要围绕ARCS操作系统中的视觉与机器人同步应用展开,详细讲解了网络配置、视觉软件设置、九点标定、机器人程序编写以及数据通信等内容。以下是关键要点提炼: 网络配置 为机器人、相机和电脑分别设置静态IP地址,…

Http请求中的特殊字符

问题 一个 springboot 应用&#xff0c;包含如下 controller RestController public class DemoController {GetMapping("/get")public ResponseEntity<String> get(RequestParam(value "cid2") String cid2) 准备测试数据 String cid2 "…

告别手动报表开发!描述数据维度,AI 自动生成 SQL 查询 + Java 导出接口

Java 开发中&#xff0c;报表模块往往是 “隐形耗时大户”—— 产品经理要 “按地区、月份统计订单量”&#xff0c;开发者需先编写 SQL 查询&#xff0c;再手动开发导出接口&#xff0c;稍作调整又要重新调试&#xff0c;耗费大量时间在重复劳动上。飞算 JavaAI 通过 “数据维…

函数设计测试用例

//归并排序:public static void mergeSort(int[] a,int left,int right){if(left > right)return;int mid left(right -left)/2;mergeSort(a,left,mid);mergeSort(a,mid1,right);int[] tmp new int[a.length];int l left,r mid1,k left;while(l<mid && r<…

Vmware虚拟机使用仅主机模式共享物理网卡访问互联网

一、概述 Vmware虚拟机网卡模式有三种&#xff1a;桥接模式、仅主机模式、NAT模式。默认情况下&#xff0c;Vmware虚拟机使用仅主机模式不能访问互联网。因此&#xff0c;虚拟机可以共享宿主机的物理网卡访问互联网。 三种网卡模式的区别二、Vmware网络设置 2.1、调整虚拟网络 …

声画同步!5 个音视频素材适配的网站,创作更和谐

视频画面和背景音乐不搭&#xff1f;音效和动作不同步&#xff1f;好的作品&#xff0c;声音和画面必须像齿轮一样咬合。这 5 个专注 “声画同步” 的素材网站&#xff0c;能让音视频素材精准匹配&#xff0c;从旋律到节奏&#xff0c;从音效到画面&#xff0c;都默契十足&…

13.多种I/O函数

前言 之前的示例中&#xff0c;基于Linux的使用read&write函数完成数据I/O&#xff0c;基于Windows的则使用send&recv函数。这次的Linux示例也将使用send& recv函数&#xff0c;并讲解其与read&write函数相比的优点。还将介绍几种其他的I/O函数。 一、send &am…

设计模式五:桥模式(Bridge Pattern)

桥模式是一种结构型设计模式&#xff0c;它将抽象部分与其实现部分分离&#xff0c;使它们可以独立变化。这种模式通过提供桥梁结构将抽象和实现解耦。桥模式的结构桥模式包含以下主要角色&#xff1a;Abstraction&#xff08;抽象类&#xff09;&#xff1a;定义抽象接口&…

深入理解设计模式之模板模式:优雅地定义算法骨架

在软件开发中&#xff0c;我们经常会遇到这样的情况&#xff1a;多个类执行相似的操作流程&#xff0c;但每个类在流程的某些步骤上有自己特定的实现。如果为每个类都完整地编写整个流程&#xff0c;会导致大量重复代码&#xff0c;且难以维护。这时候&#xff0c;模板模式&…

基于单片机宠物喂食器/智能宠物窝/智能饲养

传送门 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品题目速选一览表 &#x1f449;&#x1f449;&#x1f449;&#x1f449;其他作品题目功能速览 概述 深夜加班时&#xff0c;你是否担心家中宠物饿肚子&#xff1f;出差旅途中&#xff0c;是否焦虑宠…

静态补丁脚本 - 修改 libtolua.so

直接改arm64的so&#xff0c; 使用python脚本。#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ 静态补丁脚本 - 修改 libtolua.so 主要功能&#xff1a; 1. 修改 luaL_loadbuffer 函数&#xff0c;将跳转目标从 luaL_loadbufferx 改为 luaL_loadfilex 2. …

2-大语言模型—理论基础:详解Transformer架构的实现(2)

目录 1-大语言模型—理论基础&#xff1a;详解Transformer架构的实现(1)-CSDN博客https://blog.csdn.net/wh1236666/article/details/149443139?spm1001.2014.3001.5502 2.3、残差连接和层归一化 2.3.1、什么是层归一化&#xff1f; 2.3.2、层归一化的核心特点&#xff08…

SmartX 用户建云实践|富士康:基于榫卯企业云平台构建分布式云,支撑全球多地工厂重要产线

作为全球最大的电子科技智造服务商&#xff0c;富士康集团在全球范围内构建生产制造网络。为实现多厂区统一管理与降本增效&#xff0c;在逐步替代 VMware 虚拟化架构的过程中&#xff0c;富士康对比了自研 OpenStack Ceph 平台和 SmartX 超融合方案&#xff0c;最终选择基于 …

ADC选型设计

1、最大摆伏FSR&#xff1a; 0 ~ 4.096V&#xff0c;一般Vref要等于FSR 2、最大频率&#xff1a;根据奈奎斯特采样定理大于2倍的信号频率才够还原信号&#xff0c;所以选择20/50倍更好&#xff0c; 3、最小精度&#xff0c;对于一给定模拟输入&#xff0c;实际数字输出与理论预…

基于深度学习的火灾智能检测系统设计与实现

在各类安全事故中&#xff0c;火灾因其突发性强、破坏力大&#xff0c;一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等&#xff0c;存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展&#xff0c;基于计算机视觉的火灾…