淘宝直播数字人:音视频算法工程技术

图片

本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。

第一篇:《淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践》

第二篇:《淘宝直播数字人:LLM文案生成技术》

第三篇:《淘宝直播数字人:LLM弹幕互动技术》

第四篇:《淘宝直播数字人:TTS技术语音合成技术》

第五篇:《淘宝直播数字人:形象技术》

图片

文章价值与思路说明

本文给大家带来的价值:

  • 分享直播核心链路,帮助大家快速了解直播上下游链路

  • 分享数字人核心技术,帮助大家快速了解

  • 数字人核心技术与链路分享淘宝直播数字人项目各个阶段过程与思考

  • 希望能帮助到新的创新,给大家带来一些小的思路和启发

  • 如果能稍微帮助大家,是最开心的事情了~

文章分享思路:

带着问题出发:

  • 数字人业务背景是什么?有什么作用?

  • AI与工程如何结合,如何与音视频技术结合?

  • 直播核心的链路是什么?一个字节的旅行

  • 音视频工程如何与AI结合?

  • 如何产品化,产品化流程是怎么样的?

  • 数字人后续的发展方向和展望


业务背景与价值

  数字人直播

商家核心痛点问题:

  • 非播时间段空窗:真实主播开播时长有限,我们通过主播形象克隆及云端开播,实现非播时间段自助开播(凌晨、主播休息时间段、24h)

  • 主播运营讲解成本高:通过自研LLM大模型自动生成商品讲解文案,降低主播商品讲解成本

  • 直播间无法同时回复大量评论:通过自研LLM大模型对话能力,实现弹幕实时互动

  • 直播间商品展示操作复杂:通过自动化展示商品物料、同步弹商品卡&特效等能力,完善商品展示,促成交转化

  公益&助农

偏远地区招聘优质主播比较困难,且难以负担主播的昂贵费用。数字人直播则不受地域、环境限制,我们可以提供官方形象及开播方案,实现低成本开播。

  业务服务对象:

目前已成功服务多个行业:

  • 自营商家:天猫超市,喵速达,淘宝秒杀,百亿补贴,淘宝买菜,天天热卖,淘工厂等

  • 行业:3C,食品,大家电,快消,家居,汽车等

    通过提供24小时不间断的直播服务能力,淘宝直播数字人为商家提供更高效、更经济的解决方案。


核心链路总览

工程链路

问题:

AI与工程如何结合,如何与音视频技术结合?

  直播核心链路+一个字节的旅行

如何开始一场直播,接下来剖析下直播过程中发生了什么、有哪些环节以及为什么会有这些环节。

以淘宝直播为例,在直播的过程主要包括了音视频采集、渲染/混音、编码、传输/协议、GRTN、播放器这几个主要的环节。为了方便清晰的展示出这些链路,以一张大图呈现如下,其中同时注明了每个环节存在的必要性:

经过上一节可以大致了解直播的基本流程,众所周知程序员喜欢刨根问底,接下来我们把数据拆分成一个字节,观察一个字节在整个过程中是如何流转的。这里拆分了音频和视频两个链路来介绍音频和视频是如何流转的,并且标明了其在每个环节的数据状态:

  整体架构与流程

LiveCopilot包含了渲染+音视频+AI工程,负责AI能力(LLM、TTS、唇部驱动等)在直播场景落地。其围绕 AI工程、音视频渲染、直播与短视频 三大核心能力建设。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)

架构图:

  降成本与创新

本节主要分享降成本与技术创新的一些思路与路径

因为篇幅原因,主要列出和核心思路及实现方式,欢迎沟通交流!

降成本(端云结合)

通过端云结合降低数字人整体成本,已线上落地,并有效降低了整体成本。

TTS拆分

通过TTS拆分提升TTS线上效果,降低机器成本

素材与文案结合

通过拉取商详素材,结合前景分镜视频,有效的丰富了直播讲解内容。(因部分内容因涉及内部模块,特此进行模糊处理,望见谅)

更多....(欢迎找我们讨论交流,不一一列举)

数据与产品化

  产品化思考与小方法

  • 技术探索

核心思路

  • 方向:技术成熟度、行业发展情况

  • 快:和时间赛跑、快速出Demo&验证效果

小方法

  • 关注业内新技术,特别是落地情况

  • 关注行业情况,体验竞品效果

  • 单/半周迭代,每周1-2个Demo

  • 可行性验证

核心思路

  • 种子用户:寻找&培养种子用户

  • 与用户建立信任:服务好用户,赢得信任

小方法

  • 关注核心且积极商家&用户,如荣耀/小米等

  • 线下走访,如天下网商

  • 从用户答疑中与商家建联,服务好商家,赢得信任

  • 产品化

核心思路

  • 深入挖掘用户诉求:建立信任、多沟通。

  • 产品需求来自用户:设身处地、同理心

  • 简单、再简单:减少步骤(哪怕一个点击)、减少功能文档

小方法

  • 种子用户体验群,快速迭代,收集诉求

  • 交互简单,不需要文档就是最好的文档

  • 提升规模

核心思路

  • 核心竞争力:价格、易用性、效果

  • 差异性:新的功能,别人做不到的功能

小方法

  • 竞品调研,试用竞品

  • 可以多问用户,为什么用他,而不用我

  挑战

  • 肢体驱动

  • 数字人成本进一步降低(端+云)

应用场景展望

  • 数字分身&客服:专属人设大模型,让多个一样的你同时直播、交流!(我们正在做)

  • 帮助残疾人直播:帮助聋哑人讲话,表达自己;帮助残障人士开播!(我们正在做)

  • 千人千面:让每个人拥有一个专属数字人助理,有颜声音甜,陪你讲话、聊天、答疑!(我们正在做)

  • 教育普惠:教师人设大模型+数字人,让每个孩子拥有专属老师,共享普惠教育!

  • 数字记忆:克隆自己、亲人的人设、声音、形象,保留一份永久的分身和记忆,留给自己与儿女!可以聊天、可以述说,可以唠家常~

团队介绍

本文作者景江,来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者,始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累,已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证,成功实现从技术研发到商业变现的完整闭环,累计服务上千家商家。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913312.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913312.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL回表查询深度解析:原理、影响与优化实战

引言 作为后端开发或DBA,你是否遇到过这样的场景: 明明给字段加了索引,查询还是慢?EXPLAIN一看,执行计划里type是ref,但数据量不大却耗时很久? 这时候,你很可能遇到了MySQL中常见的…

任务管理器看不到的内存占用:RAMMap 深度分析指南

前言:任务管理器看不到的内存真相 在日常使用 Windows 系统时,我们有时会遇到一种令人费解的情况: 刚刚开机,什么软件都没运行,系统内存却已经占用了 7~8 GB。 打开任务管理器一看,前几个进程加…

从传统仓库到智能物流枢纽:艾立泰的自动化蜕变之旅

在物流行业智能化浪潮中,艾立泰从依赖人工的传统仓库转型为智能物流枢纽,其自动化升级路径为行业提供了典型范本。​曾几何时,艾立泰仓库内人工搬运、纸质单据流转、手工盘点是常态,效率低下、差错率高、人力成本攀升等问题制约发…

408第三季part2 - 计算机网络 - 滑动窗口

理解 帧本质就是一堆二进制,后面会将帧的格式 流量控制就是 B:急急急急急急 A:别急 A控制B,B控制C,C控制D,但D无法控制A,这就是相邻节点 abc在发送的过程中发送完了 怎么才能继续发送呢 没…

RedHat高可用集群深度解析与优化

一、RHCS核心组件深度解析1. Corosync(消息层)通信机制改进说明: Totem协议采用环形令牌传递机制,在10节点以下集群中使用UDP/IP组播(224.0.0.12),超过10节点建议改用UDP/UDP单播。典型配置示例…

为什么使用 XML Schema?

为什么使用 XML Schema? XML(可扩展标记语言)是一种广泛使用的标记语言,它被设计用来存储和传输数据。XML Schema 是一种用于定义 XML 文档结构的语言,它为 XML 文档提供了严格的验证机制。以下是使用 XML Schema 的几个主要原因: 1. 结构化数据定义 XML Schema 允许开…

ESP32蓝牙学习笔记

蓝牙 官网:https://www.bluetooth.com/zh-cn/learn-about-bluetooth/tech-overview/ 概述 分类:Bluetooth经典、Bluetooth低能耗(LE) GAP 通用访问配置文件(Generic Access Profile, GAP)简称GAP,该Profile保证不同的Bluetooth产品可以互…

C#扩展方法全解析:给现有类型插上翅膀的魔法

C#扩展方法全解析:给现有类型插上翅膀的魔法 在 C# 的类型系统中,当我们需要为现有类型添加新功能时,传统方式往往意味着继承、重写或修改源代码 —— 但如果是string、int这样的系统类型,或是第三方库中的密封类,这些…

YOLOv11在边缘计算设备上的部署与优化:从理论到实践

边缘计算与YOLOv11的融合背景 边缘计算的崛起与核心价值 边缘计算作为一种分布式计算范式,正深刻改变着人工智能应用的部署方式。其核心在于将数据处理从云端下沉到网络边缘,在靠近数据源的位置完成计算任务。根据国际数据公司(IDC&#xf…

Solidity——pure 不消耗gas的情况、call和sendTransaction区别

/ pure: 纯纯牛马 function addPure(uint256 _number) external pure returns(uint256 new_number){ new_number _number 1; }不会消耗gas对吧。传的不是状态变量 你的理解基本对了,但我们来更严谨、深入地回答这个问题。 ✅ 你这段 pure 函数代码: …

柔性电路芯片赋能脑机接口:技术融合、应用突破与前景展望

柔性电路芯片赋能脑机接口:技术融合、应用突破与前景展望 一、引言 1.1 研究背景与意义 在科技飞速发展的时代,柔性电路芯片与脑机接口的融合展现出巨大的潜力,为医疗、科研等多个领域带来了新的机遇与变革。 从医疗领域来看,随着人口老龄化的加剧以及神经系统疾病患者…

全面解析存储芯片:从Flash到DDR、铁电、内存条与SD卡

一、存储芯片分类概述 存储芯片是电子设备中用于数据存储的核心组件,根据数据保存方式可分为 易失性存储器(Volatile Memory) 和 非易失性存储器(Non-Volatile Memory)。 类型代表芯片特点典型应用易失性存储器DRAM、…

编译ADI NO-OS工程

1,先在WINdows下安装git bush 可以参考下面博客 https://blog.csdn.net/Natsuago/article/details/145647536 2.安装make 工具 可参考一下链接 https://blog.csdn.net/weixin_40727233/article/details/110353240 3,参考ADI官方链接 https://wiki.analo…

自存bro code java course 笔记(2025 及 2020)

Java Full Course for free ☕ System 是 Java 中的一个 final 类,定义在 java.lang 包中。它的 构造方法是 private 的,意味着你无法通过 new System() 来创建对象。它的所有常用成员(如 System.out, System.in, System.err, currentTimeMil…

opencv基础的图像操作

目录 1.安装opencv-python 2.基础的图像操作 3.绘制几何图形 3.1.绘制直线 3.2.绘制矩形 3.3.绘制圆形 3.4.向图像中添加文字 总结 1.安装opencv-python pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-python 2.基础的图像操作 # 导入库 import c…

Kali制作Linux木马

环境描述:攻击机:kali-Linux2025靶机:Linux-Centos8本文章主要介绍怎么通过kali制作Linux木马控制linux,不要用于非法用途,法律是底线不要触碰,提升自己的网络安全技能,如有用于非法用途自行承担…

常见user agent

常见user agent pc端ua chrome “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36”“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11”“Mo…

Windows 11 Enterprise LTSC 转 IoT

Windows 11 Enterprise LTSC 转 Windows 11 IoT Enterprise LTSC 微软官方并未给出Windows 11 IoT Enterprise LTSC中文版的镜像文件,但可以通过Windows 11 Enterprise LTSC版本的进行转换。 二者主要区别概览 特性Windows 11 Enterprise LTSCWindows 11 IoT Ent…

【手动安装并启动后, 如何查看mysql数据库密码以及重置密码(centos8)】

在 CentOS 8 上手动安装 MySQL 后,初始密码的位置取决于安装方式。以下是查找密码的步骤: 1. 通过 yum/dnf 安装的 MySQL 8.0 如果使用官方 RPM 源安装,初始密码会在安装时自动生成并记录在日志中: # 查看 MySQL 初始密码 sudo…

STM32第十四天串口

一:串口发送字符和字符串和printf重定向 usart.c #include "stm32f10x.h" #include "usart.h" #include "stdio.h"void my_usart_Init()//千万不要和32库里面串口定于的名字一样,不然会报错 {GPIO_InitTypeDef my_usart…