华为云云服务高级顾问叶正晖:华为对多模态大模型的思考与实践

嘉宾介绍:

叶正晖,华为云云服务高级顾问,全球化企业信息化专家,从业年限超过23年,在华为任职超过21年,涉及运营商、企业、消费者、云服务、安全与隐私等领域,精通云服务、安全合规、隐私保护等领域相关解决方案。同时兼任ISC2协会中国区华南分会理事长职务。

以下内容为华为云云服务高级顾问叶正晖在中国计算机学会(CCF)、CCF CTO CLUB联合数新智能共同主办的“多模态数据融合技术创新与落地实战”活动中演讲全文

我今天主要分享一下华为对多模态大模型的一些想法和一些实践。

 

我们大模型的架构的趋势,还是要从以前的单一模态走向多模态大一统,在未来的趋势下,从2021年的Vision  Transformer到2022年的Whisper大模型再到2024年的Sora,整个过程里面从以前的视觉到语音到混合,再到生成大模型的一个统一。但是,我们大模型要解决一个问题,就是我们怎么让AI像人类一样去理解复杂场景下的视觉、语言以及任务逻辑,这是我们大模型要解决的问题。

华为在这上面其实走了一条层次化的一条路,把感知、推理和融合放在一起这么一条路径。其实多模态大模型主要分成三类:一类是属于多模态的理解大模型;二是多模态的生存大模型;三是全模态的大模型。我这里仅为大家介绍理解大模型的情况。

华为的盘古多模态大规模的模型,它是一个层次融合的一个架构。什么叫层次化?它的表向分层包括的基础性能这一层面;第二个层面是专项能力;第三个层面行业解决方案。为什么要叫做层次融合呢?因为它在每一层里面它的相关的这些模块,它是共享一个语义的空间,实现相似的连接与衔接。

在基础性能这一块,它将感知、推理、综合是作为整个大模型的基础。为上面的专项能力以及行业解决方案提供相应模型的性能,以及后续的基本架构信息。

在基础性能方面,它会根据新技术或者产品的迭代会做架构更新,以及相关的数据集都会有变化,并根据实践的情况来改进训练的方法。所以这也为上层的专项能力和行业解决方案提供了相应的基础。

专项能力层,是能力侧重增强的一部分。在大模型的套件里面,目前来说是四个专项的大模型:视觉认知专项、文档理解专项、知识问答专项、任务规划的专项。

在这里面在加上数据工程套件、模型开发套件、模型应用套件这几个套件,面临不同的应用场景,提供了专项能力。而且可以看到不同的专项大模型,比如说像聚焦自然视觉现象,知识管理,就实现视觉认知的理解效果。比如任务规划专项,要与真实环境对齐的任务规划能力,在场景里面去做识别。

我们把视觉认知专项打开看一下,其实视觉认知专项在原来的基础多模态大模型中,经过海量的数据的训练,10000+通用及行业实用标签,包括场景标签,关系标签、行为标签都在这里面。再通过一个泛化的通用视觉认知能力,对里面视觉感知、还有我们平时的常识去做推理。现在可以支持到在一些大的场景下,普通产品的标签精度达到70%,重点行业达到80%。

这就重点谈到我们后续讨论case中的识别产品,它根据我们在现实世界里的一些逻辑在里面做推理抉择。目前在城市治理、安全生产这方面都在做相关的应用。

在文档分析的专项里面,我们是能够支持把一些非扫描版的,比如照相、卡证、文档这些非扫描类、纸质的混合型的东西都能够做混合在一起做识别。除了基础的文档解析之外,还会做文档的高阶的分析,比如数据图表分析,比如说上下文关联指向问答。

当然,像一些行业性专业文档,比如工业设计图,合同都可以做文档分析。目前大概有1.5亿文档数据去做训练,而且它能够达到我们现在这些图文交错、多模态的思维能力,包括常见的文件符号、图表都是可以制作的。

任务规划,其实是基于前面的文档理解专项大模型和视觉认知大模型基础之上衍生出来的。对于任务逻辑来说,要对应本身的具身规划、具身人物规划能力做训练,增强感知。再通过GUI模型在操作任务上能够做一些规范训练,由此得出来我们的任务逻辑。本身已经有编排引擎的基础之上,我们有相关的各种任务逻辑把这个做起来。

刚才谈到的一个Case,就是蚜虫检测。怎么帮助农场去做威胁消除、风险消除?怎么去准确定位蚜虫的位置,或者侵占农作物的程度?怎么能够做一个精准的识别是我们首先考虑的问题。

首先要知道,蚜虫的检测是有比较高的要求蚜虫检测的高要求主要体现在以下方面:

  1. 尺寸极小:成虫约 1-5 毫米(如芝麻大小),弱虫更小,对识别精度要求高。
  2. 拍摄器材特殊:需微距摄影器材以清晰捕捉微小个体;需特定固定器材防止拍摄时抖动,确保图像稳定。
  3. 拍摄角度与位置:蚜虫多位于农作物叶背面或根部,拍摄时需精准调整角度以覆盖这些隐蔽位置。
  4. 颜色识别难度大:蚜虫颜色与农作物接近或类似灰尘,易与环境混淆,增加识别难度。

在图象识别上存在一个问题就是检测挑战性。我们通过人工获得的蚜虫的图象会比较少,有什么办法可以通过AI大模型去解决问题呢?这就可以通过大模型,把这些极少的数据量,可以生成大量的数据。这个数据体量大,就可以提高我们图像识别的效果,提升检测的效率。

这是华为云在贵州一个农场上做的实例。这是一个比较简单的配置,还有很多应用,比如说在工业质检领域,会检测到工艺零件的表面的缺陷。还有通过知识图谱,能够关联出来零件的缺陷地方,以及修复的工具,并且能够自动生成维修工单,这个过程中是不需要人工干预的。

这一块是华为在多模态技术领域上创新和应用场景。谢谢大家。    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94278.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习(二)】KNN算法与模型评估调优

目录 一、写在前面的话 二、KNN(K-Nearest Neighbor) 2.1 KNN算法介绍 2.1.1 概念介绍 2.1.2 算法特点 2.1.3 API 讲解 2.2 样本距离计算 2.2.1 距离的类型 (1)欧几里得距离(Euclidean Distance) …

《Uniapp-Vue 3-TS 实战开发》实现自定义头部导航栏

本文介绍了如何将Vue2组件迁移至Vue3的组合式API。主要内容包括:1) 使用<script setup lang="ts">语法;2) 通过接口定义props类型约束;3) 用defineProps替代props选项;4) 将data变量转为ref响应式变量;5) 使用computed替代计算属性;6) 将created生命周期…

GitCode疑难问题诊疗

问题诊断与解决框架通用问题排查流程&#xff08;适用于大多数场景&#xff09; 版本兼容性验证方法 网络连接与权限检查清单常见错误分类与解决方案仓库克隆失败场景分析 HTTP/SSH协议错误代码解读 403/404错误深层原因排查高级疑难问题处理分支合并冲突的深度解决 .gitignore…

告别物业思维:科技正重构产业园区的价值坐标系

文 | 方寸控股引言&#xff1a;当产业园区的竞争升维为“科技军备竞赛”&#xff0c;土地红利消退&#xff0c;政策优势趋同&#xff0c;传统园区运营陷入增长困局。当招商团队还在用Excel统计企业需求&#xff0c;当能耗管理依赖保安夜间巡检&#xff0c;当企业服务停留在“修…

GitHub 热门项目 PandaWiki:零门槛搭建智能漏洞库,支持 10 + 大模型接入

转自&#xff1a;Khan安全团队你还没有自己的漏洞库吗&#xff1f;一条命令教你搭建。PandaWiki 是一款 AI 大模型驱动的开源知识库搭建系统&#xff0c;帮助你快速构建智能化的 产品文档、技术文档、FAQ、博客系统&#xff0c;借助大模型的力量为你提供 AI 创作、AI 问答、AI …

Python 程序设计讲义(55):Python 的函数——函数的参数

Python 程序设计讲义&#xff08;55&#xff09;&#xff1a;Python 的函数——函数的参数 目录Python 程序设计讲义&#xff08;55&#xff09;&#xff1a;Python 的函数——函数的参数一、声明形参二、传递实参&#xff08;位置参数&#xff09;1、在调用函数进行传递参数时…

机器学习sklearn:支持向量机svm

概述&#xff1a;现在就只知道这个svm可以画出决策边界&#xff0c;对数据的划分。简单举例就是&#xff1a;好的和坏的数据分开&#xff0c;中间的再验证from sklearn.datasets import make_blobs from sklearn.svm import SVC import matplotlib.pyplot as plt import numpy …

Django ORM 详解:从入门到进阶,掌握数据库操作的核心

在 Django 中&#xff0c;ORM&#xff08;Object Relational Mapping&#xff0c;对象关系映射&#xff09; 是框架的核心之一。它允许你使用 Python 代码来操作数据库&#xff0c;而无需编写原始 SQL 语句。Django ORM 不仅简化了数据库操作&#xff0c;还提升了代码的可读性、…

mac中使用gvm install没有效果

问题表现&#xff1a; mac使用了gvm install一直没有效果&#xff08;添加代理也没效果&#xff09;&#xff0c;效果如下图所示&#xff0c;始终卡在downloading&#xff0c;但是gvm version是正常的解决办法&#xff1a; 手动安装go的版本&#xff08;版本号自行选择&#xf…

【React】状态管理

两个状态管理工具&#xff1a; dva 是一个基于 Redux 和 React Router 的数据流方案&#xff0c;它提供了对 Redux 和 React Router 的封装&#xff0c;使得在使用 dva 时可以更方便地进行状态管理和路由操作。React Redux是一个JavaScript状态管理库&#xff0c;它的核心包括s…

⭐CVPR2025 FreeUV:无真值 3D 人脸纹理重建框架

&#x1f4c4;论文题目&#xff1a;FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference Strategy ✍️作者及机构&#xff1a;Xingchao Yang、Takafumi Taketomi、Yuki Endo、Yoshihiro Kanamori&#xff08;CyberAgent、Universit…

Google Chrome <140.0.7297.0 MediaStreamTrackImpl UAF漏洞

【高危】Google Chrome <140.0.7297.0 MediaStreamTrackImpl UAF漏洞 漏洞描述 Google Chrome 是美国谷歌&#xff08;Google&#xff09;公司的一款Web浏览器。 受影响版本中&#xff0c;当处理媒体流时&#xff0c;MediaStreamTrackImpl 组件在销毁前&#xff0c;未能清…

在VSCode中定制C语言宏格式化

在编写C语言代码时,经常会遇到一些宏定义的问题,特别是当使用宏来简化变量声明时。假设你有一个宏定义如下: #define VAR(vartype, memclass) vartype VAR(float32, AUTOMATIC) var1; // 等同于 "float32 var1;"当你使用VSCode的Format Document</

LangChain4J入门:使用SpringBoot-start

这是连续的专栏内容 &#xff08;一&#xff09;提换依赖 将原有的 <!-- LangChain4j OpenAI 集成 --><dependency><groupId>dev.langchain4j</groupId><artifactId>langchain4j-open-ai</artifactId></dependency> 换成 <!…

AR-Align-NN-2024

文章目录An unsupervised multi-view contrastive learning framework with attention-based reranking strategy for entity alignment摘要1. 引言2. 相关工作2.1. 实体对齐2.2 对比学习中的数据增强3. 问题定义4. 方法论4.1 嵌入初始化4.2 图谱数据增强4.3 多视图对比学习4.4…

DeFi借贷协议深度解析:原理与Python实现

目录 DeFi借贷协议深度解析:原理与Python实现 1. DeFi借贷协议概述 2. 核心数学原理 2.1 抵押率计算 2.2 健康因子 2.3 利率模型 3. 协议核心组件 3.1 资金池架构 3.2 状态变量 4. 核心功能实现 4.1 存款功能 4.2 借款功能 4.3 利息计算与更新 5. 清算机制实现 5.1 清算逻辑 5…

信创及一次ORACLE到OB的信创迁移

信创及一次ORACLE到OB的信创迁移 1.信创是什么? 2.银行信创要求:核心目标与挑战 3.一次ORACLE到OceanBase(OB)的信创迁移方案 3.0.目标: 3.1.迁移评估OceanBase Migration Assessment (OMA) 3.2.数据对象迁移 3.3.数据迁移 3.4.OceanBase 导数工具 3.5.调用存储过程跑批 3…

[Python] -进阶理解10- 用 Python 实现简易爬虫框架

网络爬虫是自动抓取网页并提取数据的程序。本篇文章将基于 Python,从请求、解析和数据流控制三个核心模块出发,逐步构建一个简易爬虫框架,并辅以代码示例与扩展建议,适合初学者快速掌握爬虫架构设计。 一、爬虫架构总览 典型爬虫框架包含以下模块流程: Seed URLs:初始化…

oracle备库主机断电重启后IO异常报错

两节点rac adg环境4个实例&#xff0c;节点1异常重启后IO报错 检查控制文件为0字节&#xff0c;第一感觉是不是控制文件损坏了&#xff1f;但节点2说是没有报错&#xff0c;理论上如果控制文件坏了&#xff0c;库应该挂掉了。 尝试重启另外一共adg实例&#xff0c;发现读取其它…

简单线性回归模型原理推导(最小二乘法)和案例解析

线性回归是一种用于建模自变量与因变量之间线性关系的统计方法&#xff0c;核心是通过最小化误差平方和估计模型参数。以下从数学原理推导和案例两方面详细说明。 一、线性回归模型的数学原理推导 1. 模型定义 线性回归假设因变量 y 与自变量 x 存在线性关系&#xff0c;具体…