论文阅读: Mobile Edge Intelligence for Large LanguageModels: A Contemporary Survey

地址:Mobile Edge Intelligence for Large Language Models: A Contemporary Survey

摘要

设备端大型语言模型(LLMs)指在边缘设备上运行 LLMs,与云端模式相比,其成本效益更高、延迟更低且更能保护隐私,因此引发了广泛关注。然而,设备端 LLMs 的性能本质上受限于边缘设备的资源约束。移动边缘智能(MEI)介于云端 AI 和设备端 AI 之间,通过在移动网络边缘提供 AI 能力,允许终端用户将繁重的 AI 计算卸载到附近的边缘服务器,为这一问题提供了可行解决方案。本文对利用 MEI 支持 LLMs 的研究进行了最新综述:首先,通过若干典型应用场景说明在网络边缘部署 LLMs 的迫切需求;其次,介绍 LLMs 和 MEI 的基础知识,以及资源高效的 LLM 技术;随后,概述面向 LLMs 的 MEI 架构(MEI4LLM),阐述其核心组件及对 LLMs 部署的支持方式;接着,深入探讨 MEI4LLM 的各个方面,包括边缘 LLM 缓存与分发、边缘 LLM 训练和边缘 LLM 推理;最后,指出未来的研究方向。希望本文能启发研究者利用移动边缘计算推动 LLMs 部署,从而在各类隐私敏感和延迟敏感型应用中释放 LLMs 的潜力。

概述

  1. 背景与动机

    • 云端 LLMs 存在隐私泄露、带宽成本高、延迟长等问题;设备端 LLMs 受限于资源,难以支持大规模模型和复杂任务。
    • MEI 作为折中方案,通过边缘服务器提供 AI 能力,平衡计算资源、延迟和隐私需求,成为 6G 时代 LLMs 部署的关键方向。
  2. 核心应用场景
    聚焦四个对边缘部署 LLMs 需求迫切的场景:

    • 移动医疗:需低延迟处理敏感健康数据,符合隐私法规(如 GDPR);
    • 类人机器人:依赖实时响应(10-100ms 延迟)和本地化数据处理;
    • 虚拟助手:要求低延迟交互(<200ms)和用户数据隐私保护;
    • 自动驾驶:需超低延迟(10ms 级)和处理海量多模态传感器数据。
  3. 基础技术

    • LLMs 基础:基于 Transformer 架构,分为编码器仅用、解码器仅用、编码器 - 解码器三类,支持文本、图像等多模态输入,存在自回归生成等特性。
    • MEI 基础:融合移动边缘计算与 AI,通过边缘服务器实现分布式训练和推理,支持联邦学习、拆分学习等框架。
    • 资源高效技术:包括模型压缩(量化、剪枝、知识蒸馏)、快速解码(投机解码、早期退出)、参数高效微调(LoRA、前缀调优)等。
  4. MEI4LLM 架构

    • 核心组件:AI 原生网络架构、参数共享的 LLM 缓存与分发、分布式 LLM 训练、分布式 LLM 推理。
    • 关键技术:
      • 缓存与分发:利用参数共享特性优化边缘缓存(如 TrimCaching),通过多播和量化减少传输成本;
      • 训练:支持集中式边缘学习、联邦学习、拆分学习和分层协同学习,结合参数高效微调降低资源消耗;
      • 推理:包括集中式推理(边缘服务器统一处理)、拆分推理(设备与服务器分工)、协同推理(设备生成初步结果,服务器验证)。
  5. 未来方向

    • 绿色边缘 LLM(降低能耗)、安全边缘 LLM(防御隐私攻击)、质量感知的边缘 LLM 训练(数据质量控制)。

一、相关技术总结

  1. 资源高效的 LLM 技术

    技术类别具体方法核心原理优点缺点性能表现(典型案例)
    模型压缩量化(PTQ/QAT)将高精度参数(如 FP16)转为低精度(如 INT4/INT8)减少存储和计算量,适配边缘设备内存可能导致精度损失,QAT 需额外训练资源Llama2-7B 经 4-bit 量化后内存从 28GB 降至 3.5GB,精度损失 <1% [8,131]
    剪枝(结构化 / 非结构化)移除冗余参数(如注意力头、权重)降低模型复杂度,加速推理非结构化剪枝需专用硬件支持GPT-3 经 60% 非结构化剪枝后,精度无显著损失 [133]
    知识蒸馏用小模型(学生)学习大模型(教师)的输出分布保留核心能力,模型体积大幅缩减(如 10 倍)蒸馏过程需大量标注数据,可能丢失细粒度知识MiniLLM 在文本生成任务上性能接近教师模型,体积缩减 90% [134]
    快速解码投机解码轻量模型生成候选 token,大模型验证修正减少自回归迭代次数,延迟降低 50% 以上需维护轻量模型,验证错误可能引入额外成本llama.cpp 中投机解码使生成速度提升 2 倍,能耗降低 50% [129]
    早期退出在中间层设置出口,满足置信度时终止推理动态平衡速度与精度,短文本任务加速显著长文本生成中需保留 KV 缓存,增加内存占用BERT 经早期退出优化后,推理速度提升 40%,精度损失 <2% [137]
    参数高效微调LoRA冻结预训练权重,仅训练低秩矩阵微调参数减少 99%,适配边缘设备计算能力推理时需合并低秩矩阵,可能增加延迟LLaMA-7B 经 LoRA 微调后,下游任务性能接近全量微调,参数仅增加 0.1% [153]
    前缀调优在输入前添加可训练的软提示(Soft Prompt)无需修改模型结构,适配多任务场景提示设计依赖人工经验,复杂任务性能有限GPT-2 通过前缀调优在机器翻译任务上 BLEU 值达 69,接近全量微调 [149]
    • 模型压缩
      • 量化:将高精度参数转为低精度(如 INT4),减少存储和计算量(如 GPTQ、AWQ);
      • 剪枝:移除冗余参数,分结构化(剪枝注意力头)和非结构化(稀疏化权重)两类;
      • 知识蒸馏:通过 “教师 - 学生” 模型传递知识,适配边缘设备(如 MiniLLM)。
    • 快速解码
      • 投机解码:用轻量模型生成候选 tokens,由大模型验证,减少迭代次数;
      • 早期退出:在中间层终止推理,平衡速度与精度;
      • KV 缓存优化:压缩或动态管理缓存,减少内存占用(如 MiniCache)。
    • 参数高效微调
      • 适配器调优(Adapter Tuning)、前缀调优(Prefix Tuning)等,仅更新少量参数即可适配下游任务;
      • LoRA 通过低秩矩阵分解减少微调参数,兼容边缘设备。
  2. 边缘 LLM 缓存与分发

    技术方法核心原理优点缺点性能表现(典型案例)
    参数共享缓存缓存共享参数块(如预训练权重),仅存储任务特定参数(如 LoRA 适配器)存储效率提升 5-10 倍,支持多模型并发缓存替换策略复杂,依赖参数共享度TrimCaching 在 12 个边缘服务器部署 100 个微调模型,缓存命中率提升至 80% [197]
    多播分发对共享参数块多播,任务特定参数单播传输效率提升 3-5 倍,减少带宽消耗多播组管理复杂,适用于密集用户场景多播分发 Llama2-7B,下载延迟从 5s 降至 1.2s [198]
    量化传输模型参数量化后传输,边缘设备解压使用传输量减少 4-8 倍,适配低带宽边缘网络解压增加设备计算负担,可能损失精度4-bit 量化传输 GPT-3,传输时间减少 75%,精度损失 <2% [199]
    • 缓存策略:利用 LLM 参数共享特性(如 LoRA 微调模型共享预训练权重),采用 TrimCaching 等方法减少存储冗余;
    • 分发优化:通过参数块多播、量化传输、联合缓存与路由优化,降低传输延迟和带宽消耗。
  3. 边缘 LLM 训练与推理

    • 训练框架
      训练框架核心原理优点缺点性能表现(典型案例)
      集中式边缘学习边缘设备上传数据至服务器,统一训练训练效率高,适合数据非敏感场景隐私风险高,上传海量多模态数据消耗带宽用 12 个边缘服务器并行训练 LLaMA-2 7B,每轮迭代 latency 降低至 80s [216]
       联邦学习(FL)设备本地训练,仅上传模型更新,服务器聚合保护数据隐私,适配分布式数据场景通信成本高,设备异构性导致训练不稳定联邦 LoRA 微调 LLaMA-13B,通信量减少 99%,精度损失 <3% [218]
      拆分学习(SL)模型拆分为设备端和服务器端子模型,通过中间特征交互训练避免原始数据上传,平衡隐私与计算效率中间特征传输仍可能泄露隐私,拆分点选择影响性能拆分 GPT-3 在医疗数据上训练,隐私泄露风险降低 70%,精度保持 95% [225]
      分层协同学习云 - 边缘 - 设备三级协同,边缘聚合本地模型,云端聚合全局知识兼顾全局泛化与本地适配,支持大规模部署架构复杂,跨层通信延迟高自动驾驶场景中,分层训练使模型适配不同区域路况,精度提升 15% [228]
      • 联邦学习:边缘设备本地训练,仅上传模型更新,保护数据隐私(如 FedLoRA);
      • 拆分学习:将模型拆分为设备端和服务器端子模型,通过中间特征交互协同训练,减少原始数据传输;
      • 分层协同学习:结合云、边缘、设备三级资源,平衡全局知识与本地适配。
    • 推理框架
      推理框架核心原理优点缺点性能表现(典型案例)
      ** 集中式推理设备上传数据至边缘服务器,由服务器执行完整推理利用服务器强算力,支持大模型隐私风险高,上传多模态数据带宽消耗大边缘服务器部署 Llama2-70B,推理延迟比云端低 60% [24]
      ** 拆分推理设备处理底层网络,服务器处理高层网络,通过中间特征交互减少原始数据传输,平衡隐私与延迟特征传输仍占带宽,拆分点需优化拆分 GPT-4 在自动驾驶场景中,延迟降至 50ms,带宽消耗减少 40% [277]
      ** 协同推理设备用轻量模型生成初步结果,服务器用大模型验证修正设备端快速响应,服务器保证精度验证错误可能导致返工,需协调设备与服务器模型虚拟助手场景中,协同推理使响应延迟 <100ms,准确率达 92% [278]
      • 集中式推理:边缘服务器统一处理,适用于非敏感数据;
      • 拆分推理:设备处理部分层并上传中间特征,服务器完成剩余计算,平衡隐私与延迟;
      • 协同推理:设备用轻量模型生成初步结果,服务器用大模型验证,提升效率(如投机解码)。

二、未来研究方向

  1. 绿色边缘 LLM:聚焦降低边缘 LLM 训练和推理的能耗,通过优化算法(如基于零阶优化器减少内存消耗)、硬件创新(如三星的 PIM 和 PNM 技术提升内存带宽与容量同时降低能耗),适配电池供电的边缘设备,满足可持续发展需求 。

  2. 安全边缘 LLM:抵御隐私攻击(如防止通过中间特征恢复原始数据)、对抗攻击(如数据投毒),保障 LLM 在边缘安全运行。研究安全聚合协议、加密机制,确保联邦学习中模型更新安全传输;开发鲁棒训练算法,提升模型抗攻击能力 。

  3. 质量感知的边缘 LLM 训练:在边缘数据质量参差不齐的情况下,实现数据质量控制。研究数据筛选、增强技术,结合边缘设备数据特性优化训练过程,如利用分层协同学习框架,在不同层次对数据质量进行评估与处理,提升模型泛化性和准确性 。

三、难点

  1. 通信瓶颈:现有研究多关注计算效率,忽视通信对 LLM 训练、推理、缓存及分发的影响。在移动边缘网络中,多模态数据上传下载、中间特征传输消耗大量带宽,制约 LLM 性能,需设计通信高效的边缘架构与协议 。

  2. 模型与网络协同优化:当前 LLM 资源高效技术与无线边缘网络相互作用研究不足。如参数高效微调、分割推理等技术在复杂网络环境下性能不稳定,需联合优化模型部署与网络资源分配 。

  3. 边缘设备异构性:边缘设备在计算、内存、存储能力上差异大,难以统一适配 LLM。需开发自适应技术,根据设备能力动态调整模型配置、训练推理策略,保障不同设备上 LLM 的可用性与性能 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92196.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaWeb(苍穹外卖)--学习笔记17(Websocket)

前言 本篇文章是学习B站黑马程序员苍穹外卖的学习笔记&#x1f4d1;。我的学习路线是Java基础语法-JavaWeb-做项目&#xff0c;管理端的功能学习完之后&#xff0c;就进入到了用户端微信小程序的开发&#xff0c;&#x1f64c;用户下单并且支付成功后&#xff0c;需要第一时间通…

WebForms 简介

WebForms 简介 概述 WebForms 是微软公司推出的一种用于构建动态网页和应用程序的技术。自 2002 年推出以来,WebForms 成为 ASP.NET 技术栈中重要的组成部分。它允许开发者以类似于桌面应用程序的方式创建交互式网页,极大地提高了 Web 开发的效率和体验。 WebForms 的工作…

vsCode软件中JS文件中启用Emmet语法支持(React),外加安装两个常用插件

1.点击vsCode软件中的设置&#xff08;就是那个齿轮图标&#xff09;&#xff0c;如下图2.在搜索框中输入emmet&#xff0c;然后点击添加项&#xff0c;填写以下值&#xff1a;项&#xff1a;javascript 值&#xff1a;javascriptreact。如下图3.可以安装两个常用插件&#xf…

【第2话:基础知识】 自动驾驶中的世界坐标系、车辆坐标系、相机坐标系、像素坐标系概念及相互间的转换公式推导

自动驾驶中的坐标系概念及相互间的转换公式推导 在自动驾驶系统中&#xff0c;多个坐标系用于描述车辆、传感器和环境的相对位置。这些坐标系之间的转换是实现定位、感知和控制的关键。下面我将逐步解释常见坐标系的概念&#xff0c;并推导相互转换的公式。推导基于标准几何变换…

深度拆解Dify:开源LLM开发平台的架构密码与技术突围

注&#xff1a;此文章内容均节选自充电了么创始人&#xff0c;CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》&#xff08;跟我一起学人工智能&#xff09;【陈敬雷编著】【清华大学出版社】 清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷…

tomcat处理请求流程

1.浏览器在请求一个servlet时,会按照HTTP协议构造一个HTTP请求,通过Socket连接发送给Tomcat. 2.Tomcat通过不同的IO模型接收到Socket的字节流数据。 3.接收到数据后,按照HTTP协议解析字节流,得到HttpServletRequest对象 4.通过HttpServletRequest对象,也就是请求信息,找到该请求…

【音视频】WebRTC 一对一通话-信令服

一、服务器配置 服务器在Ubuntu下搭建&#xff0c;使用C语言实现&#xff0c;由于需要使用WebSocket和前端通讯&#xff0c;同时需要解析JSON格式&#xff0c;因此引入了第三方库&#xff1a;WebSocketpp和nlonlohmann&#xff0c;这两个库的具体配置方式可以参考我之前的博客…

Spring(以 Spring Boot 为核心)与 JDK、Maven、MyBatis-Plus、Tomcat 的版本对应关系及关键注意事项

以下是 Spring&#xff08;以 Spring Boot 为核心&#xff09;与 JDK、Maven、MyBatis-Plus、Tomcat 的版本对应关系及关键注意事项&#xff0c;基于最新技术生态整理&#xff1a; 一、Spring Boot 与 JDK 版本对应 Spring Boot 2.x 系列 最低要求&#xff1a;JDK 1.8推荐版本…

03-基于深度学习的钢铁缺陷检测-yolo11-彩色版界面

目录 项目介绍&#x1f3af; 功能展示&#x1f31f; 一、环境安装&#x1f386; 环境配置说明&#x1f4d8; 安装指南说明&#x1f3a5; 环境安装教学视频 &#x1f31f; 二、系统环境&#xff08;框架/依赖库&#xff09;说明&#x1f9f1; 系统环境与依赖配置说明&#x1f4c…

24. 前端-js框架-Vue

文章目录前言一、Vue介绍1. 学习导图2. 特点3. 安装1. 方式一&#xff1a;独立版本2. 方式二&#xff1a;CDN方法3. 方式三&#xff1a;NPM方法&#xff08;推荐使用&#xff09;4. 搭建Vue的开发环境&#xff08;大纲&#xff09;5. 工程结构6. 安装依赖资源7. 运行项目8. Vue…

Spring 的依赖注入DI是什么?

口语化答案好的&#xff0c;面试官&#xff0c;依赖注入&#xff08;Dependency Injection&#xff0c;简称DI&#xff09;是Spring框架实现控制反转&#xff08;IoC&#xff09;的主要手段。DI的核心思想是将对象的依赖关系从对象内部抽离出来&#xff0c;通过外部注入的方式提…

汇川PLC通过ModbusTCP转Profinet网关连接西门子PLC配置案例

本案例是汇川的PLC通过开疆智能研发的ModbusTCP转Profient网关读写西门子1200PLC中的数据。汇川PLC作为ModbusTCP的客户端网关作为服务器&#xff0c;在Profinet一侧网关作为从站接收1200PLC的数据并转成ModbusTCP协议被汇川PLC读取。配置过程&#xff1a;汇川PLC配置Modbus TC…

【计组】数据的表示与运算

机器数与真值机器数真值编码原码特点表示范围求真值方法反码特点补码特点表示范围求真值方法移码特点表示范围求真值方法相互转换原码<->补码补码<->移码原码<->反码反码<->补码移位左移右移逻辑右移算术右移符号扩展零扩展整数小数符号扩展运算器部件…

视频水印技术中的变换域嵌入方法对比分析

1. 引言 随着数字视频技术的快速发展和网络传输的普及,视频内容的版权保护问题日益突出。视频水印技术作为一种有效的版权保护手段,通过在视频中嵌入不可见或半可见的标识信息,实现对视频内容的所有权认证、完整性验证和盗版追踪。在视频水印技术的发展历程中,变换域水印因…

电动汽车电池管理系统设计与实现

电动汽车电池管理系统设计与实现 1. 引言 电动汽车电池管理系统(BMS)是确保电池组安全、高效运行的关键组件。本文将详细介绍一个完整的BMS系统的MATLAB实现,包括状态估计(SOC/SOH)、参数监测、电池平衡和保护功能。系统设计为模块化结构,便于扩展和参数调整。 2. 系统架构…

JVM(Java Virtual Machine,Java 虚拟机)超详细总结

一、JVM的基础概念1、概述JVM是 Java 程序的运行基础环境&#xff0c;是 Java 语言实现 “一次编写&#xff0c;到处运行” &#xff08;"write once , run anywhere. "&#xff09;特性的关键组件&#xff0c;具体从以下几个方面来理解&#xff1a;概念层面JVM 是一…

Balabolka软件调用微软离线自然语音合成进行文字转语音下载安装教程

首先&#xff0c;需要准备安装包 Balabolka NaturalVoiceSAPIAdapterMicrosoftWindows.Voice.zh-CN.Xiaoxiao.1_1.0.9.0_x64__cw5n1h2txyewy.Msix MicrosoftWindows.Voice.zh-CN.Yunxi.1_1.0.4.0_x64__cw5n1h2txyewy.Msix借助上面这个工具&#xff1a;NaturalVoiceSAPIAdapter&…

Java修仙之路,十万字吐血整理全网最完整Java学习笔记(高级篇)

导航&#xff1a; 【Java笔记踩坑汇总】Java基础JavaWebSSMSpringBootSpringCloud瑞吉外卖/谷粒商城/学成在线设计模式面试题汇总性能调优/架构设计源码解析 推荐视频&#xff1a; 黑马程序员全套Java教程_哔哩哔哩 尚硅谷Java入门视频教程_哔哩哔哩 推荐书籍&#xff1a; 《Ja…

接口测试用例和接口测试模板

一、简介 3天精通Postman接口测试&#xff0c;全套项目实战教程&#xff01;&#xff01;接口测试区别于传统意义上的系统测试&#xff0c;下面介绍接口测试用例和接口测试报告。 二、接口测试用例模板 功能测试用例最重要的两个因素是测试步骤和预期结果&#xff0c;接口测试…

linux查看kafka的消费组里是否有积压

flink消费数据时&#xff0c;有时候需要在页面展示的数据&#xff0c;不能实时展示。那就需要查看下&#xff0c;kafka的消费组里是否有数据积压了。flink的任务flink的消费情况kafka中的信息总结可以看出来&#xff0c;kafka的消费组里的数据&#xff0c;已经实时的消费完了。…