『大模型笔记』高效请求排队:优化大语言模型(LLM)性能 |
文章目录
- 一. 起点:基础的推理引擎
- 二. 问题:“重度用户”会阻塞其他用户
- 三. 解决方案:公平调度
- 3.1. 扩展思路
- 四. 问题:后端队列没有“反压”机制
- 五. 解决方案:获取后端指标
- 5.1 扩展思路
- 六. 替代方案:后端优先级调度
- 6.1. 后端优先级调度能否完全替代 LLM-Server 的调度功能?
- 七. 总结与展望
- 八. 参考文献
系列文章,目录如下:
- 第0篇:『大模型笔记』基于Transformer的生成式模型分布式服务系统
- 第1篇:『大模型笔记』高效请求排队:优化大语言模型(LLM)性能
- 第2篇:『大模型笔记』并发请求中的 Prefi