tvm/triton/tensorrt比较

tvm/triton/tensorrt比较

news/2025/9/11 16:20:22/文章来源:https://blog.csdn.net/luoganttcc/article/details/151437380

1.tvm的主线感觉更新太慢，文档太落后，在自动驾驶领域不支持Blackwell平台，跨平台其实吹牛的更多。我觉得自动驾驶用不起来。

2.性能最快的还是tensorrt/tensorrt_llm这条路，纯cuda路线面临大量cuda算子开发，比如vllm llama.cpp

3.nvidia平台，简单的推理算子如果没有直接cuda写就行，如果对于比较新还复杂的算子，得用cutlass来写呢。如果要快速验证，用triton来快速写新算子实现，然后导出为cubin文件，然后plugin加载这个triton导出算子也是没有问题的。目前triton最新版本不支持thor，感觉明年能支持。"Triton for Prototyping, CUTLASS for Production"

3.tvm的relay/relax的定位类似triton。但是支持力度天壤之别。Triton 是“写算子的 DSL/工具链。Relax 是“图级别 IR。如果relax只写算子那么两个功能类似。

4.感觉基于mlir的路线已经打败tvm了。pytorch->torch-mlir->各种mlir->llvm ir。

pytorch->triton->各种mlir->llvm ir

感觉已经完成占领了生态位。

5.triton不是和和tensorrt对标的，对标的是cublas cunlaslt。所以triton导出的ptx和cubin能被tensorrt plugin加载。

6.最新的cutlass也支持了基于mlir的python dsl。

7.tvm 目前看最有价值的是计算图自动调优的能力，等于把部分复杂和通用算子可以用tvm来作。但是tvm很难支持最新的硬件，需要使用者来适配，这个不容易。 TVM MetaSchedule 有一个问题是对新硬件支持慢，还得自己的公司投入人来开发适配，还不能合入主线，因为主线不受控制，主线api疯狂变更。所以有价值的点在于这个公司需要在非常多的平台上部署模型，然后拉出一个分支来进行自己产品的迭代，定期从主线捞想法看看是否能借鉴。

8.tvm 主线的量化支持INT8，不支持INT4.

9.在动态形状支持上，TVM和MLIR正在殊途同归。双方都认识到，将形状计算从数据计算中解耦，并将其作为图中的显式操作，是正确的技术路线。

MLIR 在这条路上起步更早，基础更扎实，其设计从一开始就体现了这种清晰性。
TVM 则是通过痛苦的实践（Relay）认识到了这一点，并通过Relax IR进行了彻底的革新，试图追赶并超越。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/921906.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/921906.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Transform 和BERT、GPT 模型

Transform 和BERT、GPT 模型

目录 Transform的由来 Seq2seq 模型 Transform 的内部结构语言模型 BERT 介绍 BERT 模型的组成分词器位置编码 Softmax 残差结构 BERT 模型总结 Transform的由来传统的语⾔模型，⽐如RNN（循环神经⽹络），就像⼀个“短…

阅读更多...

2025高教社国赛数学建模A题参考论文35页（含代码和模型）

2025高教社国赛数学建模A题参考论文35页（含代码和模型）

2025国赛数学建模竞赛A题完整参考论文目录摘要 1 问题背景与重述 2 问题分析 2.1 问题一分析 2.2 问题二分析 2.3 问题三分析 2.4 问题四分析 2.5 问题五分析 3 符号说明 4 模型假设 5 模型建立与求解 5.1 问题一烟幕有效遮蔽时长…

阅读更多...

【Linux】常用命令汇总

【Linux】常用命令汇总

【Linux】常用命令【一】tar命令【1】可用参数【2】常用案例（1）创建归档（打包）（2）查看归档内容：（3）解包归档 (提取)：【二】日志查看命令【1】基础命令…

阅读更多...

软考系统架构设计师之软件系统建模

软考系统架构设计师之软件系统建模

一、软件系统建模系统建模流程包括如下： 二、人机交互设计黄金三法则： 1、置于用户控制之下以不强迫用户进入不必要的或不希望的动作的方式来定义交互方式提供灵活的交互允许用户交互可以被中断和撤销当技能级别增加时可以使交互流水化并允许定制交…

阅读更多...

Linux系统学习之注意事项及命令基本格式

Linux系统学习之注意事项及命令基本格式

哈喽，你好啊，我是雷工！你要是翻过历史文章的话，肯定特别疑惑：这神经病搞得这个号到底是啥定位，究竟是分享啥类型的，咋乱七八糟的啥都有。真是个杂货铺啥都有，咋又开始分享Linux系统了…

阅读更多...

0基础Java学习过程记录——枚举、注解

0基础Java学习过程记录——枚举、注解

一、枚举1.基本介绍（1）枚举对应英文 enumeration，简写为 enum（2）枚举是一组常量的集合（3）可以理解为：枚举属于一种特殊的类，里面只包含一组有限的特定的对象2.实现方式&a…

阅读更多...

高效计算的源泉：深入浅出冯诺依曼模型与操作系统的管理艺术 —— 构建稳定、高效的应用基石【底层逻辑/性能优化】

高效计算的源泉：深入浅出冯诺依曼模型与操作系统的管理艺术 —— 构建稳定、高效的应用基石【底层逻辑/性能优化】

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨个人…

阅读更多...

性能测试-jmeter9-逻辑控制器、定时器压力并发

性能测试-jmeter9-逻辑控制器、定时器压力并发

课程：B站大学记录软件测试-性能测试学习历程、掌握前端性能测试、后端性能测试、服务端性能测试的你才是一个专业的软件测试工程师性能测试-jmeter逻辑控制器、定时器妙用IF控制器**IF 控制器的作用**循环控制器循环控制器的作用ForEach控制器ForEach 控制器的作用…

阅读更多...

T：线段树入门(无区间更新）

T：线段树入门(无区间更新）

线段树.线段树介绍.线段树框架.理解线段树.图式整个过程.线段树代码逐层解析.代码汇总.leetcode练习.线段树介绍线段树(SegmentTree)\;\;\;\;\;\;\;\;线段树(SegmentTree)线段树(SegmentTree) is 用于高效处理区间查询和单点修改的数据结构，和树状数组很像&#xf…

阅读更多...

【ISP】Charlite工具实操

【ISP】Charlite工具实操

实习一周了，参与了客观拍摄和测试，复习一下nv工具 BLACK LEVEL（黑电平） eg： $ nv_ob 0 in_dir <input directory> out_name <ob file> nv_ob 0 in_dir D:\study\nvraw\ob1 out_name D:\study\nvraw\my_out…

阅读更多...

普蓝机器人 AutoTrack-IR-DR200 外设配置全指南

普蓝机器人 AutoTrack-IR-DR200 外设配置全指南

为什么外设配置对机器人研究如此重要？在当今机器人技术飞速发展的时代，高校学生研究团队正成为创新的重要力量。无论是参加机器人竞赛、开展毕业设计，还是进行学术研究，正确配置和使用外设设备都是成功的关键。尤其学生组装一个服…

阅读更多...

8、Python性能优化与代码工程化

8、Python性能优化与代码工程化

学习目标：掌握Python程序性能分析和优化的通用方法，建立工程化开发的规范意识，为后续AI项目开发奠定坚实的编程基础在数据科学和AI开发中，代码性能往往决定了项目的可行性。一个处理时间从几小时缩短到几分钟的优化，可…

阅读更多...

【算法--链表】117.填充每个节点的下一个右侧节点指针Ⅱ--通俗讲解

【算法--链表】117.填充每个节点的下一个右侧节点指针Ⅱ--通俗讲解

通俗算法讲解推荐阅读：【算法–链表】83.删除排序链表中的重复元素–通俗讲解【算法–链表】删除排序链表中的重复元素 II–通俗讲解【算法–链表】86.分割链表–通俗讲解【算法】92.翻转链表Ⅱ–通俗讲解【算法–链表】109.有序链表转换二叉搜索树–通俗讲解【算法–链…

阅读更多...

分词器（Tokenizer）总结（89）

分词器（Tokenizer）总结（89）

分词器（Tokenizer）总结分词器（Tokenizer）分词器的词表（vocabulary）长度通常短于模型嵌入层（embedding layer）的长度。结束标记（EOS token）应仅用于标记文本结尾，不可用于其他用途。填充标记（PAD token）通常未预先定义，但你仍可能需要用到它：对于生成式模型…

阅读更多...

19 webUI应用中 Controlnet精讲（05）-图像修复与编辑

19 webUI应用中 Controlnet精讲（05）-图像修复与编辑

前面的篇章已经详细讲解了线条约束、三维关系与空间深度、人体姿态等几类controlnet的功能与应用，本节内容将对通过controlnet对图像修复与编辑进行讲解。通过controlnet也可以对图片进行编辑、重绘及放大等操作，具体包括Recolor、Inpaint、Tile等&…

阅读更多...

消息推送的三种常见方式：轮询、SSE、WebSocket

消息推送的三种常见方式：轮询、SSE、WebSocket

摘要：本文介绍消息推送的三种常见方式：轮询（定时请求，易增负担）与长轮询（阻塞请求至有数据 / 超时，减少请求）、SSE（HTTP 单向实时传输，纯文本、自动重连&…

阅读更多...

论文阅读：ACL 2024 Stealthy Attack on Large Language Model based Recommendation

论文阅读：ACL 2024 Stealthy Attack on Large Language Model based Recommendation

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328 https://arxiv.org/pdf/2402.14836 https://www.doubao.com/chat/19815566713551106 文章目录速览攻击方法速览一、攻击核心目标与前提1. 核心目标2. 攻击前提二、模型无关的简单…

阅读更多...

自动驾驶中的传感器技术43——Radar（4）

自动驾驶中的传感器技术43——Radar（4）

本文对目前毫米波雷达中的天线设计进行比较全面的罗列，并进行简单的设计评述 1、实际设计案例图1 涵盖能宽窄覆盖的天线设计（无俯仰分辨率）图2 Bosch前雷达的天线设计（有俯仰的分辨率但比较弱，也涵盖了扩展覆盖&…

阅读更多...

使用反转法线材质球，实现切换天空盒相同的功能，优点：包体变小

使用反转法线材质球，实现切换天空盒相同的功能，优点：包体变小

切换天空盒第一步先把SKY 天空球资源导入到工程里， 第二步：天空球文件下的SKY预制件拖入到场景里第三步选着SKY材质球，拖入自己的全景图片(图片分辨率不能超过5000*5000，否则手机无法显示) 如果并没有效果，看看图…

阅读更多...

真正有效的数据指标体系应该长什么样？

真正有效的数据指标体系应该长什么样？

真正有效的数据指标体系应该长什么样？为什么大多数企业的指标体系都是"花架子"？真正有效的指标体系应该长什么样？从数据到洞察：让指标真正"活"起来结语在这个人人都在谈数字化转型的时代，企业就像…

阅读更多...

最新文章