PyTorch张量操作中dim参数的核心原理与应用技巧:

今天在搭建神经网络模型中重写forward函数时,对输出结果在最后一个维度上应用 Softmax 函数,将输出转化为概率分布。但对于dim的概念不是很熟悉,经过查阅后整理了一下内容。

PyTorch张量操作精解:深入理解dim参数的维度规则与实践应用

在PyTorch中,张量(Tensor)的维度操作是深度学习模型实现的基础。dim参数作为高频出现的核心概念,其取值逻辑直接影响张量运算的结果。本文将从​​维度索引与张量阶数的本质区别​​出发,系统解析dim在不同场景下的行为规则,并通过代码示例展示其实际应用。

一、核心概念:dim的本质是维度索引而非张量阶数

1.1 维度索引 vs. 张量阶数

  • ​维度索引(Dimension Index)​
    指定操作沿哪个轴执行。索引范围从0(最外层)到ndim-1(最内层)。

    例:二维张量中,dim=0表示行方向(垂直),dim=1表示列方向(水平)。
  • ​张量阶数(Tensor Order)​
    描述张量自身的维度数量,如标量(0阶)、向量(1阶)、矩阵(2阶)。

    ​关键区别​​:dim=0不表示“一维张量”,而是“操作沿最外层轴进行”。

1.2 负索引的映射规则

负索引dim=-k等价于​dim = ndim - k​,其中ndim是总维度数

x = torch.rand(2, 3, 4)  # ndim=3
x.sum(dim=-1)            # 等价于 dim=2(最内层维度)

二、不同维度张量的dim取值规则

2.1 一维张量(向量)

仅含单一维度,索引只能是0-1(二者等价)

v = torch.tensor([1, 2, 3])
v.sum(dim=0)   # 输出:tensor(6)
v.sum(dim=-1)  # 同上

2.2 二维张量(矩阵)

支持两个维度索引,正负索引对应关系如下:

操作方向正索引负索引
行方向(垂直)dim=0dim=-2
列方向(水平)dim=1dim=-1

​代码验证​​:

m = torch.tensor([[1, 2], [3, 4]])
m.sum(dim=0)    # 沿行求和 → tensor([4, 6])
m.sum(dim=-1)   # 沿列求和 → tensor([3, 7])[6](@ref)

2.3 高维张量(如三维立方体)

索引范围扩展为0ndim-1-ndim-1

cube = torch.arange(24).reshape(2, 3, 4)
cube.sum(dim=1)     # 沿第二个维度压缩
cube.sum(dim=-2)    # 同上[3,6](@ref)

三、常见操作中dim的行为解析

3.1 归约操作(Reduction)

sum()mean()max()等函数通过dim指定压缩方向:

# 三维张量沿不同轴求和
cube.sum(dim=0)  # 形状变为(3,4)
cube.sum(dim=1)  # 形状变为(2,4)[6](@ref)

​保持维度​​:使用keepdim=True避免降维(适用于广播场景)

cube.sum(dim=1, keepdim=True)  # 形状(2,1,4)

3.2 连接与分割

  • ​拼接(torch.cat)​​:dim指定拼接方向
    x = torch.tensor([[1, 2], [3, 4]])
    y = torch.tensor([[5, 6]])
    torch.cat((x, y), dim=0)  # 行方向拼接(新增行)[7](@ref)
  • ​切分(torch.split)​​:dim指定切分轴向
    x = torch.arange(10).reshape(5, 2)
    x.split([2, 3], dim=0)  # 分割为2行和3行两部分[7](@ref)

3.3 高级索引操作

  • torch.index_select​:按索引选取数据
    t = torch.tensor([[1, 2], [3, 4], [5, 6]])
    indices = torch.tensor([0, 2])
    t.index_select(dim=0, index=indices)  # 选取第0行和第2行[3,7](@ref)
  • torch.gather​:根据索引矩阵收集数据
    # 沿dim=1收集指定索引值
    torch.gather(t, dim=1, index=torch.tensor([[0], [1]]))[5,7](@ref)

四、实际应用场景与避坑指南

4.1 经典场景

  • ​图像处理​​:转换通道顺序(NHWC → NCHW)
    images = images.permute(0, 3, 1, 2)  # dim重排[6,8](@ref)
  • ​注意力机制​​:沿特征维度计算Softmax
    attention_scores = torch.softmax(scores, dim=-1)  # 最内层维度[6](@ref)
  • ​损失函数​​:交叉熵沿类别维度计算
    loss = F.cross_entropy(output, target, dim=1)  # 类别所在维度[6](@ref)

4.2 常见错误与调试

  1. ​维度不匹配​
    x = torch.rand(3, 4)
    y = torch.rand(3, 5)
    torch.cat([x, y], dim=1)  # 正确(列数相同)
    torch.cat([x, y], dim=0)  # 报错(行数不同)[6](@ref)
  2. ​越界索引​​:对二维张量使用dim=2会触发IndexError。
  3. ​视图操作陷阱​​:view()reshape()需元素总数一致。

五、总结:dim参数核心规则表

​规则描述​​示例(二维张量)​​高维扩展​
dim=k 操作第k个维度dim=0操作行dim=2操作第三轴
dim=-k 映射为ndim-kdim=-1等价于dim=1(列)dim=-1始终为最内层
一维张量仅支持dim=0/-1v.sum(dim=0)有效不适用
负索引自动转换m.mean(dim=-2)操作行cube.max(dim=-3)操作首轴

💡 ​​高效实践口诀​​:

  1. ​看形状​​:x.shape确定总维数ndim
  2. ​定方向​​:根据操作目标选择dim(正负索引等效)
  3. ​验维度​​:操作后维度数减1(除非keepdim=True

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day 31

1. 规范的文件命名 核心原则: 清晰明确:文件名应准确描述内容(如data_preprocessing.py) 风格统一: 推荐小写下划线(Python惯例,如model_training.py) 或使用驼峰式&#xff08…

学习Oracle------认识VARCHAR2

学习Oracle------认识VARCHAR2 VARCHAR2 是 Oracle 数据库中专门用于存储可变长度字符串的数据类型,它是 Oracle 对标准 SQL 数据类型 VARCHAR 的增强和替代。以下是全面解析: 核心概念 名字含义: VAR Variable(可变&#xff09…

记录jackson解析出错

Jackson 属性名大小写 Bug 记录 问题描述 在前后端交互过程中,前端传递的 JSON 字段名为驼峰风格(如 qTitle),后端 Java 实体类字段名也为驼峰(如 private String qTitle;)。 但在反序列化时,…

泰国数码电商系统定制|3C产品详情泰语化+售后管理,适配泰国数码零售

随着全球数字化的加速,电商行业正在迅速发展,尤其是以泰国为代表的东南亚市场。泰国不仅是一个拥有庞大消费者群体的市场,而且其日益增长的互联网使用率和手机普及率使得数码产品的销售潜力巨大。在这样的大背景下,针对泰国市场的…

59、定制化原理-SpringBoot定制化组件的几种方式

59、定制化原理-SpringBoot定制化组件的几种方式 在Spring Boot中,定制化组件的方式多样,以下是几种常见的方法及其原理: #### 修改配置文件 通过修改application.properties或application.yml文件,利用ConfigurationProperties注…

机器学习--分类

阳性(Positive)和阴性(Negative) 阳性(Positive) 正类:通常指的是我们关注的类别或事件;阴性(Negative) 负类: 指的是与阳性相反的类别或事件。…

三星MZQL2960HCJR-00BAL高性能固态硬盘控制器SSD云计算和高端存储专用 电子元器件解析

MZQL2960HCJR-00BAL 电子元器件解析 1. 基本类型与功能 MZQL2960HCJR-00BAL 是 三星(Samsung) 推出的一款 企业级NVMe SSD主控芯片,属于 高性能固态硬盘控制器,专为 数据中心、云计算和高端存储 设计。 关键特性: 接…

Blender——建构、粒子、灯光、动画

Blender是一款开源的三维建模和动画软件,可用于创建3D模型、动画、渲染图像和视频,还支持雕刻、纹理绘制、粒子系统等功能。 建构篇: 基本操作: 视角的控制: 控制观察视角: 鼠标中键 平移视图: Shift鼠标中键 缩放视…

节日快乐啊

<section data-role"paragraph" class"_135editor"> <p> <br/> </p> </section> <p> 玛哈特2025中国国际金属成形展览会邀请函 </p><style>* { margin: 0; …

PHP和Node.js哪个更爽?

先说结论&#xff0c;rust完胜。 php&#xff1a;laravel&#xff0c;swoole&#xff0c;webman&#xff0c;最开始在苏宁的时候写了几年php&#xff0c;当时觉得php真的是世界上最好的语言&#xff0c;因为当初活在舒适圈里&#xff0c;不愿意跳出来&#xff0c;就好比当初活在…

LeetCode - 387. 字符串中的第一个唯一字符

题目 387. 字符串中的第一个唯一字符 - 力扣&#xff08;LeetCode&#xff09; 思路 用哈希表统计每个字符出现的次数 创建一个 unordered_map<char, int>&#xff0c;遍历字符串&#xff0c;把每个字符出现的次数存进去。 再遍历字符串&#xff0c;找到第一个只出现…

python从环境变量和配置文件中获取配置参数

前言 从环境变量和配置文件中获取配置参数&#xff0c;相关库&#xff1a; python-dotenv&#xff1a;第三方库&#xff0c;需要使用pip安装configparser&#xff1a;标准库 代码 test.ini [mysql] host "192.168.0.10" port 3306 user "root" pas…

HarmonyOS5 运动健康app(一):健康饮食(附代码)

一、核心数据模型设计 代码通过两个接口构建了饮食管理的基础数据结构&#xff1a; interface footItem {name: string; // 营养名称&#xff08;蛋白质/碳水/脂肪&#xff09;weight: number; // 重量&#xff08;克&#xff09; }interface DietItem {name: string; // 食物…

MQ选型及RocketMQ架构总览

一、什么是MQ MQ&#xff08;MessageQueue&#xff09; Message(消息)&#xff1a;消息是在不同进程之间传递的数据&#xff0c;这些进程可以在同一台机器上&#xff0c;也可以在不同的机器上。 Queue&#xff08;队列&#xff09;&#xff1a;队列原意是指一种具有FIFO&#…

python与java的区别

java老程序员来学习python了&#xff0c;记录一下两种类型语言的区别&#xff1a; Python与Java变量类型对比 python里面定义变量不需要指定变量的数据类型&#xff0c;并且是可以修改成其他类型java里面定义变量要指定变量的数据类型&#xff0c;指定以后不可以修改成其他数据…

固件签名技术深度解析:HSM模块如何守护设备安全,CAS系统如何赋能产业升级

引言&#xff1a;数字时代的固件安全危机 在万物互联的今天&#xff0c;全球设备固件安全事件频发&#xff1a;某汽车品牌因固件漏洞导致百万车辆被远程控制&#xff0c;某医疗设备厂商因固件篡改引发数据泄露&#xff0c;某工业控制系统因非法固件升级造成生产线瘫痪……这些…

修改Typora快捷键

代码 的默认快捷键为&#xff1a; 这对我来说不太友好&#xff0c;太难按了&#xff0c;而且我电脑右边的Ctrl键坏了&#xff0c;这意味着我只能一个左手去按这3个键的组合&#xff0c;这更是难上加难了&#xff0c;于是想到改一下快捷键&#xff0c;代码块 是Ctrl Shift K&…

Bellman-Ford算法(详解版)

Bellman-Ford算法 Bellman-Ford算法是用来解决,对于有负权的图的**单源最短路径**.因为DJ算法不可以解决对于负权的图,所以使用这个算法来求解.但是依旧不可以有负回路.因为负回路就没有存在单源最短路径这一说. BF的另一个重要的用途就是用来检测**是不是存在负回路** 思路…

《HarmonyOSNext的ForEach数组渲染の核心玩法与避坑指南》

《HarmonyOSNext教学宝典&#xff1a;ForEach数组渲染全攻略与性能优化》 #HarmonyOS开发 #ArkTS实战 #组件解析 &#x1f3af; ForEach组件完全指南&#xff1a;数组循环渲染核心机制 举个栗子&#x1f330;&#xff1a; ForEach相当于智能印刷机&#xff0c;将数组元素自动转…

单片机 - STM32F407 ADC 模式详解:单次转换、连续转换、扫描模式、非扫描模式

STM32F407 ADC 模式详解&#xff1a;单次转换、连续转换、扫描模式、非扫描模式 前言 在 STM32F407 中&#xff0c;ADC&#xff08;模数转换器&#xff09;模块常用于采集模拟信号&#xff0c;比如读取光敏电阻、电压、电流、温度传感器等。STM32 的 ADC 模式较多&#xff0c…