2024-2025华为ICT大赛中国区实践赛昇腾AI赛道(高职组)全国总决赛理论部分真题+解析

Part 1 昇腾AI全栈系统模块(共6题)：

1、许多计算芯片可以设计作为人工智能的计算芯片，但不同的芯片计算性能不同，昇腾计算芯片是一种()芯片。(单选题)

A.CPU B.GPU C. NPU D.TPU

正确答案：C

解析：A项CPU中央处理器的架构是传统架构，在AI计算任务中不太适宜；B项GPU是图形处理器，是常见的计算卡，架构与昇腾不一样；C项NPU是神经网络处理器，是专门针对人工智能计算设计的专业芯片；D项TPU是谷歌设计的AI芯片，与题干中昇腾不一致，因此本题选C。

2、一家科技企业开发大模型应用期间，首先使用了市面上的非昇腾计算卡+PyTorch方案进行算力集群搭建与模型训练，由于业务需求，目前考虑使用昇腾计算卡+CANN+MindSpore方案进行模型训练部署，但目前企业对昇腾全栈软件架构了解并不深入，在以下企业提出的预期目标中，哪一个是无法实现的?(单选题)

A.使用CANN中的FlashAttention算子来加速计算，降低显存消耗

B.保持AI框架不变化的情况下，使用CANN去优化原来集群中计算卡，提高性能

C.使用C/C++标准开发规范去进行算子开发

D.将原有单卡模型通过torch_npu包快速迁移到Ascend卡进行推理适配

正确答案：B

解析：先看A项，昇腾的异构计算架构CANN适配了基于Ascend C的FlashAttention算子，能够加速Attention的计算，充分利用片上的缓存，提高计算性能，从而降低显存消耗，因此正确；再看B项，原来集群中是使用非昇腾计算卡，但是CANN是不支持非昇腾计算卡的，所以B项无法实现；对于C项，CANN中算子开发是使用Ascend C语言，Ascend C是CANN专门针对于算子开发场景推出的编程语言，原身就支持C/C++标准规范，从而最大化匹配用户开发习惯，所以C项也可以实现；D项同样正确，昇腾开发了Ascend Extension for PyTorch，即选项中的torch_npu包，它可以适配PyTorch框架，能够实现在PyTorch框架上的快速迁移以便于PyTorch使用人员更快使用Ascend AI处理器的强大计算能力，所以D也可以实现，因此本题选B。

3、一家小型科技公司想采用昇腾方案搭建集群平台来运行其基于某开源模型671B自主研发的大模型应用，现在正在采购对应的计算服务器。目前存在两种不同类型的服务器，服务器A型一共内置8块NPU芯片，每块芯片显存为64G。服务器B型一共内置8块NPU芯片，每块芯片显存为40G，如果该公司希望同时部署该模型的FP16实例，至少需要采购多少台A服务器?如果选择B服务器，则至少采购多少台?(单选题)

A.至少采购3台A服务器，或至少采购4台B服务器

B.至少采购2台A服务器，或至少采购3台B服务器

C.至少采购6台A服务器，或至少采购8台B服务器

D.至少采购3台A服务器，或至少采购5台B服务器

正确答案：D

解析：本题考察模型占用显存的计算。在推理部署阶段，占用最大的是模型权重的占用，对于671B的模型，如果采用FP16的精度，显存的占用是用模型参数*精度对应字节数，FP16对应2字节，所以对应671B*2(B/param)*1024^3/1024^9=1342G，至少需要1342G的显存，还有一些其他显存可暂时忽略，服务器A有8块，所以它的显存是8*64G=512G，每台服务器B的显存是8*40G=320G，所以可以得出至少需要3台A服务器，5台B服务器，因此选D。

4、迁移到昇腾服务器上的大模型在预训练过程中出现loss持续上升的情况，出现该问题后需要排查以下哪些因素?(多选题)

A.训练数据是否存在个别异常

B.混合精度配置是否合理

C.是否大量使用FP16/FP8数据类型，导致部分网络梯度计算不稳定

D.学习率设置是否合理

正确答案：BCD

解析：先看A，当训练数据存在个别异常时，可能出现暂时性loss异常，但不会出现持续性loss上升，因为个别异常对于整个预训练过程的影响是较小的；B项当混合精度配置不合适时会出现计算溢出或不足的情况，尤其是如果某些结点启用FP16，容易导致参数更新不稳定，导致loss持续上升，因此B正确；C项是因为使用FP16/FP8可能会大幅降低优化器的计算精确，优化器计算不够精确时会导致网络梯度计算不稳定，从而导致loss上升，因此正确；D项学习率会直接影响大模型在训练过程中学习步进，当学习率过高时，可能会出现loss上升，甚至是跑飞现象，因此也正确，本题选BCD。

5、在华为全栈AI体系里面，华为人工智能解决方案可以支持多种框架以及多种设备在生态内的协同计算，可以灵活搭配全栈AI体系中的成员以构建人工智能解决方案。以下解决方案中，可以成功配置运行的有哪些?(多选题)

A.大模型训练场景:MindSpore + CANN + Atlas I series servers

B.分布式训练场景: MindSpore Transformers + MindSpore + CANN + Atlas T series servers

C.Ascend迁移训练场景: Pytorch + CANN + Atlas T series servers

D.MindSpore测试场景: MindSpore + CPU

正确答案：BCD

解析：A选项中问题在于使用了Atlas I系列服务器，I这里是Inference推理的缩写，其实是适用于推理场景的，不适合用于大模型训练场景；B项中采用了Atlas T系列服务器，T即Training训练，将它作为硬件底座，是可以实现训练场景的，同时又采用CANN作为异构计算架构，采用MindSpore作为AI开发框架，然后最上层又采用MindSpore Transformers用于分布式计算，所以可以实现分布式训练场景；C项中选用PyTorch，CANN和Atlas T系列服务器，也可以实现Ascend迁移训练场景，在本模块的第2题中提到过目前有torch_npu包适配，能够快速迁移到PyTorch框架上，因此也可以成功配置；D项是关于MindSpore测试场景，用了MindSpore+CPU方案，MindSpore不仅可以运行在NPU上，也可以运行在CPU上，所以也可以实现，因此本题选BCD。

6、在昇腾全栈AI解决方案中，AI计算集群的物理区域会被分到不同的网络平面中。请问在AI计算集群中，用于读取存储区的模型文件，CKPT文件，数据文件的网络和用于服务器之间通信的网络有哪些?(多选题)

A.参数面 B.业务面 C.样本面 D.带内管理面

正确答案：AC

解析：A项参数面用于支撑服务器之间通信，是为了保证NPU卡之间的通信而搭建的网络平面；B项业务面是通过本地计算机下发命令到服务器上进行任务下发、算力调度任务的网络平面；C项样本面是用于读取存储区的模型文件、CKPT文件、数据文件及数据集的网络平面；D项带内管理面是内网内管理服务器的页面，比如硬件管理，包括服务器的上下电等等，因此本题选AC。

Part 2 模型训练与调优模块(共8题)：

1、以下对使用MindSpore定义模型训练逻辑的描述中，排序正确的是哪一项?(单选题)

1.将微分函数和优化器执行封装为train_step函数，实现单步训练逻辑

2.定义正向函数forward_fn

3.循环迭代数据集进行训练

4.使用value_and_grad获得微分函数grad_fn

5.定义超参(epoch, learning rate等)、损失函数、优化器

A.35124 B.52413 C.25143 D.12345

正确答案：B

解析：本题考点在于MindSpore在训练部分采用的函数式编程的表达范式，具体来说以函数为单位，进行的方式是：首先定义好模型正向计算函数，获取损失值，接下来通过函数变换的方式，将正向计算函数变换成微分求导函数，通过这个函数输入对应的数据和标签，最后输出梯度，后续将梯度放到优化器里实现模型参数的更新，而在梯度求导以及放入优化器的更新往往也会以函数的方式进行实现，即对应train_step，这样的函数形式其实能够与前向计算、反向传播再去参数更新的逻辑对应上。然后回到题目中，前向计算定义对应序号2 的forward_function，接下来是函数变换，对应第4个标签，再后来是正向计算反向传播，汇总成单步训练或者一步一个step训练的函数，即train_step，所以在这个模块中的排序应是241，四个选项中唯一能满足241条件的只有B项，然后再梳理下整个过程，最开始先定义训练有多少迭代、学习率、损失函数的优化器，其次依次进行2-4-1的步骤，最后实现单步计算，需要遍历训练数据集，一步完成一次遍历即进行一次迭代，通过不断喂数据不断更新，不断做迭代的方式实现模型训练的过程，因此选B。

2、小华在基于MindSpore训练一个LSTM文本情感分类模型时，训练集准确率达到95%，但验证集准确率仅为60%，且验证Loss持续上升。此时最应采取的措施是什么?(单选题)

A.增加训练轮次(Epochs) B.在模型中添加Dropout层

C.改用更大的预训练模型 D.提高学习率

正确答案：B

解析：本题为很典型的过拟合现象，即模型在训练过程中过于依赖参考于训练集特征，从而在它未见过的一些数据集上表现较差，所以在这个过程中怎么提高模型本身泛化能力或解决过拟合问题呢？A项增加训练批次会加剧过拟合；B项可以有效解决过拟合问题，Dropout其实进行随机丢弃，往往在实现过程中定义丢弃概率从而进行一定的调节；C项使用更大的预训练模型可能有几个弊端，首先预训练模型更大代表复杂度越高，所以兴许来讲过拟合现象会更加严重，再加上如果是参与更大模型，其实在微调的时候相应数据量的要求也会更大，甚至可能出现模型过大，微调或训练的数据集不足以调动它；D项为提高学习率，学习率本身是指模型在更新时迈步的大小是如何的，如果把学习率变大，相当于每次更新迈步较大，可能出现剧烈波动收敛较慢的情况，综合考虑上述各个选项本题选B。

3、某同学正在基于MindSpore实现RNN情感分类任务，在该任务中，以下哪个是整体模型结构?(单选题)

A. nn.Embedding -> nn.Dense -> nn.RNN

B. nn.Embedding -> nn.RNN -> nn.Dense

C. nn.Dense ->nn.Embedding -> nn.RNN

D. nn.Embedding -> nn.RNN

正确答案：B

解析：RNN是NLP领域非常常见的模型结构，在开始时，需要将NLP类型或文本类型数据转换为模型能够理解的方式，往往先需把文本转换为数字ID，ID会对应到它本身去表示vector的形式，也就是说最开始需要进行Embedding，通过Embedding层获取Word Embedding来输入到接下来RNN的层中，但是到后来会发现这里做的是RNN情感分类任务，判断情感色彩是怎么样的，本质上分类任务(不仅仅是在NLP领域)需要线性的层进行线性映射，通过这样方式找到最后的输出dimension能够与分类对应得上，所以综合来看，它整个的排序先是Embedding层再是RNN层，最后经过全连接层或者线性层的方式进行映射，即对应B项。

4、在金融领域的欺诈检测问题中，正样本（欺诈交易)往往远少于负样本(正常交易)。小华在基于MindSpore训练一个信用卡欺诈检测模型时，正样本（欺诈)占比不足1%，以下哪种损失函数最适合此场景?(单选题)

A. mindspore.nn.CrossEntropyLoss

B. mindspore.nn.FocalLoss

C. mindspore.nn.MSELoss

D. mindspore.nn.L1Loss

正确答案：B

解析：本题题干中负样本数量是远大于正样本的，因此出现正负样本比例不均衡情况，在此处做一个欺诈模型本质上是做一个分类任务，判断这笔交易属于正常交易(第1种类型)还是欺诈交易(第2种类型)。首先看CD项，C项是MSELoss(Mean Squared Error)，即计算预测出和真实值的均方误差，D项也称为Mean Absolute Error，是计算平均的绝对值，这两个选项更倾向于计算回归类型任务，因此均排除；然后看AB选项，CrossEntropyLoss是计算交叉熵的，可以用于分类任务，但是在这里首先有最合适的限制，其次样本数量也有一定的偏差，因此合适但不是最合适的选项，然后看B项，FocalLoss最开始的起源是为了计算在目标检测任务中one-stage的损失，后来也广泛运用到其他任务中，它可以较好地在正负样本不平衡的极端情况下进行平衡，通过配置权重来调节，因此B最合适。

5、在使用MindSpore进行CycleGAN图像风格迁移任务时，模型结构包含ConvNormReLU，其中归一化使用nn.BatchNorm2d()接口实现，以下关于该接口的作用有哪些?(多选题)

A.提高模型泛化能力

B.抑制欠拟合

C.加快模型收敛

D.缓解网络梯度消失问题

正确答案：ACD

解析：BatchNorm类似于最开始进行数据处理时归一化操作，把它变成一个比较规范的分布形式，唯一的区别是BatchNorm是放在网络层中间的，是对网络层中间的数值进行归一化，当然在面对不同的任务或领域时，去做归一化的维度不同，会引发出不同的Norm，比如BatchNorm,LayerNorm等等。其实在这里归一化解决的问题是，尤其在网络层数较多的情况下，在进行权重更新时很可能出现较底的网络层有些微小变动，在通过传递过程中导致上层网络变动较大，因而每次在底层调一点点时上面就会引起很大的波动，从而导致网络收敛较慢，而通过在中间添加BatchNorm2d的方式，一个是可以稳定下来保证收敛加快，同时可以有效解决不断进行反向传播时出现的梯度消失问题，也就是不断乘的数值比较小导致最后梯度无限趋近于0的问题，除此之外它也能有效提高模型本身的泛化能力，而在这里抑制欠拟合是做不到的，它更多是可以抑制过拟合，因此本题选ACD。

6、某同学在使用MindSpore完成某个分类的任务，目前进展如下:

1.完成文本数据预处理

2.继承nn.Cell，完成单层线性神经网络Network构建，模型参数为w, b，并将网络时实例化model=Network()

3.完成前向计算函数forward_fn的定义，该函数返回损失值loss与模型前向计算结果logits

接下来他计划使用value_and_grad实现函数变换，获取梯度计算函数

以下对value_and_grad(fn,grad_position,weights,has_aux,return_ids)中的参数描述正确的是哪几项?(多选题)

A. fn:待求导的函数，即forward_fn

B. grad_position为求导输入位置的索引。要对w, b求导，grad_position可设置为(0，1)

C.可将weights配置为model.trainable_params()，对网络变量进行求导

D.has_aux:是否返回辅助参数，可设为True

正确答案：ACD

解析：首先在这里可以看到它已经事先把数据预处理、网络构建等过程做到了，在形参中分为几项，其中第一项是fn，对应需要输入或需要被变换的函数，往往是正向计算的函数，即forward_fn，因此A正确；BC项主要定位到底基于哪些参数求导，但是定义方式分为两种，第一种情况是定义grad_position，也就是如果在forward_fn正向计算函数中的输入里包含基于求导的参数，那么就可以通过grad_func找到该参数在输入形参的位置去进行定义或指定，而weights一般面向的情况是指，如果在被求导或被变换的函数中它的形参中并没有涉及到我们的参数，那么就可以通过输入到一个对应列表中表示需要求导的参数有哪些，通过这样的方式进行定义。在本题中可看到最开始是继承nn.Cell构建出了一个网络，所以在实际上进行forward_fn的定义(正向计算)时，其实在形参里没有w(weight)或b(bias)这样的参数输入，所以grad_position是无法做到定义或指定的作用，因此在这个情况中B错误，一般来说grad_position和weights是二选一方式，如果用到weights，grad_position一般就是none，反之，weights就是none，所以C正确；最后看D项，一般默认进行函数变换时，返回是梯度，如果除了梯度还想返回loss或其他值，则可以将has_aux设为true，一并返回其他数值，综上所述，本题选ACD。

7、某同学在基于MindSpore训练深度神经网络时，采用SGD优化器，学习率设置为0.1，发现训练初期损失值剧烈波动，且模型难以收敛。以下哪些方法可能是有效的优化策略?(多选题)

A.使用Adam优化器替代SGD

B.增加批量归一化(BatchNorm)层

C.将学习率从0.1调整为0.01

D.禁用所有Dropout层

正确答案：ABC

解析：本题中的问题主要分为剧烈波动和难以收敛两点，原本使用SGD优化器，A项通过Adam优化器进行替代，从而Adam可以自动调节，因此A是有效方式；B项增加批量归一化的BatchNorm层也可以同样将收敛的速度提升，因此也正确；C项学习率的调整相当于是将步长从大迈到小，也是有效的解决方式，可以理解成在模型优化时有点像登山，需要找到山上最高点，步子迈得过大可能出现迈过的情况，所以会在global maximum的情况下反复横跳直到最后找到希望找到的最大值global maximum，因此在这样的情况下，将步子迈小就可以稳步攀升，直到找到最高点；D项禁用Dropout层可能加剧过拟合问题，因此不建议，综上本题选ABC。

8、训练目标检测模型时，发现模型对小尺度目标检测效果差。以下哪些数据增强方法可能提升小目标检测性能?(多选题)

A.随机裁剪(Random Crop)

B.多尺度训练(输入图像随机缩放)

C.水平翻转(Horizontal Flip)

D.调整图像对比度

E.高斯模糊

正确答案：AB

解析：A项随机裁剪可以迫使模型关注局部区域的小目标；B项多尺度训练可以增强模型对于不同尺寸目标的适应能力，也可以提升小尺寸目标的检测性能；C项水平翻转指图像按照垂直轴进行水平翻转，即图像左右部分互换，可以增加数据多样性，提升模型泛化能力；D项调整图像对比度是指改变图像的亮区和暗区的差异，增加或减弱图像对比度，可以模拟不同光照条件下图像，也可以增加数据多样性，提升模型泛化能力；E项高斯模糊通过高斯滤波减少图像中噪声或细节来模糊图像，可以模糊图像前景或背景来模拟不同景深效果，E项和CD项效果一样，都是增加数据多样性，提升模型鲁棒性和泛化能力，因此本题可能提升小目标检测性能的方法应选AB。

Part 3 模型推理与应用模块(共6题)：

1、在移动设备上部署深度学习模型时，由于手机的存储资源相对有限，常常会遇到存储空间有限的问题。现在小华需要在手机端部署图像分类模型，但模型大小超出存储限制。以下哪种方法可以减少模型体积同时保证精度损失较小?(单选题)

A.将模型从FP16转换为INT8量化

B.删除最后两个全连接层

C.使用动态批处理(Dynamic Batching)

D.对输入图像进行下采样

正确答案：A

解析：A项是将模型从浮点域转化为整型域的模型压缩技术，可以将模型体积减少至1/2，可以减少计算量，降低模型计算带宽和内存占用，而且现代化量化技术可以保持较高的精度；B项可能破坏模型结构导致性能崩溃；C项动态批处理是根据输入数据的实时需求动态调整批量大小，提升计算效率和增加吞吐量，优化计算速度，与题干中减少模型体积和保证精度损失较小无关；D项下采样可以增加图像感受野，提取图像更抽象的高层次特征，可能显著降低输入的信息量，也有可能显著降低检测精度，因此本题选A。

2、某同学正在使用MindSpore进行模型推理任务，在此之前需要加载模型权重，在运行mindspore.load_param_into_net后发现返回的列表不为空，以下哪一项对该情况描述正确?(单选题)

A. load_param_into_net会返回未被加载的参数列表，如返回值不为空，说明有参数未加载成功

B. load_param_into_net会返回加载后的模型结构，返回值不为空是正常现象

C. load_param_into_net会返回权重文件中被加载的参数，如果返回值为空，说明缺失load_checkpoint步骤

D.如果返回值不为空，说明load_param_into_net入参数据类型有误，需做检查

正确答案：A

解析：在本题的加载权重处，可看到已经给出运行时调用的是load_param_into_net接口，正常是其实有两步，第一步通过load_ checkpoint将之前存好的权重文件变成K-V类似于字典的形式，然后将字典通过load_param_into_net将权重加载到模型之中，在此处其实也是一个通过返回值检查模型实现是否正确的方式，一般而言load_param_into_net返回内容中会包含未成功加载模型权重的参数有哪些，所以正常来看，如果加载成功返回的值是空值，但如果出现返回值不为空的情况，那么可以根据返回内容定位具体哪一层哪一个模型参数权重没有加载成功，通过这样方式进行进一步检查、定位和修正。因此看四个选项，A项正确；B项返回加载的模型权重一般而言可以直接通过print model将模型结构打印出来，它返回内容也是错误的；然后C项返回权重文件中被加载的参数也是不正确的，应通过get params的方式获取模型中所有参数信息；最后D项返回值不为空也不是参数类型的方式，是未加载参数到底有哪些，因此本题选A。

3、在自然语言处理领域，自回归模型(如GPT系列)因其强大的文本生成能力而备受关注。在实际应用中，人们观察到在自回归模型(如GPT)推理时，生成第N个token的速度比第1个token快。此现象主要因为以下哪种技术?(单选题)

A.模型并行计算

B.注意力层的KV缓存复用

C.动态量化

D.梯度检查点(Gradient Checkpointing)

正确答案：B

解析：A项模型并行计算用来加速模型整体运行速度，并不是针对特定步骤加速，并不会导致生成第N个token的速度比第1个token快；B项KV缓存是为了避免重复计算历史token的Key和Value值，需要的时候直接复用，所以可以显著加速后续token的生成；C项动态量化是根据输入的数据动态计算量化参数减少内存占用和计算复杂度，是为了在模型训练或推理时减少计算资源需求，并不会直接导致生成第N个token速度比第1个token快；D项梯度检查点是在模型训练的时候减少对内存占用需求，主要在模型训练前向传播时选择某些层作为检查点保存其输出，其余层则不保存，在反向传播时重新计算未被存储的检查点，然后再去计算梯度，通过牺牲部分计算时间减少内存的占用，这个是在训练时的，与题目中推理时生成速度没有直接影响，因此本题选B。

4、某同学正在通过MindSpore构建一个猫狗分类的模型，并计划利用MindSpore Lite框架将模型部署在手机上，目前已经完成了模型的训练，以下对接下来步骤操作描述正确的是哪几项?(多选题)

A.首先，导出MindIR模型

B.其次，在端侧部署时，需要使用转换工具将MindIR转换为AIR

C.然后，在手机端构建好可以调用模型文件的APP后，通过USB连接传输、邮件传输、第三方软件传输等形式，将模型传输至手机

D.最后，将模型文件移动至指定路径下

正确答案：ACD

解析：本题考察模型端侧部署的流程。题目中已经完成了模型的训练，接下来首先应导出模型，将模型通过export方式导出作为MindIR格式文件，其实它是一个MindSpore Intermediate Representation中间表达的简称，MindSpore会提供一个全场景统一的MindIR表达从而将其应用到端边缘的多种场景中，所以A正确；但是在后来是没有必要将MindIR转换为AIR的，AIR是Ascend Intermediate Representation，是针对昇腾处理器的模型，在此处是不涉及的，我们是在手机上进行部署；后面是将手机构建好模型文件的app，可以通过包括USB连接传输、邮件、第三方软件的多种方式将模型MindIR传输到手机上；最后需要将模型移动到指定路径下激活能力，因此本题选ACD。

5、将浮点模型转换为8位整型模型后，推理速度提升但准确率下降3%。以下哪些操作可以减少精度损失?(多选题)

A.对权重做对称量化

B.在量化前对模型进行微调(Fine-tuning)

C.仅对部分敏感层保留浮点计算

D.增大校准数据集规模

正确答案：BCD

解析：A项对称量化的模型量化核心特点就是对称性，即正负范围对称，但如果数据分布不对称，就会导致精度下降；B项量化前的微调会适应量化误差，从而减少精度损失；C项是利用混合精度计算保留关键层的精度，可以减少精度损失；D项校准数据集是调整和优化模型参数的专用数据集，它可以评估量化前后模型的性能变化，也可以通过校准数据集的调整模型减少量化带来的精度损失，因此本题选BCD。

6、在计算机视觉应用中，实时目标检测是一项关键任务，特别是在监控系统、自动驾驶汽车和智能安防等领域。为了实现高效的实时处理，需要确保目标检测算法能够在限定的时间内完成每一帧图像的处理。现在，有研究者需对实时视频流（30帧/秒)进行目标检测，当前单帧推理耗时50ms。以下哪些方法可满足实时性需求?(多选题)

A.降低输入图像分辨率

B.使用多线程并行处理帧

C.采用更复杂的后处理算法

D.跳过相邻帧间的重复推理

正确答案：ABD

解析：本题要求对实时视频流的单帧处理速度大约是30ms，但是当前单帧推理耗时50ms，即推理速度较慢，A项分辨率意味着图像中像素的数量，分辨率越高即像素数量越多，那么模型需要处理的数据量越大，降低图像的分辨率可以使模型需处理的数据量少一些，可以加速推理速度；B项是多线程利用计算资源，从而并行处理，也是可以的；C项采用更复杂的后处理算法可能增加计算量和计算复杂度，从而增加延迟，降低推理速度；D项是可以的，比如每隔一帧推理，帧间冗余推理可以跳过从而加速推理速度，因此本题选ABD。