用于前列腺活检分级的分层视觉 Transformer:迈向弥合泛化差距|文献速递-医学影像算法文献分享

Title

题目

Hierarchical Vision Transformers for prostate biopsy grading: Towardsbridging the generalization gap

用于前列腺活检分级的分层视觉 Transformer:迈向弥合泛化差距

01

文献速递介绍

前列腺癌是全球男性中第二常见的确诊癌症,也是第五大致命癌症。病理学家对前列腺活检样本进行分级,在确定前列腺癌的侵袭性方面起着关键作用,进而指导从主动监测到手术等一系列干预措施。随着前列腺癌患者数量不断增加,病理学家的工作压力日益增大,因此迫切需要借助计算方法辅助日常工作流程。 组织切片的数字化使得大规模数据集的可获得性不断提高,这为计算机视觉研究创造了机会,有助于通过深度学习算法为病理学家提供支持和辅助。深度学习彻底改变了计算机视觉的多个领域,在图像分类、目标检测和语义分割等任务中取得了前所未有的成功。十年前,卷积神经网络(CNNs)取得了重大进展(Krizhevsky 等人,2012),而近年来,诸如视觉Transformer(ViT)(Dosovitskiy 等人,2021)等基于注意力机制的模型进一步突破了性能极限。 然而,由于全切片图像(WSIs)尺寸极大,超出了传统深度学习硬件的内存容量,计算病理学面临着一系列独特的挑战。因此,人们提出了创新策略来克服这一内存瓶颈。一种主流方法是将这些庞大的图像分割成更小的补丁。这些补丁通常作为输入单元,其标签来自像素级注释(Ehteshami Bejnordi 等人,2017;Coudray 等人,2018)。但获取像素级注释既耗时又不切实际,尤其是在前列腺癌分级等复杂任务中,病理学家只能对他们能识别的部分进行注释。因此,近年来的研究探索了超越全监督的技术,重点关注更灵活的训练范式,如弱监督学习。 弱监督学习利用粗粒度(图像级)信息自动推断细粒度(补丁级)细节。多实例学习(MIL)近年来在多项计算病理学挑战中成为一种强大的弱监督方法,并展现出卓越的性能(Hou 等人,2015;Campanella 等人,2019)。通过仅使用切片级标签就能对全切片图像进行分析,它避开了对像素级注释的需求,为风险预测和基因突变检测等任务提供了便利(Schmauch 等人,2020;Garberis 等人,2022)。 尽管多实例学习取得了成功,但大多数多实例学习方法忽略了补丁之间的空间关系,从而错失了有价值的上下文信息。为解决这一局限,研究重点转向开发能够整合更广泛上下文的方法(Lerousseau 等人,2021;Pinckaers 等人,2021;Shao 等人,2021)。其中,分层视觉Transformer(H-ViTs)已成为一种很有前景的解决方案,在癌症亚型分类和生存预测方面取得了最先进的成果(Chen 等人,2022)。 基于这些考虑,我们在前列腺癌分级背景下对分层视觉Transformer进行了全面分析。我们的工作在该领域取得了多项关键进展,具体如下: 1. 我们发现,当在与训练数据来自同一中心的病例上进行测试时,分层视觉Transformer与最先进的前列腺癌分级算法性能相当,同时在更多样化的临床场景中表现出更强的泛化能力。 2. 我们证明了针对前列腺的特异性预训练相比更通用的多器官预训练具有优势。 3. 我们系统地比较了两种分层视觉Transformer变体,并就每种变体更适用的场景提供了具体指导。 4. 我们对序数分类的损失函数选择进行了深入分析,表明将前列腺癌分级视为回归任务具有优越性。 5. 我们通过引入一种创新方法来整合分层Transformer中的注意力分数(平衡与任务无关和与任务相关的贡献),增强了模型的可解释性。

Abatract

摘要

Practical deployment of Vision Transformers in computational pathology has largely been constrained by thesheer size of whole-slide images. Transformers faced a similar limitation when applied to long documents, andHierarchical Transformers were introduced to circumvent it. This work explores the capabilities of HierarchicalVision Transformers for prostate cancer grading in WSIs and presents a novel technique to combine attentionscores smartly across hierarchical transformers. Our best-performing model matches state-of-the-art algorithmswith a 0.916 quadratic kappa on the Prostate cANcer graDe Assessment (PANDA) test set. It exhibits superiorgeneralization capacities when evaluated in more diverse clinical settings, achieving a quadratic kappa of0.877, outperforming existing solutions. These results demonstrate our approach’s robustness and practicaapplicability, paving the way for its broader adoption in computational pathology and possibly other medicalimaging tasks.

在计算病理学中,视觉Transformer(Vision Transformers)的实际部署在很大程度上受到全切片图像(whole-slide images)庞大尺寸的限制。Transformer在处理长文档时也面临类似的局限,而分层Transformer(Hierarchical Transformers)的引入正是为了规避这一问题。   本研究探索了分层视觉Transformer(Hierarchical Vision Transformers)在全切片图像(WSIs)前列腺癌分级中的性能,并提出了一种跨分层Transformer智能融合注意力分数的新技术。我们性能最佳的模型在前列腺癌分级评估(PANDA)测试集上达到了0.916的加权kappa系数,与最先进算法持平。在更多样化的临床场景中评估时,该模型展现出更优的泛化能力,加权kappa系数达0.877,优于现有解决方案。这些结果证明了我们方法的稳健性和实际适用性,为其在计算病理学及其他医学影像任务中的更广泛应用奠定了基础。

Background

背景

Method

方法

3.1. Hierarchical vision transformer

The inherent hierarchical structure within whole-slide images spansacross various scales, from tiny cell-centric regions – (16,16) pixels at0.50 microns per pixels (mpp) – containing fine-grained information, allthe way up to the entire slide, which exhibits the overall intra-tumoralheterogeneity of the tissue microenvironment. Along this spectrum,(256,256) patches depict cell-to-cell interactions, while larger regions– (1024,1024) to (4096,4096) pixels – capture macro-scale interactionsbetween clusters of cells.

3.1. 分层视觉Transformer   全切片图像中固有的层级结构跨越多种尺度:从小型细胞中心区域——即0.50微米/像素(mpp)分辨率下的(16,16)像素区域,包含细粒度信息;到整个切片,呈现肿瘤内组织微环境的整体异质性。在这一尺度范围内,(256,256)像素的补丁可描述细胞间的相互作用,而更大的区域——(1024,1024)至(4096,4096)像素——则能捕捉细胞集群间的宏观相互作用。

Conclusion

结论

In summary, our study demonstrates the transformative potential ofHierarchical Vision Transformers in predicting prostate cancer gradesfrom biopsies. By leveraging the inherent hierarchical structure ofWSIs, H-ViTs efficiently capture context-aware representations, addressing several shortcomings of conventional patch-based methods.Our findings set new benchmarks in prostate cancer grading. Ourmodel outperforms existing solutions when tested on a dataset thatuniquely represents the full diversity of cases seen in clinical practice,effectively narrowing the generalization gap in prostate biopsy grading.This work provides new insights that deepen our understanding of themechanisms underlying H-ViTs’ effectiveness. Our results showcase therobustness and adaptability of this method in a new setting, pavingthe way for its broader adoption in computational pathology andpotentially other medical imaging tasks.

总之,本研究证实了分层视觉Transformer(Hierarchical Vision Transformers)在通过活检样本预测前列腺癌分级方面的变革性潜力。借助全切片图像(WSIs)固有的层级结构,H-ViTs能够高效捕捉具备上下文感知的表征,从而解决了传统基于补丁的方法存在的诸多缺陷。 我们的研究结果为前列腺癌分级设立了新的基准。在测试数据集(该数据集独特地涵盖了临床实践中所见的各种病例)上,我们的模型性能优于现有解决方案,有效缩小了前列腺活检分级中的泛化差距。 这项工作提供了新的见解,加深了我们对H-ViTs有效性背后机制的理解。研究结果展示了该方法在新场景中的稳健性和适应性,为其在计算病理学及可能的其他医学影像任务中的更广泛应用铺平了道路。

Results

结果

6.1. Self-supervised pretraining

Pretraining the patch-level Transformer for 50 epochs took 3 dayson 4 GeForce RTX 3080 Ti. Fig. 4 shows the area under the curve(AUC) for teacher and student networks on the downstream patch-levelclassification dataset over pretraining epochs. Results are averagedacross the 5 cross validation folds. Early stopping was not triggeredfor any of the 5 folds. Pretraining the region-level Transformer on(4096, 4096) regions on 1 GeForce RTX 3080 Ti. More details aboutcomputational characteristics can be found in Appendix J.Classification results with CE loss are summarized in Table 2 (GlobalH-ViT) and Table 3 (Local H-ViT). Additional results for other lossfunctions can be found in Appendix A (Global H-ViT) and AppendixB (Local H-ViT). Overall, across all region sizes, models pretrainedon the PANDA dataset consistently achieve higher macro-averagedperformance than those pretrained on TCGA. Performance gains aremore significant for Global H-ViT (+68% on average) than for LocalH-ViT (+14% on average). This roots back to a common limitationof patch-based MIL: the disconnection between feature extraction andfeature aggregation. There is no guarantee the features extracted during pretraining are relevant for the downstream classification task.Allowing gradients to flow through the region-level Transformer partlyovercomes this limitation: Local H-ViT has more amplitude than GlobalH-ViT to refine the TCGA-pretrained features so that they better fit theclassification task at hand.

6.1. 自监督预训练   在4块GeForce RTX 3080 Ti显卡上,对补丁级Transformer进行50个 epoch的预训练耗时3天。图4展示了在预训练过程中,教师网络和学生网络在下游补丁级分类数据集上的曲线下面积(AUC)变化。结果为5折交叉验证的平均值,早期停止机制在5个折中均未触发。在1块GeForce RTX 3080 Ti显卡上对(4096, 4096)区域的区域级Transformer进行预训练的计算特性详情见附录J。   采用交叉熵(CE)损失的分类结果汇总于表2(Global H-ViT)和表3(Local H-ViT)。其他损失函数的补充结果见附录A(Global H-ViT)和附录B(Local H-ViT)。总体而言,在所有区域大小下,基于PANDA数据集预训练的模型在宏观平均性能上均优于基于TCGA数据集预训练的模型。Global H-ViT的性能提升更为显著(平均+68%),而Local H-ViT的提升相对温和(平均+14%)。这源于基于补丁的多实例学习(MIL)的一个常见局限:特征提取与特征聚合之间的脱节——无法保证预训练阶段提取的特征与下游分类任务相关。   允许梯度通过区域级Transformer传播可部分克服这一局限:与Global H-ViT相比,Local H-ViT拥有更大的调整空间,能够优化TCGA预训练特征,使其更适配当前的分类任务。

Figure

图片

Fig. 1. Overview of our Hierarchical Vision Transformer for whole-slide image analysis. The model processes whole-slide images at multiple scales. Slides are unrolled into nonoverlapping 2048 × 2048 regions, which are further divided into 256 × 256 patches following a regular grid. First, a pretrained ViT-S/16 (referred to as the patch-level Transformer)embeds these patches into feature vectors. These patch-level features are then input to a second Transformer (referred to as the region-level Transformer), which aggregates theminto region-level embeddings. Finally, a third Transformer (referred to as the slide-level Transformer) pools the region-level embeddings into a slide-level representation, which isprojected to class logits for downstream task prediction. We experiment with two model variants: in Global H-ViT, both the patch-level and region-level Transformers are pretrainedand frozen, with only the slide-level Transformer undergoing weakly-supervised training; in Local H-ViT, only the patch-level Transformer is frozen, while both the region-leveland slide-level Transformers are trained using weak supervision

图1. 用于全切片图像分析的分层视觉Transformer概述   该模型以多尺度处理全切片图像:首先将切片展开为不重叠的2048×2048区域,这些区域再按规则网格进一步划分为256×256的补丁。第一步,预训练的ViT-S/16(称为补丁级Transformer)将这些补丁嵌入为特征向量;随后,这些补丁级特征被输入到第二个Transformer(称为区域级Transformer),聚合为区域级嵌入;最后,第三个Transformer(称为切片级Transformer)将区域级嵌入聚合为切片级表征,并映射为类别对数概率以用于下游任务预测。   我们对两种模型变体进行了实验:   - 在Global H-ViT中,补丁级和区域级Transformer均经过预训练并固定参数,仅切片级Transformer进行弱监督训练;   - 在Local H-ViT中,仅补丁级Transformer固定参数,区域级和切片级Transformer均通过弱监督进行训练。

图片

Fig. 2. Visualization of region extraction at 0.50 mpp for varying region sizes: (a)(4096, 4096) regions, (b) (2048, 2048) regions and (c) (1024, 1024) regions.

图 2. 0.50 微米 / 像素分辨率下不同区域大小的提取可视化(a) 4096×4096 像素区域(b) 2048×2048 像素区域(c) 1024×1024 像素区域

图片

Fig. 3. Distribution of the prediction gap for PANDA development set

图3. PANDA开发集的预测差距分布

图片

Fig. 4. Classification performance for teacher and student networks on the binaryclassification of prostate patches, used as downstream evaluation during pretraining.Lines represent the mean AUC across the 5 cross validation folds, with shaded areasindicating standard deviation.

4. 教师网络和学生网络在前列腺补丁二元分类任务上的分类性能(用于预训练期间的下游评估)线条代表 5 折交叉验证的平均 AUC(曲线下面积),阴影区域表示标准差。

图片

Fig. 5. Visualization of stitched attention heatmaps for each Transformer. We show the result of tissue segmentation (a) where tissue is delineated in green, and the result of slidetiling into non-overlapping (2048, 2048) regions as 0.50 mpp, keeping only regions with 10% tissue or more. For each of the three Transformers, we overlay the correspondingattention scores assigned to each element of the input sequence: (16, 16) tokens for the patch-level Transformer, (256, 256) patches for the region-level Transformer, and (2048,regions for the slide-level Transformer.

图 5. 各 Transformer 的拼接注意力热图可视化我们展示了组织分割结果 (a)(绿色勾勒出组织区域),以及将切片划分为 0.50 微米 / 像素分辨率下非重叠的 2048×2048 区域的结果(仅保留组织占比≥10% 的区域)。对于三个 Transformer,我们分别叠加了为输入序列各元素分配的注意力分数:补丁级 Transformer 对应(16,16)像素令牌,区域级 Transformer 对应(256,256)像素补丁,切片级 Transformer 对应(2048,2048)像素区域。

图片

Fig. 6. Refined (2048,2048) factorized attention heatmaps of Local H-ViT for varying values of parameter 𝛾. In the context of prostate cancer grading, the relevant signal isfound within the tissue architecture, spanning intermediate to large scales. Since the patch-level Transformer primarily captures cell-level features, we recommend using 𝛾 > 0.5to emphasize coarser, task-specific features, rather than finer, task-agnostic details.

图 6. 不同参数*𝛾*值下 Local H-ViT 的精细化(2048,2048)因子注意力热图在前列腺癌分级场景中,相关信号存在于组织结构中,涵盖中等至较大尺度。由于补丁级 Transformer 主要捕捉细胞级特征,因此我们建议使用𝛾>0.5,以强调更粗略的、与任务相关的特征,而非更精细的、与任务无关的细节。

图片

Fig. C.1. Confusion matrices of our best performing ensemble model on the 3 evaluation datasets.

图 C.1. 最佳集成模型在 3 个评估数据集上的混淆矩阵

图片

Fig. G.2. Overview of the 5-fold Cross Validation Splitting Strategy.

图 G.2. 5 折交叉验证分割策略概述

图片

Fig. H.3. Visualization of four artificial blocks. (a), (c) and (d) show blocks with 2 slides. (b) shows a block with 3 slides.

图 H.3. 四个人工区块的可视化(a)、(c) 和 (d) 展示包含 2 张切片的区块,(b) 展示包含 3 张切片的区块。

图片

Fig. I.4. Distribution of the number of extracted regions for PANDA development set with (a) (4096, 4096) regions (c) (2048, 2048) regions (e) (1024, 1024) regions and forPANDA public test set with (b) (4096, 4096) regions (d) (2048, 2048) regions (f) (1024, 1024) regions.

图 I.4. PANDA 开发集和公开测试集中提取的区域数量分布开发集:(a) 4096×4096 像素区域的数量分布;(c) 2048×2048 像素区域的数量分布;(e) 1024×1024 像素区域的数量分布。公开测试集:(b) 4096×4096 像素区域的数量分布;(d) 2048×2048 像素区域的数量分布;(f) 1024×1024 像素区域的数量分布。

Table

图片

Table 1Scanner details, PANDA development set.

表 1 PANDA 开发集的扫描仪详情

图片

Table 2Classification performance of Global H-ViT for different pretraining configurations, obtained with cross-entropy loss. We report the mean andstandard deviation of the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensemblingpredictions from each fold.

表 2 不同预训练配置下 Global H-ViT 的分类性能(采用交叉熵损失)我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table 3Classification performance of Local H-ViT for different pretraining configurations, obtained with cross-entropy loss. We report the mean andstandard deviation of the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensemblingpredictions from each fold.

表 3 不同预训练配置下 Local H-ViT 的分类性能(采用交叉熵损失)我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table 4Classification performance of Global H-ViT for different loss functions, obtained with (1024, 1024) regions at 0.50 mpp. Wereport the mean and standard deviation of the quadratic weighted kappa across the 5 cross-validation folds, along with thekappa score achieved by ensembling predictions from each fold

表 4 不同损失函数下 Global H-ViT 的分类性能(采用 0.50 微米 / 像素分辨率的 1024×1024 区域)我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数

图片

Table 5Classification performance of Local H-ViT for different loss functions, obtained with (2048, 2048) regions at 0.50 mpp. Wereport the mean and standard deviation of the quadratic weighted kappa across the 5 cross-validation folds, along with thekappa score achieved by ensembling predictions from each fold

表 5 不同损失函数下 Local H-ViT 的分类性能(采用 0.50 微米 / 像素分辨率的 2048×2048 区域)我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table 6TCGA BRCA subtyping results. Both models are trained with (4096,4096) regions onthe splits from Chen et al. (2022). We report the mean and standard deviation of theAUC across the 10 cross-validation folds.

表 6 TCGA BRCA 亚型分类结果两种模型均使用(4096,4096)区域在 Chen 等人(2022)的数据集划分上进行训练。我们报告了 10 折交叉验证的 AUC(曲线下面积)均值和标准差。

图片

Table 7Classification performance of Local H-ViT for different feature encoders, obtained with MSE loss and (2048, 2048) regions at0.50 mpp. We report the mean and standard deviation of the quadratic weighted kappa across the 5 cross-validation folds,along with the kappa score achieved by ensembling predictions from each fold.

表 7 不同特征编码器下 Local H-ViT 的分类性能(采用 MSE 损失和 0.50 微米 / 像素分辨率的 2048×2048 区域)我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table 8Classification performance of our best ensemble Local H-ViT models against that of PANDA consortium teams on PANDA public and private test sets, as well as Karolinska UniversityHospital dataset, used as external validation data after the challenge ended. All values are given as quadratic weighted kappa

表 8 最佳集成 Local H-ViT 模型与 PANDA 联盟团队模型的分类性能对比对比基于 PANDA 公开测试集、私有测试集以及卡罗林斯卡大学医院数据集(挑战结束后用作外部验证数据)。所有数值均以加权 kappa 系数表示。

图片

Table 9Classification performance of our ensemble Local H-ViT models compared to fivePANDA consortium teams on the crowdsourced dataset. We report quadratic weightedkappa (𝜅 2 ), overall accuracy (acc), and binary accuracy (bin-acc) for distinguishingbetween low-risk (ISUP ≤ 1) and higher-risk cases.

表 9 集成 Local H-ViT 模型与五个 PANDA 联盟团队模型在众包数据集上的分类性能对比我们报告了加权 kappa 系数(𝜅²)、总体准确率(acc)以及区分低风险(ISUP ≤ 1)与高风险病例的二元准确率(bin-acc)。

图片

Table A.1Global H-ViT results when pretrained on TCGA dataset, for different region sizes and loss functions. We report the mean and standard deviationof the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensembling predictions from eachfold

表 A.1 基于 TCGA 数据集预训练的 Global H-ViT 在不同区域大小和损失函数下的结果我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数

图片

Table A.2Global H-ViT results when pretrained on PANDA dataset, for different region sizes and loss functions. We report the mean and standard deviationof the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensembling predictions from eachfold.

表 A.2 基于 PANDA 数据集预训练的 Global H-ViT 在不同区域大小和损失函数下的结果我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table B.3Local H-ViT results when pretrained on TCGA dataset, for different region sizes and loss functions. We report the mean and standard deviationof the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensembling predictions from eachfold.

表 B.3 基于 TCGA 数据集预训练的 Local H-ViT 在不同区域大小和损失函数下的结果我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table B.4Local H-ViT results when pretrained on PANDA dataset, for different region sizes and loss functions. We report the mean and standard deviationof the quadratic weighted kappa across the 5 cross-validation folds, along with the kappa score achieved by ensembling predictions from eachfold.

表 B.4 基于 PANDA 数据集预训练的 Local H-ViT 在不同区域大小和损失函数下的结果我们报告了 5 折交叉验证中加权 kappa 系数的均值和标准差,以及通过集成各折预测结果得到的 kappa 分数。

图片

Table D.5Classification performance of our best ensemble Local H-ViT models against that of PANDA consortium teams on PANDA public and private test sets, as well as Karolinska UniversityHospital dataset, used as external validation data after the challenge ended. All values are given as overall accuracy

表 D.5 最佳集成 Local H-ViT 模型与 PANDA 联盟团队模型的分类性能对比对比基于 PANDA 公开测试集、私有测试集以及卡罗林斯卡大学医院数据集(挑战结束后用作外部验证数据)。所有数值均以整体准确率表示。

图片

Table D.6Classification performance of our best ensemble Local H-ViT models against that of PANDA consortium teams on PANDA public and private test sets, as well as Karolinska UniversityHospital dataset, used as external validation data after the challenge ended. All values are given as binary accuracy for distinguishing between low-risk (ISUP ≤ 1) and higher-riskcases.

表 D.6 最佳集成 Local H-ViT 模型与 PANDA 联盟团队模型的分类性能对比对比基于 PANDA 公开测试集、私有测试集以及卡罗林斯卡大学医院数据集(挑战结束后用作外部验证数据)。所有数值均以区分低风险(ISUP ≤ 1)与高风险病例的二元准确率表示。

图片

Table E.7Average number of regions per slide, PANDA dataset

表 E.7 PANDA 数据集中每张切片的平均区域数量

图片

Table F.8Test datasets details.

表 F.8 测试数据集详情

图片

Table G.9Number of slide per partition after label denoising, 5-fold CV splits.

表 G.9 标签去噪后各划分中的切片数量(5 折交叉验证分割)

图片

Table J.10Global H-ViT results when pretrained on PANDA dataset with (2048, 2048) regions, for different loss functions. We report quadratic weightedkappa averaged over the 5 cross-validation folds (mean ± std)

表 J.10 基于 PANDA 数据集预训练的 Global H-ViT 在不同损失函数下的结果(采用 2048×2048 区域)我们报告了 5 折交叉验证中加权 kappa 系数的平均值(± 标准差)。

图片

Table L.11Computational characteristics of DINO pretraining of the path-level and region-level Transformer on PANDA.

表 L.11 PANDA 数据集上路径级和区域级 Transformer 的 DINO 预训练计算特征

图片

Table L.12Comparison of number of trainable parameters, training time, and GPU memory usage for Global H-ViT and Local H-ViT.

表 L.12 Global H-ViT 与 Local H-ViT 的可训练参数数量、训练时间及 GPU 内存使用量对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93560.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apple基础(Xcode②-Flutter结构解析)

🏗️ 目录结构速查表(your_project/ios/ 下)ios/ ├── Runner/ ← 原生 iOS 工程根目录(Xcode 打开它) │ ├── AppDelegate.swift ← App 入口(类似 Android 的 MainActivity&…

X00229-基于深度强化学习的车联网资源分配python完整

X00229-基于深度强化学习的车联网资源分配python完整

面向多模态自监督学习的共享表示与独有表示解耦

通俗说法:在多模态自监督学习中,将共享信息和独有信息分离开来 Abstract 问题: 传统方法通常假设在训练和推理阶段都可以访问所有模态信息,这在实际应用中面对模态不完整输入时会导致性能显著下降。 解决方法:提出了一…

【iOS】weak修饰符

前言前面我们已经学习了解了sideTable,今天来看看在OC中,sideTable是如何在我们使用weak时工作的。在OC中,weak修饰符是一种用于声明“弱引用”的关键字,其核心特性是不参与对象的引用计数管理,而且当被引用的对象被释…

【JVM篇10】:三种垃圾回收算法对比详解

文章目录1. 标记-清除算法2. 复制算法3. 标记-整理算法总结与面试要点在通过 可达性分析等算法识别出所有存活对象和垃圾对象后,垃圾收集器(GC:Garbage Collector)就需要执行回收操作来释放垃圾对象所占用的内存。以下是三种最基础…

JXD进步25.7.30

1.为啥是update,因为你if判断有问题。或者是你上来就给id赋值了。2. 这个是清空network历史3.断点位置打在这里:打在上面它进不来4.

Flutter开发实战之网络请求与数据处理

第6章:网络请求与数据处理 “数据是应用的血液,网络是连接世界的桥梁。” 在移动应用开发中,与服务器进行数据交互是必不可少的功能。无论是获取用户信息、提交表单数据,还是上传图片、下载文件,都离不开网络请求。本章将带你深入掌握Flutter中的网络编程技巧。 6.1 网络…

快速分页实现热点功能-索引和order by

需求:分页求出进三天的发布视频的权重热度 权重 / 衰减时间 衰减时间 当前时间 - 视频发布时间 小根堆来实现这个公式可以很好的利用半衰期来进行解决难点:如果一次性加载太多到springBoot服务器里面会造成堆内存占用过多,分页又有可能造成深分页问题,…

HAProxy(高可用性代理)

1 HAProxy 简介 HAProxy( High Availability Proxy)是一个高性能的负载均衡器和代理服务器,为基于 TCP 和 HTTP 的应用程序提供高可用性、负载平衡和代理,广泛应用于提高 web 应用程序的性能和可靠性。它支持多种协议&#xff0c…

Vulnhub靶场:ica1

一、信息收集nmap扫描一下IP。(扫不出来的可以看一下前面几篇找ip的步骤)下面给了框架的版本是9.2的,我们去kali里搜一下有没有已经公开的漏洞。searchsploit qdPM 9.2 locate 50176.txt more /usr/share/exploitdb/exploits/php/webapps/50…

【Dv3admin】ORM数据库无法查询的问题

Django 运行过程中,数据库连接的健康状态直接影响应用的稳定性和数据访问准确性。长时间空闲的数据库连接经常因外部机制被回收,进而引发数据查询异常和返回无效结果。 本文围绕 Django 中数据库连接长时间空闲导致的连接失效问题,介绍相关的…

使用 Flownex 对机械呼吸机进行建模

当患者无法独立呼吸时,机械呼吸机通过气管插管将富氧空气输送到患者的肺部。肺是敏感而复杂的器官,因此在无法忍受的压力和体积范围内提供空气,根据每分钟所需的呼吸次数计时,并适当加湿和加热。机械呼吸机的精确建模对于其安全有…

力扣刷题日常(7-8)

力扣刷题日常(7-8) 第7题: 整数反转(难度: 中等) 原题: 给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果. 如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0. 假设环境不允许存储 64 位整数(有符号或无符号).…

串口接收数据包(协议带帧头帧尾)的编程实现方法:1、数据包格式定义结构体2、使用队列进行数据接收、校验解包

这种带帧头帧尾的数据包处理流程可以简单概括为 “识别边界→提取有效数据→验证完整性” 三个核心步骤,具体操作如下:1. 数据包格式定义(先约定规则)首先明确一个 “合格数据包” 的结构,比如: 帧头&#…

JSON 对象封装教程

JSON 对象封装方法在 Java 中封装 JSON 对象通常使用第三方库&#xff0c;如 org.json、Gson 或 Jackson。以下是几种常见的方法&#xff1a;使用 org.json 库添加 Maven 依赖&#xff1a;<dependency><groupId>org.json</groupId><artifactId>json<…

【WRF-Chem】EDGAR 排放数据处理:分部门合并转化为二进制(Python全代码)

目录 process.py process_biofl.py process_fossil.py process_micro.py process_sector.py 参考 process.py 读取 EDGAR 排放数据库中 2000 至 2023 年间不同行业的甲烷(CH₄)排放数据,进行合并处理,并将总排放以二进制格式保存到文件中。 导入必要的库 import numpy as n…

【学习过程记录】【czsc】1、安装

文章目录 背景 安装 安装python 安装czsc 功能测试 附录 奇葩的报错 背景 详见: https://github.com/waditu/czsc 安装 安装python !重要!作者强调,python必须是大于等于3.8 为此呢,我也是花了一点时间装了一个python3.13。 安装czsc 关于czsc的安装呢,官方也是给出…

Python批量生成N天前的多word个文件,并根据excel统计数据,修改word模板,合并多个word文件

1&#xff0c;需求 根据word模板文件&#xff0c;生成多个带日期后缀的word文件根据excel-每日告警统计数量&#xff0c;逐个修改当日的文档2&#xff0c;实现 shell脚本&#xff1a;根据word模板文件&#xff0c;生成多个带日期后缀的word文件 #!/bin/bash # 生成近一年日期 …

基于uni-app的血糖血压刻度滑动控件

想要做一个基于uni-app的血糖血压刻度滑动控件&#xff0c;hbuilder市场没有好的&#xff0c;参照别人的写了一个。如图&#xff1a;源码&#xff0c;自己放入components里面。<!-- 刻度滑动选择 --> <template><view><view class"slide-title"…

C语言(02)——标准库函数大全(持续更新)

想要了解更多的C语言知识&#xff0c;可以订阅下面的专栏&#xff0c;里面也有很多品质好文&#xff1a; 打怪升级之路——C语言之路_ankleless的博客-CSDN博客 还在持续更新中&#xff0c;以下是学习过程中遇到的一些库函数&#xff08;排序不分先后&#xff09;&#xff1a…