漫谈英伟达GPU架构进化史：从Celsius到Blackwell

在英伟达官网，我们可以清晰地看到其从1999年Celsius到2024年Blackwell的20+代架构演进。这一历程犹如一部波澜壮阔的科技史诗，见证了英伟达在GPU领域的卓越创新与持续引领。

NVIDIA GPU架构变迁路线：

年份	NV GPU架构变迁
2025	Blackwell 2.0
2024	Blackwell
2023-2024	Hopper
2022-2024	Ada Lovelace
2020-2024	Ampere
2018-2022	Turing
2017-2020	Volta
2016-2021	Pascal
2014-2019	Maxwell 2.0
2014-2017	Maxwell
2013-2015	Kepler 2.0
2012-2018	Kepler
2010-2016	Fermi 2.0
2010-2013	VLIW Vec4
2010-2016	Fermi
2007-2013	Tesla 2.0
2006-2010	Tesla
2003-2013	Curie
2003-2005	Rankine
2001-2003	Kelvin
1999-2005	Celsius

1999年：Celsius（NV1x）——开启GPU时代

Celsius架构的代表产品GeForce 256横空出世，它首次提出了“GPU（图形处理器）”的概念，堪称具有划时代意义的创举。以往，图形处理任务主要由CPU承担，效率较低。而GeForce 256具备硬件T&L（变换和光照）功能，能够将图形处理从CPU中解放出来，实现了图形加速，大大提升了运算效率，其运算能力达到当时CPU的5倍之多，就此开启了GPU作为独立计算核心的崭新时代。

Database参考：https://www.techpowerup.com/gpu-specs/nvidia-nv10.g165

2000年：Kelvin（NV2x）——多显示器支持的先驱

Kelvin 架构（NV20 核心）是英伟达在 2000 年代初推出的关键图形架构。它最初应用于搭载NV2A GPU的XBOX游戏主机，之后GeForce 2系列GPU也基于此架构发布。GeForce 2成为首个支持多显示器的GPU产品。其代表产品GeForce3于 2001 年 2 月 27 日发布，基于 150nm 工艺制造，核心面积 128mm²，集成 5700 万个晶体管。作为首款支持DirectX 8.1的消费级 GPU，GeForce3 标志着图形计算从固定管线向可编程渲染的重大跃迁，彻底改变了游戏开发的技术范式。

Database参考：https://www.techpowerup.com/gpu-specs/geforce3.c738

2001年：Rankine（NV3x）——图形功能增强的探索

Rankine架构作为Kelvin微架构的后续版本，主要应用于NVIDIA GPU的GeForce 5系列产品。在这一系列中，Rankine微架构引入了对顶点和片段程序的支持，丰富了图形处理的功能。同时，将显存（VRAM）大小扩展至256MB，为GPU性能提升和图形处理能力增强提供了有力支撑，进一步提升了图形渲染的质量与效率。

Rankine 架构（NV34 核心）是英伟达在 2003 年推出的入门级图形架构，其代表产品GeForce FX 5100于 2003 年 3 月 6 日发布，基于 150nm 工艺制造，核心面积 124mm²，集成 4500 万个晶体管。作为 GeForce FX 系列的低端型号，该架构主打 DirectX 9.0a 支持，试图在入门级市场延续可编程渲染的技术红利，但受限于硬件规格，成为英伟达架构迭代中的过渡性产品。

Database参考：https://www.techpowerup.com/gpu-specs/geforce-fx-5100.c1834

2004年：Curie（NV4x）——显存与视频解码的革新

Curie 架构（NV40 核心）是英伟达在 2004 年推出的旗舰级图形架构，其代表产品GeForce 6800 XT于 2005 年 9 月 30 日发布，基于 130nm 工艺制造，核心面积 287mm²，集成 2.22 亿个晶体管。作为首款支持DirectX 9.0c的消费级 GPU，该架构标志着英伟达在独立 Shader 架构时代的性能巅峰，同时为后续统一渲染架构的转型埋下伏笔。

Database参考：https://www.techpowerup.com/gpu-specs/geforce-6800-xt.c176

2006年：Tesla（G80、G92）——通用计算的开拓者

2006 年推出的Tesla 架构（G80 核心）是英伟达发展史上的分水岭 —— 它首次引入统一渲染架构（Unified Shader Architecture），将顶点着色器、像素着色器和几何着色器合并为通用的CUDA 核心（Compute Unified Device Architecture），彻底解决了独立管线时代的资源分配难题。这一架构不仅重塑了图形计算范式，更开启了 GPU 通用计算（GPGPU）的新纪元。

Database参考：https://www.techpowerup.com/gpu-specs/geforce-8400-se.c3779

2009年：Fermi（GF100）——制程与功能的双重升级

Fermi架构是第一款采用40nm制程的GPU。它带来了诸多重大改进，引入L1/L2快速缓存，加速了数据的读取与存储；具备错误修复功能，提高了系统的稳定性；采用GPUDirect技术，允许GPU在无需访问CPU的情况下相互通信，无论是在同一台计算机内部还是通过网络进行通信，大大提升了数据传输效率。Fermi GTX 480拥有480个流处理器，带宽达到177.4GB/s，计算能力相比Tesla架构大幅提升。

Database参考：https://www.techpowerup.com/gpu-specs/geforce-gtx-480.c268

2009 年推出的Fermi 架构（GF100 核心）是英伟达首次专为通用计算（GPGPU）设计的架构，其核心目标是在保持图形性能的同时，构建可扩展的计算平台。关键创新包括：

统一计算架构：
引入流式多处理器（SM，Streaming Multiprocessor），每个 SM 包含 32 个 CUDA 核心、16 个纹理单元和 4 个 ROP 单元，支持动态分配图形计算与通用计算任务。
计算可靠性：
首次支持ECC 内存纠错，满足医疗、金融等工业场景对数据准确性的需求；引入动态并行（Dynamic Parallelism），允许 GPU 直接生成子任务，减少 CPU 介入。
双精度计算：
GF100 核心双精度浮点性能达 1 TFLOPS，是同期 ATI Radeon HD 5870 的 2 倍，成为超级计算机的核心组件（如美国橡树岭国家实验室的 “美洲豹” 超算）。

2012年：Kepler（GK104、GK110）——高性能计算的新起点

Kepler架构采用28nm制程，是首个支持超级计算和双精度计算的GPU架构。其拥有全新的流式多处理器架构SMX，带来了多方面的提升，完整支持TXAA（一种抗锯齿方法），CUDA核心数显著增加，如GK110B具有2880个流处理器，带宽高达288GB/s，计算能力比Fermi架构提高3 - 4倍。Kepler架构的出现，使GPU在高性能计算领域受到广泛关注，为科学研究、大数据分析等领域提供了强大的计算支持。

2012 年推出的Kepler 架构（GK104/GK110 核心）是英伟达在统一计算架构下的集大成之作，其设计目标是 “让 GPU 成为并行计算的超级计算机”。核心创新包括：

第三代 CUDA 核心：
每个 SMX 单元包含 192 个 CUDA 核心（较 Fermi 架构的 SM 增加 50%），支持动态指令调度和分支预测，计算效率提升 40%。
异构计算支持：
引入Hyper-Q技术，支持同时处理 32 个 CPU 线程请求，多任务并行效率提升 2 倍；集成Dynamic Parallelism 2.0，允许 GPU 自主生成子任务树，减少 CPU 介入延迟。
图形渲染强化：
首次支持自适应细分曲面（Adaptive Tessellation），配合FXAA 抗锯齿，在《孤岛危机 3》中实现曲面细节提升 50% 的同时，性能损耗控制在 15% 以内。