漫谈英伟达GPU架构进化史:从Celsius到Blackwell

在英伟达官网,我们可以清晰地看到其从1999年Celsius到2024年Blackwell的20+代架构演进。这一历程犹如一部波澜壮阔的科技史诗,见证了英伟达在GPU领域的卓越创新与持续引领。

图片

NVIDIA GPU架构变迁路线:

年份

NV GPU架构变迁

2025

Blackwell 2.0

2024

Blackwell

2023-2024

Hopper

2022-2024

Ada Lovelace

2020-2024

Ampere

2018-2022

Turing

2017-2020

Volta

2016-2021

Pascal

2014-2019

Maxwell 2.0

2014-2017

Maxwell

2013-2015

Kepler 2.0

2012-2018

Kepler

2010-2016

Fermi 2.0

2010-2013

VLIW Vec4

2010-2016

Fermi

2007-2013

Tesla 2.0

2006-2010

Tesla

2003-2013

Curie

2003-2005

Rankine

2001-2003

Kelvin

1999-2005

Celsius

1999年:Celsius(NV1x)——开启GPU时代

Celsius架构的代表产品GeForce 256横空出世,它首次提出了“GPU(图形处理器)”的概念,堪称具有划时代意义的创举。以往,图形处理任务主要由CPU承担,效率较低。而GeForce 256具备硬件T&L(变换和光照)功能,能够将图形处理从CPU中解放出来,实现了图形加速,大大提升了运算效率,其运算能力达到当时CPU的5倍之多,就此开启了GPU作为独立计算核心的崭新时代。

图片

图片

Database参考:https://www.techpowerup.com/gpu-specs/nvidia-nv10.g165

2000年:Kelvin(NV2x)——多显示器支持的先驱

Kelvin 架构(NV20 核心)是英伟达在 2000 年代初推出的关键图形架构。它最初应用于搭载NV2A GPU的XBOX游戏主机,之后GeForce 2系列GPU也基于此架构发布。GeForce 2成为首个支持多显示器的GPU产品。其代表产品GeForce3于 2001 年 2 月 27 日发布,基于 150nm 工艺制造,核心面积 128mm²,集成 5700 万个晶体管。作为首款支持DirectX 8.1的消费级 GPU,GeForce3 标志着图形计算从固定管线向可编程渲染的重大跃迁,彻底改变了游戏开发的技术范式。

图片

Database参考:https://www.techpowerup.com/gpu-specs/geforce3.c738

2001年:Rankine(NV3x)——图形功能增强的探索

Rankine架构作为Kelvin微架构的后续版本,主要应用于NVIDIA GPU的GeForce 5系列产品。在这一系列中,Rankine微架构引入了对顶点和片段程序的支持,丰富了图形处理的功能。同时,将显存(VRAM)大小扩展至256MB,为GPU性能提升和图形处理能力增强提供了有力支撑,进一步提升了图形渲染的质量与效率。

Rankine 架构(NV34 核心)是英伟达在 2003 年推出的入门级图形架构,其代表产品GeForce FX 5100于 2003 年 3 月 6 日发布,基于 150nm 工艺制造,核心面积 124mm²,集成 4500 万个晶体管。作为 GeForce FX 系列的低端型号,该架构主打 DirectX 9.0a 支持,试图在入门级市场延续可编程渲染的技术红利,但受限于硬件规格,成为英伟达架构迭代中的过渡性产品。

图片

Database参考:https://www.techpowerup.com/gpu-specs/geforce-fx-5100.c1834

2004年:Curie(NV4x)——显存与视频解码的革新

Curie 架构(NV40 核心)是英伟达在 2004 年推出的旗舰级图形架构,其代表产品GeForce 6800 XT于 2005 年 9 月 30 日发布,基于 130nm 工艺制造,核心面积 287mm²,集成 2.22 亿个晶体管。作为首款支持DirectX 9.0c的消费级 GPU,该架构标志着英伟达在独立 Shader 架构时代的性能巅峰,同时为后续统一渲染架构的转型埋下伏笔。

图片

Database参考:https://www.techpowerup.com/gpu-specs/geforce-6800-xt.c176

2006年:Tesla(G80、G92)——通用计算的开拓者

2006 年推出的Tesla 架构(G80 核心)是英伟达发展史上的分水岭 —— 它首次引入统一渲染架构(Unified Shader Architecture),将顶点着色器、像素着色器和几何着色器合并为通用的CUDA 核心(Compute Unified Device Architecture),彻底解决了独立管线时代的资源分配难题。这一架构不仅重塑了图形计算范式,更开启了 GPU 通用计算(GPGPU)的新纪元。

图片

Database参考:https://www.techpowerup.com/gpu-specs/geforce-8400-se.c3779

2009年:Fermi(GF100)——制程与功能的双重升级

Fermi架构是第一款采用40nm制程的GPU。它带来了诸多重大改进,引入L1/L2快速缓存,加速了数据的读取与存储;具备错误修复功能,提高了系统的稳定性;采用GPUDirect技术,允许GPU在无需访问CPU的情况下相互通信,无论是在同一台计算机内部还是通过网络进行通信,大大提升了数据传输效率。Fermi GTX 480拥有480个流处理器,带宽达到177.4GB/s,计算能力相比Tesla架构大幅提升。

图片

Database参考:https://www.techpowerup.com/gpu-specs/geforce-gtx-480.c268

2009 年推出的Fermi 架构(GF100 核心)是英伟达首次专为通用计算(GPGPU)设计的架构,其核心目标是在保持图形性能的同时,构建可扩展的计算平台。关键创新包括:

  • 统一计算架构:
    引入流式多处理器(SM,Streaming Multiprocessor),每个 SM 包含 32 个 CUDA 核心、16 个纹理单元和 4 个 ROP 单元,支持动态分配图形计算与通用计算任务。

  • 计算可靠性:
    首次支持ECC 内存纠错,满足医疗、金融等工业场景对数据准确性的需求;引入动态并行(Dynamic Parallelism),允许 GPU 直接生成子任务,减少 CPU 介入。

  • 双精度计算:
    GF100 核心双精度浮点性能达 1 TFLOPS,是同期 ATI Radeon HD 5870 的 2 倍,成为超级计算机的核心组件(如美国橡树岭国家实验室的 “美洲豹” 超算)。

2012年:Kepler(GK104、GK110)——高性能计算的新起点

Kepler架构采用28nm制程,是首个支持超级计算和双精度计算的GPU架构。其拥有全新的流式多处理器架构SMX,带来了多方面的提升,完整支持TXAA(一种抗锯齿方法),CUDA核心数显著增加,如GK110B具有2880个流处理器,带宽高达288GB/s,计算能力比Fermi架构提高3 - 4倍。Kepler架构的出现,使GPU在高性能计算领域受到广泛关注,为科学研究、大数据分析等领域提供了强大的计算支持。

图片

2012 年推出的Kepler 架构(GK104/GK110 核心)是英伟达在统一计算架构下的集大成之作,其设计目标是 “让 GPU 成为并行计算的超级计算机”。核心创新包括:

  • 第三代 CUDA 核心
    每个 SMX 单元包含 192 个 CUDA 核心(较 Fermi 架构的 SM 增加 50%),支持动态指令调度分支预测,计算效率提升 40%。
  • 异构计算支持
    引入Hyper-Q技术,支持同时处理 32 个 CPU 线程请求,多任务并行效率提升 2 倍;集成Dynamic Parallelism 2.0,允许 GPU 自主生成子任务树,减少 CPU 介入延迟。
  • 图形渲染强化
    首次支持自适应细分曲面(Adaptive Tessellation),配合FXAA 抗锯齿,在《孤岛危机 3》中实现曲面细节提升 50% 的同时,性能损耗控制在 15% 以内。

GeForce GTX 660 和 780 TI是 Kepler 架构的缩影 —— 前者以主流性能定义性价比标杆,后者以旗舰规格探索硬件极限。它们不仅巩固了英伟达在图形市场的统治力,更将 GPU 从 “游戏硬件” 升级为 “通用计算平台”。Kepler 架构的成功,本质是英伟达对 “摩尔定律 +

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/907449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

车载通信网络 --- CAN FD与CAN XL

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

DM达梦数据库开启SQL日志记录功能

DM达梦数据库开启SQL日志记录功能 配置SQL日志(非必须的配置步骤,与主备集群配置无关,如果没有需求可以跳过配置SQL日志) sqllog.ini 配置文件用于SQL日志的配置,当且仅当 INI(dm.ini) 参数 SV…

【HW系列】—C2远控服务器(webshell链接工具, metasploit、cobaltstrike)的漏洞特征流量特征

文章目录 蚁剑、冰蝎、哥斯拉一、蚁剑(AntSword)流量特征二、冰蝎(Behinder)流量特征三、哥斯拉(Godzilla)流量特征 metasploit、cobaltstrike一、Metasploit流量特征二、CobaltStrike流量特征三、检测与防…

手机平板等设备租赁行业MDM方案解析

目录 引言:MDM 在租赁行业的重要性日益凸显 用户场景:租赁公司面临的主要挑战 1. 设备丢失、逾期未还 2. 手动配置和恢复效率低 3. 非授权使用频繁 4. 时区设置混乱影响运维 5. 缺乏实时监管能力 EasyControl MDM:租赁设备的远程管控…

前端面试核心考点全解析

前端面试常见问题及解析大纲 核心技术篇 HTML相关问题 1. HTML5新特性解析 语义化标签&#xff08;<header>、<section>等&#xff09;的作用与示例本地存储&#xff08;localStorage与sessionStorage&#xff09;的差异 localStorage.setItem(key, value); c…

Selenium 测试框架 - Kotlin

🚀Selenium Kotlin 实践指南:以百度搜索为例的完整测试示例 随着测试自动化的普及,Selenium 已成为 Web 自动化测试的事实标准,而 Kotlin 凭借其简洁语法和高安全性,越来越受到开发者欢迎。本指南将通过一个完整的实战案例——在百度中执行搜索操作,来展示如何使用 Sele…

vscode调试stm32,Cortex Debug的配置文件lanuch.json如何写,日志

https://blog.csdn.net/jiladahe1997/article/details/122046665 https://discuss.em-ide.com/blog/67-cortex-debug 第一版 {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息&#xff0c;请访问: https://go.microsoft.com/fwlink/?li…

反范式设计应用场景解析

反范式设计应用场景解析 1. 反范式设计核心概念 反范式设计是指为了特定性能优化目标,在数据库设计中故意违反关系数据库的范式规则(通常是第三范式或BC范式),通过引入冗余数据或合并表结构来提升查询效率的设计方法。 关键结论:反范式不是对范式理论的否定,而是在特定…

算法-js-子集

题&#xff1a;给你一个整数数组 nums &#xff0c;数组中的元素 互不相同 。返回该数组所有可能的子集&#xff08;幂集&#xff09;。解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 方法一&#xff1a;迭代法 核心逻辑&#xff1a;动态扩展子集&#xff0c; 小规…

python里的NumPy算法

NumPy&#xff08;Numerical Python&#xff09;是 Python 中用于科学计算的基础库&#xff0c;提供了高性能的多维数组对象、矩阵运算以及大量数学函数库。其核心优势在于通过向量化操作替代传统循环&#xff0c;大幅提升计算效率&#xff0c;尤其适合处理大规模数据的算法实现…

HarmonyOS优化应用文件上传下载慢问题性能优化

一、概述 在开发应用时&#xff0c;客户端与服务器之间数据交换的效率取决于文件传输的性能。一个数据交换性能较低的应用会导致其在加载过程中耗费较长时间&#xff0c;在很多的场景造成页面卡顿&#xff0c;极大的影响了用户体验。相反&#xff0c;一个数据交换高效的应用&a…

64、【OS】【Nuttx】任务休眠与唤醒:clock_nanosleep

背景 之前的 blog 63、【OS】【Nuttx】任务休眠与唤醒&#xff1a;sleep 分析了任务休眠中的 sleep 函数&#xff0c;下面继续来分析下 sleep 函数中的核心功能 clock_nanosleep clock_nanosleep usleep 上篇 blog 分析了 sleep 函数&#xff0c;其核心功能封装到了 clock_…

【生产实践】华为存储XSG1在RHEL 7.x/8.x上的多路径配置操作手册(生产环境)

一、概述 本手册针对Red Hat Enterprise Linux 7.x/8.x系统与华为XSG1存储设备的多路径I/O&#xff08;MPIO&#xff09;配置&#xff0c;通过优化路径策略实现高可用、负载均衡及故障容错&#xff0c;适配华为存储硬件特性&#xff0c;满足生产环境需求。 二、参数解析与配置…

Unity开发之Webgl自动更新程序包

之前让客户端更新webgl程序是在程序里写版本号然后和服务器对比&#xff0c;不同就调用 window.location.reload(true);之前做的客户端都是给企业用&#xff0c;用户数少看不出来啥问题。后来自己开发一个小网站&#xff0c;用户数量还是挺多&#xff0c;然后就会遇到各种各样的…

一个开源脚本,可自动安装在 AMD Radeon 7900XTX 上运行选定 AI 接口所需的所有内容

​一、软件介绍 文末提供程序和源码下载 一个开源脚本&#xff0c;可自动安装在 AMD Radeon 7900XTX 上运行选定 AI 接口所需的所有内容。 二、ROCm-AI-Installer ROCm-AI-安装程序 一个开源脚本&#xff0c;可自动安装在 AMD Radeon 7900XTX 上运行选定 AI 接口所需的所有内…

【Axure结合Echarts绘制图表】

1.绘制一个矩形&#xff0c;用于之后存放图表&#xff0c;将其命名为test&#xff1a; 2.新建交互 -> 载入时 -> 打开链接&#xff1a; 3.链接到URL或文件路径&#xff1a; 4.点击fx&#xff1a; 5.输入&#xff1a; javascript: var script document.createEleme…

Relooking:损失权重λ 、梯度权重α、学习率η

一般多任务&#xff0c;大家都喜欢叠加很多损失&#xff0c;由此产生很多损失权重系数。此外&#xff0c;有的学者直接对梯度进行操作。咋一看&#xff0c;上面三个系数貌似重复多余&#xff0c;直接用其中一个系数代替不行吗&#xff1f;为此&#xff0c;回顾了下神经网络的前…

数学复习笔记 20

复习方程组&#xff0c;还有随便复习一下高数和矩阵&#xff0c;向量。现在是复习高数的导数这一章。两个曲线相切&#xff0c;列出方程&#xff0c;然后解出参数&#xff0c;没有任何难度呢。算切线方程&#xff0c;就是&#xff0c;算导数&#xff0c;导数就用导数定义&#…

Sqlalchemy 连mssql坑

连接失败: (pyodbc.OperationalError) (08001, [08001] [Microsoft][ODBC Driver 17 for SQL Server]SSL Provider: [error:0A00014D:SSL routines::legacy sigalg disallowed or unsupported] (-1) (SQLDriverConnect)) (Background on this error at: https://sqlalche.me/e/…

AI大模型学习三十、ubuntu安装comfyui,安装插件,修改返回405 bug,值得一看喔

一、说明 ComfyUI是一个开源的、基于节点的Web应用。它允许用户根据一系列文本提示&#xff08;Prompt&#xff09;生成图像。 ComfyUI使用扩散模型作为基础模型&#xff0c;并结合 ControlNet、Lora和LCM低阶自适应等模型&#xff0c;每个工具都由程序中的一个节点表示 二、开…