又到换显卡的时候了——如果平台有货、你还有肾的话……
当地时间9月20日,英伟达在GTC显卡技术大会上,终于发布了万众期盼的RTX40系列显卡。其中起步价就高达美元(¥+)。
RTX渲染图图片来源:英伟达
这个价格,难怪发布会后,网友恶搞的图就纷纷上线……
图片来源:LTT
除了40系列显卡之外,同场发布的,还有英伟达在图形计算架构、游戏开发、AI加速、工业元宇宙、云计算、量子计算等方面的新产品、技术、最新进展。
它们包括(并不限于):
全新GPU架构AdaLovelace,安培(Ampere)架构的升级版,也是40系列显卡性能巨大提升的功臣;
RTXRemix,一个游戏mod开发工具,能够为几乎任何3D游戏添加光追效果
“核弹”HAI加速GPU,已经全面启动生产,即将发货;
“雷神”(Thor)超级计算机,整合Grace(CPU)、Ada(GPU)、Hopper(AI加速计算)三大能力,适用汽车、医疗、工业等领域。以汽车为例,单机即可撑起整个自动驾驶系统+车机+车载娱乐系统;
OmniverseCloud服务,能够连接几乎所有主流大型3D工业/设计应用的云端基础设施(IaaS),让元宇宙开发可以在多端任何设备之间无缝工作;
NemoLLM系列,一个超大规模神经网络开发工具,能够显著加速大规模神经网络模型的训练、调优和推理等,包括面向自然语言、生物制药等多个场景的子服务。
其中,最新的AdaLovelace架构,可以说是绝大多数新产品和技术突破的背后功臣。这是英伟达推出的全新GPU架构。主要特性为第三代RTCore光追核心,吞吐量为前代两倍;第四代TensorCore张量核心,张量矩阵计算性能为前代两倍;Ada架构的CUDA核心,显著提高AI加速,以及3D图形计算的性能。
架构来自于“史上第一段电脑程序”的作者,英国数学家艾达·勒芙蕾丝伯爵夫人图片来源:英伟达
接下来,一起来看这一届英伟达“春晚”,都给大家送上了哪些硬菜。
RTX
黄仁勋老板手里拿的这张是英伟达自己的RTXFoundersEdition(16GB),采用了以往创始人版本基本相同的外壳设计:
RTX图片来源:英伟达
目前从华硕、七彩虹等合作伙伴那边看到的首批和显卡设计普遍采用全尺寸、三风扇、3-slot厚度:
ROGStrixRTX图片来源:华硕ROGVulcanRTX图片来源:七彩虹
RTX40系列显卡是:
英伟达最新推出的AdaLovelace架构的第一款显卡,
采用了最新版DLSS3深度学习超级采样技术、
着色器Shader执行重新排序(SER)技术、
Ada光流加速器、
第八代英伟达双AV1编码器、
24GBGDDR6X显存
在游戏性能方面,40系列最大的性能提升来自于最新版DLSS3技术。
DLSS(DeepLearningSuperSampling,深度学习超级采样)能够调取低分辨率的当前帧和高分辨率的上一帧,使用卷积神经网络(CNN)自动编码技术来提前预测出高分辨率的当前帧。
DLSS3的最大突破,在于在深度学习超分辨率技术的基础上,增加了光学多帧生成能力,并且集成了英伟达开发的高速低延迟向量计算技术Reflex。
DLSS3采用的CNN自动编码器能够接受4个输入:当前帧、上一帧、Ada光流加速器生成的光流场数据,以及运动矢量+深度等游戏引擎数据。
最厉害的地方在于Ada光流加速器:它能够分析两个连续帧,捕捉导粒子、光照、反射、阴影等不包含在游戏运动矢量引擎计算当中的信息,捕捉这些像素在两帧之间移动的方向和速度,从而独立计算出一个光流场。
Ada光流场图示图片来源:英伟达
结果就是,从这些数据输入当中,DLSS3能够精确计算并重建出当前帧的四分之三,外加下一帧的全部,总体重建了总显示像素的八分之七。这样能够极大地提高了游戏帧率和图形质量,进一步降低传统渲染方式对GPU和CPU造成的负载。
DLSS3技术图解图片来源:英伟达
再加上全新的Shader执行重新排序(SER)技术,和CPU的乱序执行一样,是计算技术领域的重大创新,能够通过动态重新调度shader负载,更好地利用GPU内的各项资源,将光追性能提高三倍,提升25%左右的帧率
英伟达也找到波兰蠢驴合作开发了一个《赛博朋克》的光追过载模式,显示在RTX显卡上打开DLSS3之后图像输出延迟降低了一半多,帧率提升了四倍,总体性能提升约为4倍。这个模式回头也会推送给PC版玩家,在40系列显卡上可以打开。
00:00视频来源:CDProjektRed、英伟达
除了《赛博朋克》之外,包括《微软模拟飞行》、新哈利波特游戏、《黑神话:悟空》等在内的30多款游戏,也都将原生支持DLSS3技术:
图片来源:英伟达
你的游戏没在列表里?没关系。
为了向游戏爱好者群体里的图形增强Mod(模组)开发者致敬,英伟达还推出一个模组开发平台,名为RTXRemix。
RTXRemix图示图片来源:英伟达
一边玩游戏,一边打开这个工具,它能够录制游戏场景数据,直接从GPU里拦截渲染指令,包括纹理、几何体、照明数据和镜头位置等,将它们转换为通用场景描述(UniversalSceneDescription,USD)。
然后,再运用多项技术对其自动增强纹理,甚至可以让一些“上古”时代、不支持光追的32位游戏,实现光追和DLSS3支持。
最后,RTXRemix可以把这些增强结果打包生成为一个游戏Mod文件——结果就是,也许大家不用成天上NexusMods下图形增强模组了,因为有了RTXRemix,任何人理论上都可以成为模组开发者,自己动手增强自己的游戏体验!
为了更直接地展示RTXRemix的能力,英伟达和水管公司合作开发了一个原版《传送门》+RTX强化版DLC,画面质量和光影效果有了巨大提升(见下图右)
PortalRTXDLC图片来源:英伟达、Valve
总体上,RTX目前已知只有24GB显存一种配置。在开启了DLSS3时,其在光追游戏中的性能比上一代采用DLSS2的Ti显卡快4倍,总体游戏性能提升约为2倍,并且功耗维持在相同的W。
RTX有12和16GB显存两种配置,总体游戏性能提升为Ti的两倍,在DLSS3开启时性能足以超过Ti。
游戏说完,再来简单看一下创作者方面:在3D渲染、视频导出,以及AI相关任务方面,RTX的性能比Ti快两倍,16GB版本则比Ti快1.5倍。
RTX起价美元,10月12日面市;两种配置都在今年11月上市,起价分别为和美元。
不少朋友可能在不久前加密矿难的时候,才刚刚入手价格正常的30系列显卡……如果你也是这样,那么接下来的消息可能会让你些许悲伤:30系列显卡的英伟达指导价格也有所下调,比目前市价普遍低了50美元左右……
图片来源:英伟达
当然,新品发布也少不了吐槽。
华硕板卡的官方图,Mini-ITX主板+,已经不是显卡插在主板上了,而是主板插在显卡上……
图片来源:华硕
还有网友说,跟去年这个“泄露”版相比,大小似乎没差多少……
图片来源:CaptainsWorkspace
另外值得一提的是,就在上周末,全球最大的板卡厂商之一,曾被称为英伟达“亲儿子”的EVGA,突然正式宣布了和英伟达终止合作关系。尽管该公司已经完成了测试产品开发,量产已经做好准备,却明确表示将不会生产和销售EVGA品牌的40系列显卡,30系列存量仅用于售后服务,并且完全退出显卡市场……
至于原因,EVGA指责英伟达拿自己当小弟、当炮灰,不仅不及时提供产品技术和市场相关信息,还用低价foundersedition显卡打击合作伙伴的销售,一度逼得EVGA、华硕等板卡厂商下调价格。
毫无疑问的是,英伟达一边继续在显卡技术上做出大跨步式的创新,另一边由于自己的技术和市场领袖地位,确实在板卡合作方那边显得傲慢至极——不只是EVGA一家,其它厂商都有相同感受,只是没有像它这么坚决而已。
“雷神”车载超级计算机
大家应该知道,随着近十年来GPU技术驱动的深度学习突飞猛进,英伟达早已不再是纯粹的传统消费显卡厂商,也已成为了工业级AI加速计算方面的技术领导者。
在今天的GTC大会上,英伟发布了DRIVEThor,一台只靠单机架构,就能够运行自动驾驶+数字仪表盘/车机+车载信息娱乐一整套系统的车规超级计算机:
DRIVEThor图片来源:英伟达
“雷神”超级计算机,可以说是英伟达三大AI加速计算架构技术之集大成:GraceCPU、AdaLovelace架构GPU,以及Hopper多实例GPU架构。它的总体浮点运算性能高达万亿次(TFlops),比前不久刚刚实现商用的前代平台DRIVEOrin,算力实现了惊人的八倍提升。
这次升级的另一大亮点,在于英伟达首次在面向自动驾驶场景开发的车载计算机DRIVE平台中,增加了Transformer(一种主流的深度学习模型)模型的支持。
Transformer引擎在“雷神”GPU单元的HTensorCore中运行,依靠FP8(8位浮点)精度,它能够直接在车载计算机上运行包括Transformer在内的更大规模的机器学习模型,从视频当中截取感知帧,极大提升了车载算力的性能,降低了对云端服务器和连通性的要求。
黄仁勋在GTC演讲中演示了一段视频,显示“雷神”可以只靠自己就运行一辆自动驾驶汽车完整的运行、感知、决策、避让等操作,以及环境实时扫描和数据搜集等任务。
DRIVEThorroadmap图片来源:英伟达
“雷神”的另一个特性在于具备多域计算(multi-domain