7倍AI算力芯片，TensorRT重大更新，NVIDIA GTC新品全面介绍

发布时间：2024-10-20浏览：74

大家好，今天来为大家分享7倍AI算力芯片，TensorRT重大更新，NVIDIA GTC新品全面介绍的一些知识点，和的问题解析，大家要是都明白，那么可以忽略，如果不太清楚的话可以看看本篇文章，相信很大概率可以解决您的问题，接下来我们就一起来看看吧！

12月18日，黄仁勋在苏州举办的NVIDIA GTC CHINA上发布了自动驾驶芯片ORIN。 ORIN 被认为是包含170 亿个晶体管的“片上系统”。该产品或将帮助英伟达重新夺回在AI算力方面的领先地位。

今年GTC会议主题涵盖AI框架、开发工具、数据科学、云计算、实时渲染、光线追踪、5G通信等，垂直方向包括自动驾驶、智能机器、医疗与金融、设计等领域和工程制造。

在GTC上，NVIDIA还发布了新的TensorRT 7.0版本，通过全栈优化，继续加速超越摩尔定律的算力。在过去的一年里，NVIDIA围绕CUDA等工具陆续发布了500多个SDK和库。深度学习的训练能力在过去三年内增长了四倍，深度学习的推理能力在一年内增长了三倍。

最强自动驾驶芯片：性能提升7倍

作为NVIDIA的年度盛事，新处理器的发布自然是必不可少的一环。 NVIDIA在今天的GTC上推出的下一代自动驾驶芯片NVIDIA DRIVE AGX ORIN成为整个大会的焦点。

该芯片提供的计算能力可达200TOPS，是英伟达之前芯片Drive Xaiver的7倍，也超过了特斯拉今年推出的自动驾驶芯片Autopilot Hardware 3.0（144TOPS）。

“ORIN包含170亿个晶体管和8个核心，性能相当于Xavier的7倍，”黄说。 “同时，它还具有新的安全功能，使CPU 和GPU 能够同步运行。”

在NVIDIA的路线图中，Orin系列可以覆盖L2到L5的自动驾驶技术。它代表了一种与现有Xavier 兼容的新架构。通过与现有的软件和硬件（包括GPU）相结合，NVIDIA可以提供更高效的自动驾驶解决方案。 Orin 系列计划于2022 年开始生产。

黄仁勋现场宣布，滴滴将使用GPU在数据中心训练机器学习算法，并使用DRIVE为其L4级自动驾驶车辆提供推理能力。

采访中，黄仁勋对Orin在自动驾驶场景下的安全性进行了补充说明。他表示，Orin并不是一个简单的芯片。它参考数据中心进行设计，支持虚拟化，采用应用程序隔离，并拥有足够快的加速引擎，可以对内存中涉及的所有计算进行加密。设置了四个密钥，让每辆车的计算都是唯一的；同时，增加了防篡改解决方案。

几年前，人们认为自动驾驶将在2020年达到拐点，ORIN的推出可能会加速这一进程。但即使在自动驾驶以外的领域，英伟达也希望通过自己的技术为汽车制造带来变革。

“我们希望不断提高汽车的自动驾驶和安全性。即使在非自动驾驶汽车中，智能技术的引入也可以提高安全性，比如安全气囊、ABS等功能，这将对乘客的安全产生很大的好处。 ” Nvidia 汽车部门高级总裁丹尼·夏皮罗(Danny Shapiro) 表示。

“我们的目标不是自动驾驶汽车，而是致力于为全球各个车企提供智能驾驶计算设备。我们希望未来的汽车、卡车、送货机器人都能够具备完整的自动驾驶能力。 ”黄仁勋介绍到。

除了硬件之外，NVIDIA还宣布在NGC上推出NVIDIA DRIVE预训练模型。这次，通过迁移学习，预训练的模型可以适应OEM 的特定车辆、传感器和区域要求，并更快地部署在道路上。

当然还有联邦学习。现在很多企业都希望通过这种方式来解决数据隐私问题。 NVIDIA提供的Drive Federated Server Global Model可以提供给各个OEM厂商，帮助他们改进自己的模型，并结合各自的数据提供彼此的模型水平。

现场，NVIDIA还展示了物体操纵机器人LEONARDO，它可以在现实世界中通过人类引导（交互）快速学习堆叠积木等技能。使用深度摄像头、GPU 和虚拟环境Issac Gym，机器人只需几个示例即可快速学习新技能。

与腾讯合作将PC游戏带到云端

英伟达推出的光线追踪技术RTX今年正逐渐被各游戏厂商和专业软件公司所接受。在今天的GTC上，黄仁勋首先介绍了图形技术的最新应用。首当其冲的是国赛《我的世界》。支持RTX渲染的新版本《我的世界》将于2020年发布。RTX将支持其实时GI（全局照明）和一般反射等光照效果。

发布会上，黄仁勋宣布RTX技术支持一系列国产游戏，包括《Project X》、《轩辕剑 7》等。还有一个更强大的案例，FYQD工作室出品的《光明记忆：无限》。借助RTX技术，只需一个人即可构建完美的3D全局照明效果。

在GTC上，英伟达宣布与腾讯合作推出START云游戏服务，将电脑游戏体验带到云端。业界领先的GPU将为全国数百万玩家带来更好的游戏体验。首批支持的游戏将包括《流放之路》、《NBA（2K）》、《FIFA 4》、《炫舞时代》等。

据介绍，NVIDIA的GPU技术为腾讯游戏的START云游戏服务提供支持，该服务自今年年初以来已进入测试阶段。 START 使玩家能够随时随地玩AAA 游戏，甚至可以在未指定的设备上玩。腾讯游戏计划扩展其云游戏产品，为数百万玩家提供与本地游戏设备一致的游戏体验。

在专业领域，Nvidia发布了许多新的软件产品。 RTX Studio 为内容工作者提供40 多种产品，从配备GeForce RTX 2060 的Max-Q 笔记本电脑到配备4 路SLI Quadro RTX 8000 的工作站和配备8 路RTX 8000 的服务器。

OMNIVERSE 利用NVIDIA RTX RT 核心、CUDA 核心和支持Tensor Core 的AI 实时提供最高质量的逼真图像。它支持皮克斯的通用场景描述技术，用于在多个应用程序之间交换有关建模、着色、动画、灯光、视觉效果和渲染的信息。

目前，OMNIVERSE 实施了多种行业标准的图形开发程序，例如Autodesk Maya、Adobe Photoshop 和Epic Games 的Unreal Engine。

现场，NVIDIA展示了OMNIVERSE AEC开放3D设计协作平台的强大功能，以及深圳华润大厦在配备8通道RTX 8000的RTX服务器上的实时渲染流程。

“买得越多，省得越多”，黄仁勋表示，并推出了由RTX驱动的端到云渲染能力，特别是在性能方面。与CPU相比，RXT解决方案速度快12倍，成本低7倍。原本需要485 小时渲染的场景现在只需不到40 小时即可完成。

CUDA 开放ARM 支持

在介绍了RTX技术的发展之后，黄仁勋介绍了NVIDIA高性能计算。

“2030年，NASA计划登陆火星，六名宇航员将以每小时12000公里的速度进入火星大气层，他们必须在6分钟内准确点火并减速软着陆。”黄仁勋说道。 NASA 使用FUN3D 流体动力学软件在NVIDIA GPU 上运行了数十万次火星登陆场景模拟，这些工作生成了150TB 的数据。这是一个典型的HPC 挑战，Nvidia 表示这项工作是通过在DGX-2 上运行的Magnum IO GPU 直接存储技术完成的。

GPU 还可以执行全基因组测序。在CUDA的帮助下，华大基因的生命科学超级计算机目前可以实现每天60个基因组的吞吐量。用于完成这项工作的华大基因MGI-T7超级计算机体积并不大，只需要一个节点。

NVIDIA推出了Parabricks基因组分析工具包，该工具包基于CUDA加速，并提供DeepVariant工具。它利用深度学习进行基因组变异检测，可以实现30-50倍的加速。它用于发现变体并生成符合行业标准GATK 最佳实践流程的结果。结果。

CUDA 的两个新应用。通过与爱立信的合作，CUDA可以提高5G RAN的性能。 “通过实时计算，我们可以提高复杂空间中5G信号的覆盖范围。”黄说。 “5G覆盖非常复杂，我们可以利用GPU来解决3D物理空间的信号优化问题。”

“几乎每个人都有ARM 设备，许多科技巨头都在打造自己的ARM 芯片，”黄说。 “首先，它非常强大。其次，人们也在构建超大规模计算系统，而在这个过程中，统一的架构效果更好。” Nvidia今年已经开始拥抱ARM生态系统，并为相应架构提供CUDA支持。

“如果说HPC 上有一个最重要的应用程序，那么毫无疑问就是TensorFlow，”黄仁勋说道。 TensorFlow 2.0 版本现在具有针对ARM 架构的CUDA 加速。

早在2012 年，AlexNet 通过解决计算机视觉问题引发了深度学习的爆炸式增长。 2018年，预训练的AI模型BERT可以让计算机学习人类编码，让计算机逐渐学会与人类进行自然对话，为我们阅读文章并总结要点，然后更自然地与我们合作。

这背后是GPU提供的计算能力。过去五年，神经网络的训练速度提高了300倍。 ——ResNet-50网络的训练速度从600年缩短到仅需2小时。

如今，NVIDIA的AI已经覆盖各行各业，影响了很多人。经过DGX 训练的神经网络将为HGX 服务的云端、EGX 服务的工业终端以及AGX 代表的消费设备中的人们带来自动化便利。

百度的推荐系统将采用NVIDIA AI，其中AIBox推荐系统采用Wide和Deep结构。

百度海量的用户潜在兴趣数据包含数千亿个稀疏离散特征和10TB的嵌入词汇。百度的众多应用中使用了100多个推荐模型。这些模型每周都会更新。他们了解用户的潜在兴趣、新项目和特征。 “训练这些模型的GPU成本仅为CPU的1/10，并且支持更大规模的模型训练。”黄仁勋说道。

“双十一是全宇宙最神奇的节日，这一天卖出了20亿件商品，卖出了5亿人，他们这一天都不上班吗？”黄说。借助NVIDIA GPU 的帮助，阿里巴巴实现了每秒数十亿次的推荐请求。使用世界上所有的CPU 手动完成这个数量的请求是不可能的。

TensorRT 7.0增加BERT独家优化

NVIDIA的TensorRT是一个GPU加速的高性能深度学习库，可以为各种深度学习算法带来高速、低延迟的优化。该产品支持所有主流深度学习框架。

在18日的大会上，NVIDIA发布了最新一代TensorRT 7.0版本，增加了对BERT、RoBERTa、Tacotron 2等大量新模型的加速支持。TRT 7可以融合水平和垂直运算，自动生成代码开发人员设计的大规模RNN配置，逐点融合LSTM单元，甚至跨多个时间步进行融合，在过程推理中进行自动低精度处理。

总而言之，TensorRT 7 实现了1,000 多种不同的计算转换和优化。 “这是一个巨大的飞跃。它可以最大限度地利用显存并提高效率，”黄说。

最直观的优化是什么？ NVIDIA介绍，TensorRT 7可以带来实时交互的AI体验：在支持交互和绘画AI方面，一个端到端的过程可能需要20-30个不同的AI模型，包括很多不同的模型结构，从CNN、RNN、transfomer、自动编码器，MLP。使用新版本的TensorRT，我们可以编译和优化所有模型，在ASR和NLUTTS上的延迟低于300ms，比CPU快10倍。

NVIDIA 相信，从AI 云到智能手机的智能系统如今已经触及各行各业和数十亿人。 “现在是各行各业享受智能革命的时候了。”黄说。

最后，在本次GTC上，Nvidia并没有对其GPU产品进行任何工艺更新。对此，黄仁勋告诉机器心：“过程很重要，但不是最重要的。这两年，我们把AI的算力提升了四倍，这是不可能靠依靠来实现的。”单纯靠工艺改进。在GPU的世界里，提升性能的方式与CPU不同，比如RTX系列芯片和光线追踪技术在加速计算领域已经达到了AMD 7nm工艺GPU的性能。为了实现最大效率，算法、架构和软件应用程序需要协同工作，NVIDIA 的架构与其他品牌的架构不同。”

用户评论

发型不乱一切好办

这块芯片听着就很厉害的样子啊！终于不用担心模型训练速度慢了，我的项目这下能更快落地了！想问问有哪些具体的应用场景可以用到呢？

有13位网友表示赞同！

我绝版了i

7倍AI算力，真的期待看到这个新芯片在实际应用中的表现！英伟达这次更新很用心，TensorRT我也经常用啊，现在功能更丰富真是太棒了！

有16位网友表示赞同！

不识爱人心

英伟达每次新品发布都很让人激动啊！期待看到GTC上更多惊喜，这7倍算力的芯片简直是AI领域的一大进步，希望可以普及到更多领域!

有20位网友表示赞同！

你瞒我瞒

TensorRT更新？感觉这个新闻有点内卷了一点吧？对于我们普通用户来说，真的有那么大的实用性吗？

有12位网友表示赞同！

夏至离别

一直关注英伟达的最新进展。7倍算力芯片，听起来很酷炫，但具体效果得等实际应用测试才能看到。期待GTC上更多详细信息的解读。

有12位网友表示赞同！

一点一点把你清空

对于机器学习爱好者来说，这些技术更新真是太神了！我已经迫不及待想要了解一下这个新芯片的性能表现和使用指南！ <br>

有8位网友表示赞同！

〆mè村姑

话说回来，算力提升的同时会不会导致能源消耗更大呢？希望英伟达能够兼顾技术的进步和绿色环保的需求。

有15位网友表示赞同！

红尘滚滚

7倍AI算力的芯片听起来很有前景啊，不知道什么时候能实现大规模应用，希望早日看到这个技术应用于医疗、教育等各个领域!

有5位网友表示赞同！

柠栀

TensorRT的更新也很多新功能，我一直在研究深度学习算法，这些更新能够帮助我更高效地開發项目和模型！

有19位网友表示赞同！

遗憾最汹涌

英伟达这次新品发布太令人期待了，不知道具体价格会不会比较高...

有16位网友表示赞同！

妄灸

7倍算力芯片能带来什么改变？感觉很有意思，希望这个新技术能够让我们在人工智能领域取得更突破性的进展！

有12位网友表示赞同！

经典的对白

这篇文章介绍的挺详细的，让我对英伟达的新产品有了初步了解。我还想了解一下具体应用案例，以便更好地理解这方面的最新趋势。

有12位网友表示赞同！

罪歌

虽然我不是AI专业人士，但也能感受到技术发展的脚步越来越快！希望科技进步能够为我们带来更多便利和美好生活！

有15位网友表示赞同！

日久见人心

我一直关注英伟达的发展，7倍算力芯片确实是个突破性的改变！期待看到它在未来人工智能领域中的应用!

有5位网友表示赞同！

孤单*无名指

TensorRT作为一款优秀的推理框架，希望这次更新能进一步提升用户的使用体验和性能表现。对于像我这样的开发者来说，更强大的工具能够帮助我们更好地完成研究工作。

有18位网友表示赞同！

孤自凉丶

7倍算力芯片确实能提高人工智能的算力水平，但我觉得还要考虑其他因素，比如算法设计、数据质量等。仅仅依靠硬件的提升无法推动AI技术的全面发展！

有19位网友表示赞同！

沐晴つ

感觉这篇文章重点介绍了英伟达新产品的硬核性能，但对于一些普通用户来说，更关心的是这些技术能为他们带来哪些实际生活便利。

有8位网友表示赞同！

虚伪了的真心

一直在学习人工智能相关的知识，看到英伟达新款芯片发布的消息很激动！希望将来能够有机会用它来开发自己的项目！

有14位网友表示赞同！

热点资讯