大家好,今天来为大家分享7倍AI算力芯片,TensorRT重大更新,NVIDIA GTC新品全面介绍的一些知识点,和的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!
12月18日,黄仁勋在苏州举办的NVIDIA GTC CHINA上发布了自动驾驶芯片ORIN。 ORIN 被认为是包含170 亿个晶体管的“片上系统”。该产品或将帮助英伟达重新夺回在AI算力方面的领先地位。
今年GTC会议主题涵盖AI框架、开发工具、数据科学、云计算、实时渲染、光线追踪、5G通信等,垂直方向包括自动驾驶、智能机器、医疗与金融、设计等领域和工程制造。
在GTC上,NVIDIA还发布了新的TensorRT 7.0版本,通过全栈优化,继续加速超越摩尔定律的算力。在过去的一年里,NVIDIA围绕CUDA等工具陆续发布了500多个SDK和库。深度学习的训练能力在过去三年内增长了四倍,深度学习的推理能力在一年内增长了三倍。
最强自动驾驶芯片:性能提升7倍
作为NVIDIA的年度盛事,新处理器的发布自然是必不可少的一环。 NVIDIA在今天的GTC上推出的下一代自动驾驶芯片NVIDIA DRIVE AGX ORIN成为整个大会的焦点。
该芯片提供的计算能力可达200TOPS,是英伟达之前芯片Drive Xaiver的7倍,也超过了特斯拉今年推出的自动驾驶芯片Autopilot Hardware 3.0(144TOPS)。
“ORIN包含170亿个晶体管和8个核心,性能相当于Xavier的7倍,”黄说。 “同时,它还具有新的安全功能,使CPU 和GPU 能够同步运行。”
在NVIDIA的路线图中,Orin系列可以覆盖L2到L5的自动驾驶技术。它代表了一种与现有Xavier 兼容的新架构。通过与现有的软件和硬件(包括GPU)相结合,NVIDIA可以提供更高效的自动驾驶解决方案。 Orin 系列计划于2022 年开始生产。
黄仁勋现场宣布,滴滴将使用GPU在数据中心训练机器学习算法,并使用DRIVE为其L4级自动驾驶车辆提供推理能力。
采访中,黄仁勋对Orin在自动驾驶场景下的安全性进行了补充说明。他表示,Orin并不是一个简单的芯片。它参考数据中心进行设计,支持虚拟化,采用应用程序隔离,并拥有足够快的加速引擎,可以对内存中涉及的所有计算进行加密。设置了四个密钥,让每辆车的计算都是唯一的;同时,增加了防篡改解决方案。
几年前,人们认为自动驾驶将在2020年达到拐点,ORIN的推出可能会加速这一进程。但即使在自动驾驶以外的领域,英伟达也希望通过自己的技术为汽车制造带来变革。
“我们希望不断提高汽车的自动驾驶和安全性。即使在非自动驾驶汽车中,智能技术的引入也可以提高安全性,比如安全气囊、ABS等功能,这将对乘客的安全产生很大的好处。 ” Nvidia 汽车部门高级总裁丹尼·夏皮罗(Danny Shapiro) 表示。
“我们的目标不是自动驾驶汽车,而是致力于为全球各个车企提供智能驾驶计算设备。我们希望未来的汽车、卡车、送货机器人都能够具备完整的自动驾驶能力。 ”黄仁勋介绍到。
除了硬件之外,NVIDIA还宣布在NGC上推出NVIDIA DRIVE预训练模型。这次,通过迁移学习,预训练的模型可以适应OEM 的特定车辆、传感器和区域要求,并更快地部署在道路上。
当然还有联邦学习。现在很多企业都希望通过这种方式来解决数据隐私问题。 NVIDIA提供的Drive Federated Server Global Model可以提供给各个OEM厂商,帮助他们改进自己的模型,并结合各自的数据提供彼此的模型水平。
现场,NVIDIA还展示了物体操纵机器人LEONARDO,它可以在现实世界中通过人类引导(交互)快速学习堆叠积木等技能。使用深度摄像头、GPU 和虚拟环境Issac Gym,机器人只需几个示例即可快速学习新技能。
与腾讯合作将PC游戏带到云端
英伟达推出的光线追踪技术RTX今年正逐渐被各游戏厂商和专业软件公司所接受。在今天的GTC上,黄仁勋首先介绍了图形技术的最新应用。首当其冲的是国赛《我的世界》。支持RTX渲染的新版本《我的世界》将于2020年发布。RTX将支持其实时GI(全局照明)和一般反射等光照效果。
发布会上,黄仁勋宣布RTX技术支持一系列国产游戏,包括《Project X》、《轩辕剑 7》等。还有一个更强大的案例,FYQD工作室出品的《光明记忆:无限》。借助RTX技术,只需一个人即可构建完美的3D全局照明效果。
在GTC上,英伟达宣布与腾讯合作推出START云游戏服务,将电脑游戏体验带到云端。业界领先的GPU将为全国数百万玩家带来更好的游戏体验。首批支持的游戏将包括《流放之路》、《NBA(2K)》、《FIFA 4》、《炫舞时代》等。
据介绍,NVIDIA的GPU技术为腾讯游戏的START云游戏服务提供支持,该服务自今年年初以来已进入测试阶段。 START 使玩家能够随时随地玩AAA 游戏,甚至可以在未指定的设备上玩。腾讯游戏计划扩展其云游戏产品,为数百万玩家提供与本地游戏设备一致的游戏体验。
在专业领域,Nvidia发布了许多新的软件产品。 RTX Studio 为内容工作者提供40 多种产品,从配备GeForce RTX 2060 的Max-Q 笔记本电脑到配备4 路SLI Quadro RTX 8000 的工作站和配备8 路RTX 8000 的服务器。
OMNIVERSE 利用NVIDIA RTX RT 核心、CUDA 核心和支持Tensor Core 的AI 实时提供最高质量的逼真图像。它支持皮克斯的通用场景描述技术,用于在多个应用程序之间交换有关建模、着色、动画、灯光、视觉效果和渲染的信息。
目前,OMNIVERSE 实施了多种行业标准的图形开发程序,例如Autodesk Maya、Adobe Photoshop 和Epic Games 的Unreal Engine。
现场,NVIDIA展示了OMNIVERSE AEC开放3D设计协作平台的强大功能,以及深圳华润大厦在配备8通道RTX 8000的RTX服务器上的实时渲染流程。
“买得越多,省得越多”,黄仁勋表示,并推出了由RTX驱动的端到云渲染能力,特别是在性能方面。与CPU相比,RXT解决方案速度快12倍,成本低7倍。原本需要485 小时渲染的场景现在只需不到40 小时即可完成。
CUDA 开放ARM 支持
在介绍了RTX技术的发展之后,黄仁勋介绍了NVIDIA高性能计算。
“2030年,NASA计划登陆火星,六名宇航员将以每小时12000公里的速度进入火星大气层,他们必须在6分钟内准确点火并减速软着陆。”黄仁勋说道。 NASA 使用FUN3D 流体动力学软件在NVIDIA GPU 上运行了数十万次火星登陆场景模拟,这些工作生成了150TB 的数据。这是一个典型的HPC 挑战,Nvidia 表示这项工作是通过在DGX-2 上运行的Magnum IO GPU 直接存储技术完成的。
GPU 还可以执行全基因组测序。在CUDA的帮助下,华大基因的生命科学超级计算机目前可以实现每天60个基因组的吞吐量。用于完成这项工作的华大基因MGI-T7超级计算机体积并不大,只需要一个节点。
NVIDIA推出了Parabricks基因组分析工具包,该工具包基于CUDA加速,并提供DeepVariant工具。它利用深度学习进行基因组变异检测,可以实现30-50倍的加速。它用于发现变体并生成符合行业标准GATK 最佳实践流程的结果。结果。
CUDA 的两个新应用。通过与爱立信的合作,CUDA可以提高5G RAN的性能。 “通过实时计算,我们可以提高复杂空间中5G信号的覆盖范围。”黄说。 “5G覆盖非常复杂,我们可以利用GPU来解决3D物理空间的信号优化问题。”
“几乎每个人都有ARM 设备,许多科技巨头都在打造自己的ARM 芯片,”黄说。 “首先,它非常强大。其次,人们也在构建超大规模计算系统,而在这个过程中,统一的架构效果更好。” Nvidia今年已经开始拥抱ARM生态系统,并为相应架构提供CUDA支持。
“如果说HPC 上有一个最重要的应用程序,那么毫无疑问就是TensorFlow,”黄仁勋说道。 TensorFlow 2.0 版本现在具有针对ARM 架构的CUDA 加速。
早在2012 年,AlexNet 通过解决计算机视觉问题引发了深度学习的爆炸式增长。 2018年,预训练的AI模型BERT可以让计算机学习人类编码,让计算机逐渐学会与人类进行自然对话,为我们阅读文章并总结要点,然后更自然地与我们合作。
这背后是GPU提供的计算能力。过去五年,神经网络的训练速度提高了300倍。 ——ResNet-50网络的训练速度从600年缩短到仅需2小时。
如今,NVIDIA的AI已经覆盖各行各业,影响了很多人。经过DGX 训练的神经网络将为HGX 服务的云端、EGX 服务的工业终端以及AGX 代表的消费设备中的人们带来自动化便利。
百度的推荐系统将采用NVIDIA AI,其中AIBox推荐系统采用Wide和Deep结构。
百度海量的用户潜在兴趣数据包含数千亿个稀疏离散特征和10TB的嵌入词汇。百度的众多应用中使用了100多个推荐模型。这些模型每周都会更新。他们了解用户的潜在兴趣、新项目和特征。 “训练这些模型的GPU成本仅为CPU的1/10,并且支持更大规模的模型训练。”黄仁勋说道。
“双十一是全宇宙最神奇的节日,这一天卖出了20亿件商品,卖出了5亿人,他们这一天都不上班吗?”黄说。借助NVIDIA GPU 的帮助,阿里巴巴实现了每秒数十亿次的推荐请求。使用世界上所有的CPU 手动完成这个数量的请求是不可能的。
TensorRT 7.0增加BERT独家优化
NVIDIA的TensorRT是一个GPU加速的高性能深度学习库,可以为各种深度学习算法带来高速、低延迟的优化。该产品支持所有主流深度学习框架。
在18日的大会上,NVIDIA发布了最新一代TensorRT 7.0版本,增加了对BERT、RoBERTa、Tacotron 2等大量新模型的加速支持。TRT 7可以融合水平和垂直运算,自动生成代码开发人员设计的大规模RNN配置,逐点融合LSTM单元,甚至跨多个时间步进行融合,在过程推理中进行自动低精度处理。
总而言之,TensorRT 7 实现了1,000 多种不同的计算转换和优化。 “这是一个巨大的飞跃。它可以最大限度地利用显存并提高效率,”黄说。
最直观的优化是什么? NVIDIA介绍,TensorRT 7可以带来实时交互的AI体验:在支持交互和绘画AI方面,一个端到端的过程可能需要20-30个不同的AI模型,包括很多不同的模型结构,从CNN、RNN、transfomer、自动编码器,MLP。使用新版本的TensorRT,我们可以编译和优化所有模型,在ASR和NLUTTS上的延迟低于300ms,比CPU快10倍。
NVIDIA 相信,从AI 云到智能手机的智能系统如今已经触及各行各业和数十亿人。 “现在是各行各业享受智能革命的时候了。”黄说。
最后,在本次GTC上,Nvidia并没有对其GPU产品进行任何工艺更新。对此,黄仁勋告诉机器心:“过程很重要,但不是最重要的。这两年,我们把AI的算力提升了四倍,这是不可能靠依靠来实现的。”单纯靠工艺改进。在GPU的世界里,提升性能的方式与CPU不同,比如RTX系列芯片和光线追踪技术在加速计算领域已经达到了AMD 7nm工艺GPU的性能。为了实现最大效率,算法、架构和软件应用程序需要协同工作,NVIDIA 的架构与其他品牌的架构不同。”
用户评论
这块芯片听着就很厉害的样子啊!终于不用担心模型训练速度慢了,我的项目这下能更快落地了!想问问有哪些具体的应用场景可以用到呢?
有13位网友表示赞同!
7倍AI算力,真的期待看到这个新芯片在实际应用中的表现!英伟达这次更新很用心,TensorRT我也经常用啊,现在功能更丰富真是太棒了!
有16位网友表示赞同!
英伟达每次新品发布都很让人激动啊!期待看到GTC上更多惊喜,这7倍算力的芯片简直是AI领域的一大进步,希望可以普及到更多领域!
有20位网友表示赞同!
TensorRT更新?感觉这个新闻有点内卷了一点吧?对于我们普通用户来说,真的有那么大的实用性吗?
有12位网友表示赞同!
一直关注英伟达的最新进展。7倍算力芯片,听起来很酷炫,但具体效果得等实际应用测试才能看到。期待GTC上更多详细信息的解读。
有12位网友表示赞同!
对于机器学习爱好者来说,这些技术更新真是太神了!我已经迫不及待想要了解一下这个新芯片的性能表现和使用指南! <br>
有8位网友表示赞同!
话说回来,算力提升的同时会不会导致能源消耗更大呢?希望英伟达能够兼顾技术的进步和绿色环保的需求。
有15位网友表示赞同!
7倍AI算力的芯片听起来很有前景啊,不知道什么时候能实现大规模应用,希望早日看到这个技术应用于医疗、教育等各个领域!
有5位网友表示赞同!
TensorRT的更新也很多新功能,我一直在研究深度学习算法,这些更新能够帮助我更高效地開發项目和模型!
有19位网友表示赞同!
英伟达这次新品发布太令人期待了,不知道具体价格会不会比较高...
有16位网友表示赞同!
7倍算力芯片能带来什么改变?感觉很有意思,希望这个新技术能够让我们在人工智能领域取得更突破性的进展!
有12位网友表示赞同!
这篇文章介绍的挺详细的,让我对英伟达的新产品有了初步了解。我还想了解一下具体应用案例,以便更好地理解这方面的最新趋势。
有12位网友表示赞同!
虽然我不是AI专业人士,但也能感受到技术发展的脚步越来越快!希望科技进步能够为我们带来更多便利和美好生活!
有15位网友表示赞同!
我一直关注英伟达的发展,7倍算力芯片确实是个突破性的改变!期待看到它在未来人工智能领域中的应用!
有5位网友表示赞同!
TensorRT作为一款优秀的推理框架,希望这次更新能进一步提升用户的使用体验和性能表现。 对于像我这样的开发者来说,更强大的工具能够帮助我们更好地完成研究工作。
有18位网友表示赞同!
7倍算力芯片确实能提高人工智能的算力水平,但我觉得还要考虑其他因素,比如算法设计、数据质量等。仅仅依靠硬件的提升无法推动AI技术的全面发展!
有19位网友表示赞同!
感觉这篇文章重点介绍了英伟达新产品的硬核性能,但对于一些普通用户来说,更关心的是这些技术能为他们带来哪些实际生活便利。
有8位网友表示赞同!
一直在学习人工智能相关的知识,看到英伟达新款芯片发布的消息很激动!希望将来能够有机会用它来开发自己的项目!
有14位网友表示赞同!