☰

除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力

（原标题：除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力）

NVIDIA GTC2016如期进行，也该是NVIDIA秀实力的时候了，毫无悬念的是老黄在GTC大会上发布了首款基于帕斯卡核心的Tesla P100。但这不是GTC2016的全部，他们已经将科技树点扩展到VR和自动驾驶领域，针对VR优化的Quadro M5500M显卡、Drive PX 2自动驾驶平台以及深度学习也同时登场，除了纯粹的视觉计算之外，NVIDIA拿出了不一样的玩法。

黄仁勋一上台自然先说基于Pascal的Tesla P100。Tesla P100基于16nm FinFET工艺打造，面积610平方毫米，晶体管达到了150亿个，单精度性能提升到10.6TFlops，双精度性能5.3TFlops，要知道上一代Maxwell的GM200的单精度也只拥有7TFlops，双精度0.2TFlops，提升幅度几乎让人无法直视。

最顶级的GP100核心将同时拥有3840 CUDA核心，240个纹理单元，最高支持32GB HBM2显存、位宽4096bit。不过Tesla P100则处于能耗考虑，提供16GB HBM2显存，3584个CUDA核心，224个纹理单元，今年第四季度量产，但要等到明年第一季度才会上市。

玩家们可能要抱着GTX 980Ti再玩一会了，老黄发布的Tesla P100与游戏没什么关系，Tesla P100属于服务器级产品，事实上NVIDIA正在与IBM合作，通过NVIDIA GPU与OpenPOWER结合加速Watson的技术升级，NVLink GPU互联技术将同时支持IBM Power架构和NVIDIA Pascal架构两个部分，它能够一次性链接8个Tesla P100 GPU，而IBM POWER8上已经有所采用。

按照黄仁勋的说法，NVIDIA对Pascal GPU架构进行了重新设计，相对于Maxwell解决方案，Tesla P100要在神经网络训练上将性能提升12倍。同时半精度指令甚至还提供了超过21TFlops的峰值性能。由于Pascal架构将处理器和数据封装到一起，包含HBM2显存在内的CoWoS设计方式，也正因为如此，它的显存带宽也达到了720GB/s，相当于Maxwell架构的3倍。

Tesla P100目的在于为AMBER 分子动力学程序代码等一系列HPC和深度学习应用程序提供更快的速度，NVIDIA用48个双路CPU服务器节点作为对比，无疑Tesla P100速度完胜，而在AlexNet深度神经网络中，需要250个双路CPU服务器节点才能比得上8个Tesla P100。而针对新平台，NVIDIA SDK也将进行一系列更新，包括CUDA 8和cuDNN version 5深度神经网络基元库，方便工程师能够在调配CPU和GPU之间运算的时候，提升CUDA运行效率。

在宣布Tesla P100之后，黄仁勋紧接着推出了NVIDIA DGX-1深度学习系统，这套系统由8个Tesla P100组合而成，也就意味着8个16GB HBM2的显存组合加起来将达到128GB，这也难怪NVIDIA并没有急着让Tesla P100的GP100一步到位支持32GB HBM2。

这里老黄自信的表示NVIDIA DGX-1将匹敌250台CPU服务器及其相应的网络、线缆和机架，并且NVIDIA DGX-1拥有更大的易用性，性能提升幅度更大。在现场的PPT中NVIDIA也放出了一大波小伙伴作为NVIDIA深度学习阵营的支持者，包括Facebook、百度、微软。

与NVIDIA DGX-1随之附送的还包括一套深度学习软件、系统以及多个深度学习框架，包括Caffe、Theano以及Torch。

VR概念并分只能运用于游戏，NVIDIA早已对工作站级的VR摩拳擦掌，像钢铁侠一样的工作说不定过不了多久就能实现，而Quadro M5500M则成为一款敲门砖产品。它拥有完整的GM204核心，同时也针对VR进行优化，并且能够搭配VR Ready移动工作站。

微星MSI WT720在现场马上表明了自己的态度，这款搭载了Quadro M5500M的VR Ready移动工作站与拥有桌面级显卡GTX 980的GT72S相当类似，内置的Quadro M5500M拥有2048个CUDA，主频1050MHz、8GB GDDR5显存、256bit位宽，热设计功耗达到恐怖的150W，甚至要比GT72S更胜一筹。

Quadro M5500M并没有像Quadro M5000M那样屏蔽掉四分之一个GM204核心，它是一块完整的GM204，主要目的还是用来针对VR设计、开发以及工业设计。MSI WT720由于对VR进行了大量优化，它能完整的支持HTC VIVE和Oculus Rift设备，而所谓的VR Ready移动工作站就是为此而生，相比自己花费心思组件移动平台，这里NVIDIA直接给出了一套完整的解决方案。

老黄演讲的末端也不忘带着NVIDIA Drive PX 2再出场秀一遍，当时为了保密需要NVIDIA并没有给出详细参数，但这次他们变得十分大方，在Drive PX 2将搭载2个Pascal独立显卡，4GB GDDR5显存，带宽达到80GB/s，位宽128Bit，主频1.25GHz。此外CPU部分则拥有8个A57外加4个Denver核心，CPU核心数量达到12个，同时还搭配8GB LPDDR4内存，功耗在250W左右，因此NVIDIA也为其进行了水冷设计。

NVIDIA将Drive PX 2比喻成车载电脑中的小型超算，事实上车载电脑中不可能还有比整套更快的系统了，它的单精度性能达到8TFlops，并且已经开始交付使用，系统售价达到15000美元，也就是说没有10万软妹币，别想给车辆装上Drive PX 2。

与前几个产品一样，Drive PX 2更注重于工业使用，在GTC2016现场，NVIDIA还发布了自己的Formula E无人驾驶赛车，看起来与现在的Formula E长相出入很大，但主要还是为了证明无人驾驶在当下可实现程度的可能性。

在竞争对手回击乏力的当下，NVIDIA选择了在专业领域继续乏力，更注重能耗比的专业领域对价格的敏感程度要远比消费领域弱很多，这也意味着NVIDIA能够借助丰厚的利润让性能再提升一步。显然这场GTC与玩家们的关系不大，手中抱着GTX 980Ti担心贬值的玩家们现在大可放心，真正的旗舰级游戏显卡更新很可能要明年才会来。同时那些想着GTX 980Ti降价的玩家们也只能等到明年，配合着新的CPU更新换台新电脑才是最好的选择。

除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力

相关资讯