除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力

(原标题:除了帕斯卡 NVIDIA还要在自动驾驶和VR上发力)

NVIDIA GTC2016如期进行,也该是NVIDIA秀实力时候了,毫无悬念的是老黄在GTC大会上发布了首款基于帕斯卡核心的Tesla P100。但这不是GTC2016的全部,他们已经将科技树点扩展到VR和自动驾驶领域,针对VR优化的Quadro M5500M显卡、Drive PX 2自动驾驶平台以及深度学习也同时登场,除了纯粹的视觉计算之外,NVIDIA拿出了不一样的玩法

黄仁勋一上台自然先说基于Pascal的Tesla P100。Tesla P100基于16nm FinFET工艺打造,面积610平方毫米,晶体管达到了150亿个,精度性能提升到10.6TFlops,双精度性能5.3TFlops,要知道上一代Maxwell的GM200的单精度也只拥有7TFlops,双精度0.2TFlops,提升幅度几乎让人无法直视。

顶级的GP100核心将同时拥有3840 CUDA核心,240个纹理单元,最高支持32GB HBM2显存、位宽4096bit。不过Tesla P100则处于能耗考虑,提供16GB HBM2显存,3584个CUDA核心,224个纹理单元,今年第四季度量产,但要等到明年第一季度才会上市。

玩家们可能要抱着GTX 980Ti再玩一会了,老黄发布的Tesla P100与游戏没什么关系,Tesla P100属于服务器产品,事实上NVIDIA正在与IBM合作,通过NVIDIA GPU与OpenPOWER结合加速Watson的技术升级,NVLink GPU互联技术将同时支持IBM Power架构和NVIDIA Pascal架构两个部分,它能够一次性链接8个Tesla P100 GPU,而IBM POWER8上已经有所采用。

按照黄仁勋的说法,NVIDIA对Pascal GPU架构进行了重新设计,相对于Maxwell解决方案,Tesla P100要在神经网络训练上将性能提升12倍。同时半精度指令甚至还提供了超过21TFlops的峰值性能。由于Pascal架构将处理器和数据封装到一起,包含HBM2显存在内的CoWoS设计方式,也正因为如此,它的显存带宽也达到了720GB/s,相当于Maxwell架构的3倍。

Tesla P100目的在于为AMBER 分子动力学程序代码等一系列HPC和深度学习应用程序提供更快的速度,NVIDIA用48个双路CPU服务器节点作为对比,无疑Tesla P100速度完胜,而在AlexNet深度神经网络中,需要250个双路CPU服务器节点才能比得上8个Tesla P100。而针对新平台,NVIDIA SDK也将进行一系列更新,包括CUDA 8和cuDNN version 5深度神经网络基元库,方便工程师能够在调配CPU和GPU之间运算的时候,提升CUDA运行效率

在宣布Tesla P100之后,黄仁勋紧接着推出了NVIDIA DGX-1深度学习系统,这套系统由8个Tesla P100组合而成,也就意味着8个16GB HBM2的显存组合加起来将达到128GB,这也难怪NVIDIA并没有急着让Tesla P100的GP100一步到位支持32GB HBM2。

这里老黄自信的表示NVIDIA DGX-1将匹敌250台CPU服务器及其相应的网络、线缆机架,并且NVIDIA DGX-1拥有更大的易用性,性能提升幅度更大。在现场的PPT中NVIDIA也放出了一大波小伙伴作为NVIDIA深度学习阵营支持者,包括Facebook、百度、微软。

与NVIDIA DGX-1随之附送的还包括一套深度学习软件、系统以及多个深度学习框架,包括Caffe、Theano以及Torch。

VR概念并分只能运用于游戏,NVIDIA早已对工作站级的VR摩拳擦掌,像钢铁侠一样的工作说不定过不了多久就能实现,而Quadro M5500M则成为一款敲门砖产品。它拥有完整的GM204核心,同时也针对VR进行优化,并且能够搭配VR Ready移动工作站。

微星MSI WT720在现场马上表明了自己的态度,这款搭载了Quadro M5500M的VR Ready移动工作站与拥有桌面级显卡GTX 980的GT72S相当类似,内置的Quadro M5500M拥有2048个CUDA,主频1050MHz、8GB GDDR5显存、256bit位宽,热设计功耗达到恐怖的150W,甚至要比GT72S更胜一筹。

Quadro M5500M并没有像Quadro M5000M那样屏蔽掉四分之一个GM204核心,它是一块完整的GM204,主要目的还是用来针对VR设计、开发以及工业设计。MSI WT720由于对VR进行了大量优化,它能完整的支持HTC VIVE和Oculus Rift设备,而所谓的VR Ready移动工作站就是为此而生,相比自己花费心思组件移动平台,这里NVIDIA直接给出了一套完整的解决方案。

老黄演讲的末端也不忘带着NVIDIA Drive PX 2再出场秀一遍,当时为了保密需要NVIDIA并没有给出详细参数,但这次他们变得十分大方,在Drive PX 2将搭载2个Pascal独立显卡,4GB GDDR5显存,带宽达到80GB/s,位宽128Bit,主频1.25GHz。此外CPU部分则拥有8个A57外加4个Denver核心,CPU核心数量达到12个,同时还搭配8GB LPDDR4内存,功耗在250W左右,因此NVIDIA也为其进行了水冷设计。

NVIDIA将Drive PX 2比喻车载电脑中的小型超算,事实上车载电脑中不可能还有比整套更快的系统了,它的单精度性能达到8TFlops,并且已经开始交付使用,系统售价达到15000美元,也就是说没有10万软妹币,别想给车辆装上Drive PX 2。

与前几个产品一样,Drive PX 2更注重于工业使用,在GTC2016现场,NVIDIA还发布了自己的Formula E无人驾驶赛车,看起来与现在的Formula E长相出入很大,但主要还是为了证明无人驾驶在当下可实现程度的可能性。

竞争对手回击乏力的当下,NVIDIA选择了在专业领域继续乏力,更注重能耗比的专业领域对价格的敏感程度要远比消费领域弱很多,这也意味着NVIDIA能够借助丰厚的利润让性能再提升一步。显然这场GTC与玩家们的关系不大,手中抱着GTX 980Ti担心贬值的玩家们现在大可放心,真正的旗舰级游戏显卡更新很可能要明年才会来。同时那些想着GTX 980Ti降价的玩家们也只能等到明年,配合着新的CPU更新换台新电脑才是最好的选择。