NVIDIA TensorRT 3大幅加速超大规模资料中心的

  • NVIDIA TensorRT 3大幅加速超大规模资料中心的 AI推论

    NVIDIA TensorRT 3大幅加速超大规模资料中心的

    阿里巴巴、百度、腾讯、京东以及海康威视等企业皆採用 NVIDIA TensorRT 开发可编程推论加速系统

    NVIDIA (辉达) 今天宣布发表全新 NVIDIA® TensorRT 3 AI 推论软体,其针对从云端到终端包括自驾车与机器人在内的各种装置,大幅提升效能且同时降低成本。

    TensorRT 3 与NVIDIA GPU的结合将能在各种 AI 服务应用的框架上,包含影像与语音辨识、自然语言处理、图像搜寻以及提供个人化建议等,发挥超高速且高效率的推论运算。其中,TensorRT 与 NVIDIA Tesla® GPU 加速器的组合不仅速度比 CPU 高 40 倍(1),其成本更只有 CPU 解决方案的十分之一(2)。

    NVIDIA创办人暨执行长黄仁勋表示:「网路公司竞相将 AI 导入到拥有数十亿用户的服务中,使得 AI 推论的作业负载呈直线成长。NVIDIA TensorRT 是全球首款可编程推论加速器。藉由 CUDA 的可编程特性,TensorRT将能加快推动深度学习网路的多元化应用并因应日趋複杂的演进。此外,凭藉 TensorRT 带来的大幅加速效益,服务供应商能以低廉的成本部署这些运算密集的 AI 作业。」

    横跨众多领域超过 1,200 家企业皆开始採用 NVIDIA 的推论平台,从庞大的资料中洞察先机,并为企业和消费者推出各种智慧化的服务。除了亚马逊、微软、脸书与谷歌等巨擘外,现更包含阿里巴巴、百度、京东、科大讯飞、海康威视、腾讯以及微信等中国顶尖企业。

    SAP 资讯长 Juergen Mueller 表示:「在 Tesla GPU 上运行 TensorRT 软体的NVIDIA AI平台是一项卓越的先锋科技,能满足 SAP 对推论运算持续攀升的需求。TensorRT 与 NVIDIA GPU 实现即时服务的传递,达到机器学习效能的高峰,并且发挥多元用途,满足顾客的需求。」

    京东 AI 与巨量资料部门资深经理 Andy Chen 表示:「京东旗下的资料中心仰赖 NVIDIA 的 GPU 与软体执行推论运算。透过 NVIDIA 的 TensorRT 与 Tesla GPU,能以减少20倍的伺服器使用量,针对 1,000 部 HD 解析度的串流影片进行即时推论。NVIDIA 的深度学习平台为京东提供优异的效能与效率。」

    TensorRT 3 是一款针对将 AI 部署至线上产品所开发的最佳化高效能编程器与执行引擎。其能对类神经网路进行快速优化与验证,并将欲用来推论

    之完成训练的类神经网路部署在超大规模资料中心与嵌入式或车用GPU平台。

    其提供高精度 INT8 与 FP16 浮点运算能力,让资料中心业者省下数百万美元的购置成本与能源消耗成本。开发者也能在短短一天内训练出类神经网路,开发出运行速度比其训练框架高出 3 到 5 倍的推论解决方案。

    为进一步加快 AI,NVIDIA也推出其他软体包含:

    DeepStream SDK:NVIDIA DeepStream软体开发套件提供低延迟的大规模影片即时分析功能。其能协助开发者整合各种先进的影片推论功能,包括 INT8 精度与GPU加速转码,藉以支援各种 AI 服务如物体分类与情境认知,单靠一颗 Tesla P4 GPU 加速器即可即时处理 30 部 HD 解析度的串流影片。CUDA 9:最新版 CUDA® 是 NVIDIA 的加速运算软体平台,藉由 支援NVIDIA Volta 架构GPU、速度提高 5 倍的函式库、针对执行绪管理的全新编程模型以及更新版的除错与分析工具,全面加快 HPC 与深度学习应用的速度。经过优化的 CUDA 9 能在 Tesla V100 GPU 加速器上提供极致的效能。

    针对资料中心的推论

    资料中心管理者必须持续在效能与效率之间取得平衡,藉以让其伺服器主机群发挥最高的生产力。採用 Tesla GPU 进行加速的伺服器能取代超过 100 部搭载 CPU 的超大型伺服器,用来运行各种深度学习推论应用与服务,腾出宝贵的机架空间并减少耗能与冷却设备的使用,省下大约90% 的成本。

    NVIDIA Tesla GPU 加速器提供最佳的推论解决方案,在执行深度学习推论作业时能发挥最大的资料处理量、最佳效率以及最低的延迟,造就出由 AI 所驱动的崭新体验。

    针对自驾车与嵌入式应用的推论

    藉由 NVIDIA 的整合式架构,每个在深度学习框架上的深层类神经网路都能在资料中心内的 NVIDIA DGX™ 系统上进行训练,然后再部署到所有类型的装置 , 包括从机器人到自驾车,在终端装置进行即时推论。

    专门开发自动驾驶卡车技术的新创企业北京图森(TuSimple)在完成 TensorRT 的优化后,使推论效能提高 30%。该公司利用 NVIDIA GPU 并以摄影机作为主要感测器,在今年 6 月成功完成从圣地牙哥到亚历桑那州尤马市(Yuma)的 Level 4 自驾测试,全程长达170哩。从 TensorRT 获得的效能提升让北京图森除了能分析额外的摄影机资料外,还在其自动驾驶卡车中导入许多新 AI 演算法,反应时间甚至还能维持和过去相同的水準。

    效能比较是基于在 NVIDIA Tesla V100 GPU 上运行的 ResNet-50 神经网路,并执行 TensorRT 3 RC 版,对比 Intel Xeon-D 1587 Broadwell-E CPU 运行于 Intel DL SDK的组合。两倍跑分是英特尔对在 Skylake 核心配合 AVX512指令集能有2倍的效能提升之声明。文中比较基于 HGX-1 伺服器搭配 8 个 NVIDIA Tesla V100 运行 ResNet-50 推论运算的效能与成本,与对比一部双插槽 Intel Skylake 横向扩充伺服器运行 ResNet-50 的效能与估计成本。Skylake 效能的估计是根据英特尔对在 Skylake 搭配 AVX512 指令集能有2倍的效能提升之声明。

    掌握NVIDIA 最新动态

    请订阅 NVIDIA 官方部落格或追蹤  Facebook 、Google+、Twitter、LinkedIn 与Instagram。浏览 NVIDIA 相关影片及图片,请至 YouTube 或 Flickr。

  • 相关推荐