今天上午,英伟达的 GTC China 计算大会首次以线上的形式举办。
会上,英伟达首席科学家 Bill Dally 提出了「黄氏定律」——黄氏顾名思义是英伟达创始人黄仁勋:AI 芯片的推理能力每一年应该翻一倍。
短短一句话,却是计算机科技两个时代的交接棒。
1965 年,英特尔创始人 Gordon Moore 提出「半导体芯片的晶体管每隔 18 个月就要翻一倍,同时价格不变」,这就是主导计算机行业半个世纪的「摩尔定律」。
55 年后,英特尔走下神坛,英伟达试图编写人类智能科技的新教义。
进入 AI 时代,算法和模型的重要性越来越高。比起解决简单问题的速度,如何让机器融入这个世界,成为更关键的命题。汽车行业的绝对热点——自动驾驶,就是人工智能的一大考验。
如今的汽车行业,英伟达俨然成为了博世、大陆一般的供应链巨头。超越英特尔成为「全球最聪明公司(市值最高的芯片设计公司)」之后,英伟达在「为一切装上大脑」的道路上越跑越快。
今天的 GTC 计算大会,英伟达依然秀出了强劲的AI肌肉。不仅声称「吊打」了华为、谷歌、英特尔、赛灵思等半导体巨擘,还公布了一系列听起来堪称科幻的黑科技,包括每瓦 100TOPS 的超高能耗比芯片,以及高达 800Gbps 的光子网络等。
吊打华为谷歌英特尔?
上面这张图,是基于AI性能测试标准 MLPerf(谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学联合制定)跑出来的成绩。
以英伟达上一代 Volta 伏特架构的深度学习芯片 V100(自动驾驶方案 Drive AGX Pegasus 使用)为 1 倍,新一代 Ampere 架构芯片 A100(自动驾驶方案 Drive Robotaxi 使用)达到了最高 2.5 倍,最低 1.5 倍的性能。
与之相比,华为的 Ascend 昇腾只有 V100 70% 的性能,不到 A100 的一半;谷歌最新的 TPU 3.0 仅比 V100 性能高了 20%,比 A100 性能弱了 20%。更重要的是,MLPerf 的许多项目,华为和谷歌的芯片都无法运行,而 A100 芯片可以。
同样的成绩出现在与英特尔和赛灵思的对比。在 MLPerf 的深度学习数据中心测试中,英伟达的 A100 芯片最高跑出了英特尔竞品的 237 倍成绩!即使是本代 T4 推理加速卡(tesla 架构,但不是那个 tesla),也比英特尔竞品强出近一倍。
进入 AI 芯片下半场,英伟达的霸主地位愈发难以撼动。
去年英伟达发布全新一代深度学习芯片的时候,就已经重点介绍了 A100 芯片。它是目前规模最大的 7 纳米硅芯片,拥有 540 亿个晶体管。
虽然功耗高达 400W,但 INT8 精度下算力高达 1.25POPS,平均每瓦 INT8 算力 3.1TOPS,是特斯拉 FSD 芯片的 4 倍多。
事实上,在单颗深度计算芯片领域,英伟达已经同时站在了算力和效率的顶峰。
虽然遭遇打压,但华为的昇腾 910 已经是非美国厂商造出来的,算力最强大的 AI 处理器。基于 14 纳米优化版工艺打造的 910 功耗为 310W,INT8 算力 640TOPS,能耗比同样明显优于特斯拉 FSD 芯片。
但奈何英伟达「不讲武德」,而华为被拒之于 7 纳米门外。
爆锤特斯拉?
英伟达的主业就是卖芯片,很多很多芯片。
上面这张图显示,全球超级计算机 TOP500 名单中排名前列的超算,很多都采用了英伟达的技术,包括英伟达的 GPU,或者是英伟达的 Mellanox 网络技术。
但最近超算话题的风头,明显被马斯克和他的特斯拉抢了过去。
DOJO,这是特吹们最近津津乐道的名字,也是马斯克自动驾驶战略的后台核心。FSD Beta 内测车主(以后是公测,甚至公开版)的大量数据,都会汇聚到这台超级计算机里,喂给深度学习模型,再反哺 Autopilot 软硬件。
根据马斯克的说法,DOJO 的 FP32 精度算力将会达到 1EOPS 级别,彻底超越目前所有超级计算机。
超算的记录由车企打破,这当然是时代的幸运。然而英伟达表示这个记录对他们来讲同样不是问题。
英伟达在本次 GTC 大会上公布了他们的服务器打包方案 DGX POD 和 DGX Super POD。基于 A100 芯片打造的 POD,可以在两个标准服务器机柜的空间内提供 40POPS 的 FP32 标准算力。
这意味着什么?我国的神威太湖之光超算,用了 40个机柜 实现 125POPS 的算力,平均每个机柜算力为 3POPS,大概是英伟达 DGX POD 的六分之一。
按照这样的算力密度,「只」需要 50个机柜,也就是略大于太湖之光的规模,英伟达同样可以搭建 EOPS 级别算力的超级计算机。
不是特斯拉不牛逼,而是科技进步的速度实在太快了。
「黄氏定律」
而英伟达希望主导 AI 进步的速度。
英伟达首席科学家 Bill Dally 今天早上的原话是「未来几乎一切都和 AI 有关」,他今天早上发布会的核心命题则是「AI 的一切都与英伟达有关」。
Bill 公布的黄氏定律比摩尔定律更加激进,首先是「翻倍」的时间从 18 个月缩短到 12 个月,其次是从仅限硬件的晶体管「翻倍」凝练到软硬件合一的实际性能翻倍。这个 flag 甚至不亚于马斯克的美国西海岸自动驾驶之旅。
为了证明老黄比马斯克靠谱,英伟达公布了未来他们的几个技术方向。
首先肯定是核心硬件进步。英伟达表示比起半导体制造工艺进步,他们更看重芯片架构的优化。
基于现有工艺,他们已经制造出每瓦深度学习算力 29TOPS 的产品,相当于小鹏 P7 上面用的 Xavier 芯片功耗缩减至 1/30,或者特斯拉 FSD 芯片同等功耗下性能提升 40 倍。
下一个阶段,英伟达将制造出每瓦算力 100TOPS 的超高能耗比产品,相当于只需要 10 瓦的功耗,就可以提供足够的算力,支撑 L5 级别无人驾驶。
但算力不是万能的。
芯片的理论算力和实际算力往往受到各种因素的制约,尤其在自动驾驶领域。我们能看到的理论算力都只是矩阵算力,并不能反映真实世界的条件,比如自动驾驶需要传输大量视频、图像数据,这里对内存带宽、数据传输速度、模型优化都提出了更高的考验。
(事实上,光‘算力≠一切’就足以再写 5000 字了)
英伟达自己深知这一点,「黄氏定律」也在尝试尽量靠近真实,比如实现更快的数据交换速度。
Bill 在发布会上提到了英伟达正在发力的光子通信技术,和传统以太网、PCIe 总线、CAN 总线通过电信号传输数据不一样,英伟达希望用光子传输信号,达到更高的数据传输速度。
简单总结一下原理,就是英伟达希望利用光谱中存在的不同颜色的光传输信号。
他们在实验室里发现,每种波长的光都能以 25-50Gbps 的速度传输信号。由此英伟达使用了叫做「密集波分复用」的方案,发挥光的这一特性。
密集波分复用(Dense Wavelength Division Multiplexing),指的是一种光纤数据传输技术。通俗点说就是在同一根光纤内传送不同波长(眼睛看到的就是不同颜色)的光,同时传输大量数据。
直接上结果吧,英伟达表示他们目前最多可以混合 32 种颜色(波长)的光信号,单条光纤可以跑到高达 800Gbps(100GB 每秒)的带宽。
这是什么概念?目前自动驾驶芯片连接外部硬件,速度最快的标准叫做 PCIe 3.0 X16,其带宽也「仅为」15.754GB 每秒。
英伟达还表示未来的深度学习芯片将会使用特殊的封装技术,每颗芯片可以加入最多 6 路 DWDM 光纤,实现最高 4.8Tbps 的数据传输速度,约合 600GB 每秒——千兆以太网的 4800 倍。
时代的终结与开始
从 60 年代末 70 年代初仙童半导体衰落,英特尔 AMD 兴起开始算,硅半导体芯片走过了第一个 50 年。
这半个世纪里,人类赋予工具以智能。从个人电脑、手机,再到生活电器,乃至汽车、机器人,我们在这 50 年里为生活的每个角落打上「智能」的标签。
下一个 50 年,人类还想要更多。
我们希望身边的工具学会自己思考,逐渐摆脱对人类干预的依赖。家务、娱乐,以及驾驶,我们都希望工具可以代劳,解放人类更多创造力。
AI 早已不是新鲜事物,1956 年它还只是几位年轻科学家提出的一个议题,但如今我们讨论的更多是「居然 XX 行业还没引进 AI」。
今天英伟达提出「黄氏定律」,明天也许马斯克也会提出「一龙定律」,但无论如何,他们都代表着时代加速前进的脚步,《赛博朋克 2077》也许很快就不是游戏了。