【Google I/O 2017】Google 第二代 TPU 既能推理又能训练，性能霸道 04月05日更新

5月18日凌晨，Google CEO Sundar Pichai 在 I/O 大会上正式公布了第二代 TPU，又称 Cloud TPU 或 TPU 2.0，这一采用云端计运算的硬件和软件系统，将继续支撑 Google 最前沿的人工智能技术。

第一代 TPU 于 2016 年发表，它被做为一种特定目的芯片而专为机器学习设计，并用在 AlphaGo 的人工智能系统上，是其预测和决策等技术的基础。随后，Google 还将这一芯片用在了其服务的各方面，比如每一次搜寻都有用到 TPU 的计算能力，最近还用在了 Google 翻译、相簿等软件背后的机器学习模型中。

今天凌晨，Google 宣布第二代的 TPU 系统已经全面投入使用，并且已经部署在 Google Compute Engine 平台上。它可用于图像和语音辨识、机器翻译和机器人等领域。

新的 TPU 包括了 4 个芯片，每秒可处理 180 万亿次浮点运算。Google 还找到一种方法，使用新的电脑网络将 64 个 TPU 组合到一起，升级为所谓的TPU Pods，可提供大约 11,500 万亿次浮点运算能力。

（Source：wired）

强大的运算能力为 Google 提供了优于竞争对手的速度，和做实验的自由度。Google 表示，公司新的大型翻译模型如果在 32 块性能最好的 GPU 上训练，需要一整天的时间，而八分之一个 TPU Pod 就能在 6 个小时内完成同样的任务。之所以开发新芯片，部分也是因为 Google 的机器翻译模型太大，无法如想要的那么快进行训练。

除了速度，第二代 TPU 最大的特色，是相比初代 TPU 它既可以用于训练神经网络，又可以用于推理。初代的 TPU 只能做推理，要依靠 Google 云来即时收集资料并产生结果，而训练过程还需要额外的资源。

机器学习的能力已经逐渐在消费级产品中体现出来，比如 Google 翻译几乎可以即时将英语句子变成中文，AlphaGo 能以超人的熟练度玩围棋。所有这一切都要靠训练神经网络来完成，而这又需要计算能力。所以硬件越强大，得到的结果就越快。如果将每个实验的时间从几周缩短到几天或几个小时，就可以提高每个机器学习者快速反复运算，并进行更多实验的能力。由于新一代 TPU 可以同时进行推理和训练，研究人员能比以前更快地部署 AI 实验。

（Source：wired）

过去十多年来，Google 已经开发出很多新的资料中心硬件，其中包括服务器和网络设备，主要目的是扩张自己的线上帝国。而过去几年中，在 AI 方面 Google 也选择开发自己的硬件，为其软件做优化。神经网络是复杂的数学系统，通过分析大量资料来学习，这种系统从根本上改变了技术的构建和运行方式，影响范围也包括硬件。

在某种程度上，初代的 TPU 被设计来是为了更好地支援 TensorFlow 机器学习框架。而归功于 Google 在软硬件上的进步与集成，TensorFlow 已经成为构建 AI 软件的领先平台之一。这种优化，再加上 Google 大脑及其 DeepMind 子公司的内部人才，正是 Google 在 AI 领域保持领先的部分原因。

芯片厂商 Nvidia 的 GPU 几乎主宰了机器学习的市场，而现在，Google 想透过专门设计用于训练神经网络的芯片，来改变市场提升格局。

（Source：The Verge）

亚马逊和微软透过自己的云端服务提供 GPU 处理，但他们不提供客制的 AI 芯片。

不过 Google 也不能因此而高枕无忧，因为短期内竞争就会加剧。目前已经有几家公司，包括芯片巨擘英特尔和一大批新创公司，正在开发专门的 AI 芯片，它们都可能替代 Google TPU。

首先开发出新的芯片并不能保证 Google 成功，要使用 TPU 2.0，开发者要学习一种构建和运行神经网络的新方法。它不仅仅是一个新的芯片，TPU 2.0 也是专门为 TensorFlow 设计。虽然 Tensorflow 是开源软件，但也有许多研究人员使用 Torch 和 Caffe 等类似的软件。新硬件需要新的软件优化，这需要不少时间。

在 Google 推出 TPU 2.0 的几周之前，Facebook 的 AI 研究主管 Yann LeCun 质疑称，市场可能不需要新的 AI 专用芯片，因为研究者已经对使用 GPU 所需的工具非常熟悉了。新的硬件意味着新的生态系统。

另外，Google 云端服务的成功不仅取决于芯片的速度，以及使用的容易程度，还要考虑成本。所以，如果 Google 以比现有 GPU 服务更低的成本提供 TPU 服务，会得到更广泛的用户基础。

Google 自己当然会使用新 TPU 系统，但也会将它的能力开放给其他公司使用。Google 表示，不会将芯片直接出售，而是会透过其新的云端服务（年底前公布）提供，任何开发者都可以使用新处理器带来的计算能力。

Google 也重申了其对开源模式的承诺，表示会向同意发布研究结果的研究人员提供 TPU 资源，甚至可能开原始程式码。他甚至呼吁开发者加入 TensorFlow Research Cloud 计划，它会免费提供一组 1,000 台 TPU。

新 TPU 的速度优势肯定会吸引不少研究人员，毕竟 AI 研究要在大量硬件上广泛试错。就此而言，Google 愿意免费提供计算资源对全世界的 AI 研究者来说都是有好处的，当然，这对 Google 来说也是有好处的。

Google Rattles the Tech World With a New AI Chip for All
Google’s next-generation AI training system is monstrously fast

（本文由雷锋网授权转载；首图来源：Google）

【Google I/O 2017】Google 第二代 TPU 既能推理又能训练，性能霸道

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图