即便深度学习和其他机器学习方法近几年进展不小,但直接应用到真实工业场景、直接控制工业系统还未见到。深度学习本身缺乏稳健性、面对新状况难以预测行为等一些特徴固然是重要的制肘之处,如何让算法逐步提高控制范围、协调与人类的合作也是难题。DeepMind 和 Google 最近的尝试取得不小成功,DeepMind 部落格做了介绍,以下编译原文。
人类社会面对许多紧迫问题,其中有些变得越来越复杂,所有人都急切想找到好的解决方法。对 DeepMind 和 Google 来说,相信如果人类可把 AI 当作探寻新知识的工具,找到解决方法就容易得多。
2016 年时,DeepMind 和 Google 联手开发基于 AI 的动作建议系统,建议负责维护、调节冷却系统的资料中心营运人员不同状况下的应对方法,让 Google 当时已有很高能源效率的建议系统资料中心向前更进一步。出发点也很简单,为了应付全球气候变化,大型能耗场所的一点小改进也能在减少能源消耗、减少二氧化碳排放产生重大影响。
最近,DeepMind 把这个系统升级到全新等级:不再像原来的系统建议一些动作,然后由人类完成,AI 系统现在会直接控制资料中心的冷却系统,当然 AI 仍受营运人员的专业监控。这是首个基于云端的控制系统,已在多个 Google 资料中心安静执行、持续节省能源。
工作方式
每隔 5 分钟,这个基于云端的 AI 会从资料中心数千个感测器采集资料,获得资料中心冷却系统的状态快照,然后汇入深度神经网络。网络会预测各种可能作业的不同组合如何影响资料中心的能量消耗。然后 AI 会在满足稳健安全性限制的条件下判断出一组最小化能源消耗的动作。判断结果接下来会发回资料中心,由区域控制系统验证并执行。
这种系统执行想法其实来自使用原来 AI 建议系统的作业人员。他们告诉 DeepMind 研究人员,虽然系统给了一些最新最好的作业技巧,比如让冷却介质涵盖更多装置,而不是更少,但实现这些建议其实需要花费非常多精力和长期规划,所以他们自然很想知道,能否不需要人力就达到类似效果。
现在他们很高兴地宣布,答案是能。Google 一位作业人员表示:“我们希望节省能源,同时也降低作业员的工作强度。自动化系统就可让我们以更高频率执行更细节的行动,同时出错更少。”
兼顾安全性和可靠性
Google 资料中心一般有上千台服务器,支撑 Google 搜寻、Gmail、YouTube 等用户每天使用的服务。确保这些服务可靠、高效执行是最关键的事。DeepMind 和 Google 一起设计 AI 智慧体及背后控制界面时,都是以安全、可靠的思维从头设计,还使用 8 种不同机制确保系统总能按照预期行动。
使用的方法里,其中一种较简单的是估计不确定性。对于总计上亿个可能动作的每一种,AI 都需要计算自身认为这是一个好动作的信心,信心太低的动作就不考虑。
另一方法是两层验证。AI 计算出的最优行动首先需要根据内建、营运人员制定的安全限制清单来检查。计算结果通过检查、从云端传送到实际资料中心之后,当地控制系统还会再次根据自己的安全限制清单再检查一遍指令。这种多余设计的检查流程确保系统执行总在当地限制之内,作业人员也总能完全控制作业。
最重要的是,Google 资料中心总会受人类的完全控制,人类随时可选择结束 AI 控制型态。这时,控制系统会自动从 AI 控制切换到基于现代自动化工业使用、基于现场规则及启发式设计的控制系统。
其他安全机制如下图:
连续监控、自动错误重启、平滑切换、两层验证、不间断通讯、不确定性估计、规则与启发式设计的备用控制系统、人类指令优先。
越用越节省能源
相比于原来动作建议系统需要作业人员自己检查及动作,新的 AI 控制系统自己直接动作。DeepMind 和 Google 研究人员开发时,也有意识地把系统最佳化边界设定更窄小的策略,让 AI 把安全和可靠列为首要目标,也就是说对节约能源的目标来说,AI 需要在过度节约导致不稳定风险和最佳化不足的低回馈之间找到平衡。
虽然只上线几个月,此系统已可稳定节约平均 30% 能源,他们还期待系统未来可以改善更多。这是因为随着资料更多,系统的最佳化判断能力也会变得更强,如下图。随着技术越来越成熟,DeepMind 和 Google 研究人员未来也会把系统最佳化范围设定宽松些,达到更佳的能源节约效果。
AI 直接控制的系统时不时找到一些新方法管理冷却系统,有一些方法甚至让作业人员惊讶。与这个系统紧密合作的 Google 资料中心营运人员惊讶说:“这个 AI 会利用冬天外面较冷,产生比平时更冷的冷却水,然后减少资料中心降温所需的能源消耗。规则不会自己变得越来越好,但 AI 可以。”
对已安全执行、独立执行、降低能耗的 AI 直接控制系统,DeepMind 和 Google 非常激动。不过,资料中心使用这种系统才刚开始。长远的未来,他们认为还有很多潜力把这种技术运用到其他工业场景,帮助人类对抗气候变化。
- Safety-first AI for autonomous data centre cooling and industrial control
(本文由 雷锋网 授权转载;图片来源:DeepMind)