freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

数字新基建成本优化:从谷歌DeepMind实践我们体会到了什么?
2020-05-18 08:00:03

近日新基建、数字新基建的标题到处飞,几天前信通院发表了一篇《“新基建”数据中心能否摘掉“能耗大户”的帽子?》的文章。

文中指出:“从各类数据的表面来分析,数据中心无疑是“能耗大户”。从微观上看,一个超大型数据中心每年的耗电量近亿度;从宏观上看,全世界数据中心的耗电规模为205TWh,占全世界耗电规模的1%。据中国信息通信研究院(以下简称“中国信通院”)发布的《数据中心白皮书》统计,我国数据中心产业年增长30%以上,有人因此担心数据中心的能耗也会迅速扩增,而事实真的是如此吗?2020年初,世界顶级学术期刊《Science》刊登的论文《重新校准全球数据中心能耗估算》的数据却表明:全球数据中心的能耗增长其实在放缓。”

随着网络技术的飞速发展,从传统网络到虚拟化,再到云计算、IoT、边缘计算以及5G技术的逐步应用,需要能够处理和承载海量数据的算力以及存储,这就必然会让人联想到IDC。这不过是目前我们所处的场景,随着边缘计算(IoT、5G、云边缘)的需求不断增加,未来的场景可能会发生变化。

将计算能力由中心化向分布式低延时高带宽(相比4G和Wifi网络)的边缘发展,未来场景中可能更多的是分布在各地市级的中小型IDC,以及各园区和小区的小型机房,配合基站进行近源计算,核心IDC只接收结果、同步数据和分发策略。

以5G未来的部署方式为例

4G核心网是集中部署模式,一般是一个省(或大区)部署一个4G核心网,所以4G承载网的流量模型是南北向为主,运营商倾向于采用比较简单的接入网设计,如很多运营商采用L2(VPN)+L3(VPN)组网模式,即接入网采用相对简单的L2 VPN网络。

5G核心网是CUPS(Control and User Plane Separation)架构,控制面集中部署,一般是一个省或一个大区部署一个,而UPF(User Plane Fucntion)是分布式部署的,一般一个城市会部署一个锚点UPF(Anchor UPF)和很多MEC(Multi-access Edge Computing)UPF。5G MEC可以部署在运营商的边缘机房或企业园区的企业机房中(见下图)。5G UPF在移动承载网上的分布式部署,改变了4G时代承载网的数据模型和承载方式;在4G时代,这些无线核心网流量是在IP骨干网上而不是在移动承载网上来承载的。而且5G MEC经常连接到接入网(如现场 MEC),增加了对5G移动承载网接入网的功能要求。5G MEC网络需要一个功能更强大、支持企业业务的网络架构和方案,不能是4G现有移动承载网架构的简单带宽升级。

图1 4G核心网集中式部署和5G MEC的UPF分布式部署(来源:华为)

图1 4G核心网集中式部署和5G MEC的UPF分布式部署(来源:华为)

有关未来分布式边缘计算的应用场景可以去阅读《运营商边缘计算网络技术白皮书》和Gartner2020十大战略技术趋势的分布式云和增强边缘,这不是今天我要说的重点。

那么,回到正题上来。对于这样的一种未来场景,可见需要建设和改造的新基础设施应该不会少,那么基础设施的能源消耗将是一个巨大的数字,也是企业的一项重要开销。拿IDC来说,服务器、网络设备、存储这些肯定是需要持续供电没什么可说的,但是另外一个耗电的“大户”可能会被忽略,那就是中央空调(温湿度控制)。

想想大家夏天在家时每月的空调电费单,是不是感觉很心疼,但是不开又受不了夏日的燃热天气?机房也是如此,要想保证设备正常运转,空调基本是24小时运转的。

如何通过合理方法降低数据中心能耗

对于这个问题其实早在2014年Google就开始进行测试和实验了,并且在2016年成功在自己的数据中心开启AI温湿度管理,有效降低40%的开销。用数字体现一下这个概念吧,中国数据中心的电费占运维总成本的60%-70%,而空调所用的电费占40%。大型数椐中心机房用电量比起先进国家差距比较大的,机房用电分配是:IT占46%,制冷占40%以上(有甚至的高达50%),其余电源、照明占18%左右。可以看出制冷耗电是影响PUE值的关键,空调冷是机房的耗电元凶。

国内某运营商省级五星级数据中心的统计数据,1-10月份机房用电5800万kw,就算拿民用电费(0.56元/度)来计算吧,那么每月的平均费用是3248000元,其中空调自身的费用就要接近130万。这还只是一个省级IDC,想想如果是阿里云、腾讯云甚至是谷歌数据中心将会是一个怎样的数字。

那么如果依靠AI智能管控将空调用电成本降低4成,这是怎样的改善,就拿上边的例子来说,每个月光一个IDC电费就可以省下来52万,那么如果是全国呢?

去看来一下网上的统计。据Gartner统计,截至2017年底全球数据中心共计44.4万个,其中微型数据中心42.3万个,小型数据中心1.4万个,中型数据中心5732个,大型数据中心1341个。

图2 全球数据中心及机架统计数据(来源:Gartner和中国信通院).png

图2全球数据中心及机架统计数据(来源:Gartner和中国信通院)

我国数据中心总体规模,没找到直接数据,但是我们可以推算一下。

图3 中国IDC行业市场规模全球比重(来源:互联网).png

图3中国IDC行业市场规模全球比重(来源:互联网)

全球数据中心2019年月42.9万个,中国IDC在全球规模比重30%,那么大概就是12.87万个的量级(由于没有准确数据,这个只能作为参考)。这是还没有考虑未来可能新增的新基建和分布式边缘计算结构需要的中小型IDC数量,暂且就拿这个数字来计算,一个月全国IDC可以节约669.24亿的电费。在做一个平均化,因为上边的例子是5星级机房,应该属于中型IDC规模,那么再折算一个中间值—:335亿元。

OK废话说得太多了,下面说说谷歌是怎么做的。

谷歌是从哪里开始的

这一切都是从一个20%的项目开始的,这是谷歌的一个传统,留出时间来做那些不在官方工作描述范围内的工作(也就是非KPI绩效的事)。数据中心团队的一名工程师,非常熟悉我们在运行数据中心的过程中每天收集的操作数据。我们计算PUE,衡量能源效率,每30秒,和我们不断追踪例如总负荷(在任意时间服务器和网络设备正在使用的电力),室外空气温度(影响冷却塔工作)和我们机械的水平和冷却设备。他研究了机器学习,并开始建立模型来预测和改进数据中心的性能。

图4 谷歌数据中心(来源:Google).jpg

图4谷歌数据中心(来源:Google)

和其他机器学习的例子很像,比如语音识别:计算机分析大量的数据来识别模式并从中学习。在像数据中心这样的动态环境中,人们很难看到它所加载的所有变量、外部空气温度等是如何相互作用的。计算机擅长的一件事就是能看到底层数据的情况,所以我们把收集的信息通过一个模型在日常操作和运行中帮助理解复杂的相互作用。

图5模型的一个简化版本:收集数据,找出隐藏的交互作用,然后提供优化能效的建议(来源:Google).png

图5模型的一个简化版本:收集数据,找出隐藏的交互作用,然后提供优化能效的建议(来源:Google)

经过反复试验,模型在预测PUE方面的准确率达到99.6%。这意味着可以利用这些模型想出新的办法,提高运作效率。例如,几个月前,我们不得不让一些服务器离线几天——这通常会降低数据中心的能源效率。但是我们能够使用这个模型来临时改变我们的冷却装置——减少在那段时间内对PUE改变的影响。像这样小的调整,在持续性基础、能源和费用上都有显著的降低。

图6 该模型预测PUE的准确率为99.6%(来源:Google).png

图6 该模型预测PUE的准确率为99.6%(来源:Google)

坚持不懈的谷歌人

时间转到2016年,Google的DeepMindAI真正开始帮助公司实现数据中心用电成本优化,而且这个优化的结果是降低40%的制冷能耗,也就意味着在制冷方面的费用削减了四成。(玩过星际2的应该会听说前几年谷歌的AlphaStar对战职业选手的比赛)

谷歌通过将DeepMind的机器学习应用到自己的数据中心,设法将用于冷却的能源消耗减少了高达40%。在任何大规模的能源消耗环境中,这是一个巨大的进步。考虑到谷歌的数据中心已经非常成熟,这是一个显著的进步。

虽然谷歌只是世界上众多数据中心运营商之一,但许多运营商并不像我们一样使用可再生能源。数据中心效率的每一次提高都会减少对环境的总排放,而有了DeepMind这样的技术,我们就可以利用机器学习来消耗更少的能源,并帮助解决最大的挑战之一——气候变化。你看看,既省钱又环保,名利双收,真是赚翻了。

谷歌是怎么利用DeepMind来实现降低能耗的

数据中心环境中能源使用的主要来源之一是制冷。就像你的笔记本电脑会产生大量热量一样,数据中心——包括驱动谷歌搜索、Gmail、YouTube等的服务器——也会产生大量热量,这些热量必须被冷却,以保持服务器运行。这种冷却通常是通过大型工业设备完成的,如泵、冷却器和冷却塔。然而,像数据中心这样的动态环境使得优化操作变得困难,原因如下:

设备,我们如何操作设备、环境以复杂的非线性方式相互作用。传统的基于公式的工程学和人为直觉往往无法捕捉到这些交互作用。

系统不能快速适应内部或外部的变化(如天气)。这是因为我们无法为每个操作场景提出规则和启发。

每个数据中心都有独特的体系结构和环境。为一个系统定制的模型可能不适用于另一个系统。因此,需要一个通用的智能框架来理解数据中心的交互作用。

为了解决这个问题,团队在两年前开始应用机器学习来更有效地运行谷歌的数据中心。在过去的几个月里,DeepMind的研究人员开始与谷歌的数据中心团队合作,以显著提高该系统的实用性。通过在数据中心内对不同操作场景和参数进行训练的神经网络系统,团队创建了一个更高效和自适应的框架,以了解数据中心的动态并优化效率。(这就和之前团队的ML模式接上头了,为了一个20%的项目,投入2年时间来设计和学习,不过后边还有后续,这才是我们应该去学习的研究精神吧)

通过收集数据中心内成千上万个传感器已经收集的历史数据——如温度、功率、泵速、设定值等数据——并使用它来训练一个深度神经网络的集合来完成这一任务。由于我们的目标是提高数据中心的能效,我们对神经网络进行了平均化未来PUE(电力使用效率)的训练,PUE的定义是总建筑能源使用与IT能源使用的比率。然后,我们训练了另外两个深度神经网络集成系统,以预测未来一小时内数据中心的温度和压强。这些预测的目的是模拟PUE模型中推荐的操作,以确保我们不会超出任何操作约束。

在一个实时数据中心进行部署,来测试模型。下面的图表显示了一个典型的测试日,包括打开机器学习建议和何时关闭它的时间点。

图7 使用ML控制前后能耗对比(来源:Google).png

图7 使用ML控制前后能耗对比(来源:Google)

我们的机器学习系统能够始终如一地将用于制冷的能耗减少40%,这相当于在考虑了电力损失和其他非冷却效率低下的情况下减少了15%的总体PUE开销。它还产生了该网站所见过的最低的PUE。

由于该算法是理解复杂动态的通用框架,团队计划在未来几个月将其应用于数据中心环境中的其他挑战。这项技术可能的应用包括提高发电厂的转换效率,减少半导体制造的能源和水的使用,或者帮助制造设备增加产量。

团队正计划更大范围地推广这个系统,并将在即将发型的出版物中分享我们是如何做到这一点的,以便其他数据中心和工业系统运营商——以及最终的环境——能够从这一重大进步中受益。

这个系统现在是如何运作的

随着时间的推移,我们来到2018年,再次关注谷歌DeepMind团队,现在的主题是“安全第一,用于自动数据中心冷却和工业控制的人工智能,”

现在我们把这个系统提升到一个新的水平:我们的人工智能系统直接控制数据中心的冷却,而不是由人工执行建议,但仍然在我们的数据中心运维人员的专家监督之下。这种基于云计算的控制系统目前正在多个谷歌数据中心安全地实现节能。

每隔5分钟,我们基于云的人工智能就会从数千个传感器中提取出数据中心冷却系统的快照,并将其输入我们的深层神经网络,从而预测不同的潜在动作组合将如何影响未来的能耗。然后,人工智能系统识别出哪些行为可以在满足一组可靠的安全约束条件的同时,将能耗降至最低。这些操作被发送回数据中心,由本地控制系统验证这些操作,然后执行。

1.png2.png3.png4.png

图8系统运行机制(来源:DeepMind)

这个想法来自于我们的数据中心运维的反馈,他们一直在使用我们的人工智能推荐系统。他们表示,虽然系统已经教会了他们一些新的最佳实践——比如将冷却负荷分摊到更多而不是更少的设备上——但执行这些建议需要太多操作人员的努力和监督。自然,他们想知道我们是否可以在不需要人工操作的情况下实现类似的节能效果。

我们很高兴的回答:可以!

安全可靠的设计

谷歌数据中心包含数千台服务器,为谷歌搜索、Gmail和YouTube等热门服务提供支持。确保它们可靠、高效地运行是关键任务。我们从根本上设计了我们的人工智能代理和底层控制基础设施,考虑到安全和可靠性,并使用8种不同的机制来确保系统在任何时候都能按预期运行。

我们实现的一个简单方法是估算不确定性。对于每一个潜在的行动——有数十亿之多——我们的人工智能代为计算它的信心,这是一个不错的尝试。信心不足的行为被排除在考虑之外。

另一种方法是两层验证。人工智能计算出的最优行动是根据数据中心运营商定义的安全控制的内部列表进行审查的。指令从云发送到物理数据中心后,本地控制系统根据自己的一组控制来检验指令。这种冗余检查确保系统保持在本地约束范围内,并且操作人员保留对操作边界的完全控制。

最重要的是,数据中心运维人员始终在控制之中,可以随时选择退出AI控制模式。在这些场景中,控制系统将无缝地从人工智能控制转移到定义当前自动化行业的现场规则和启发。

团队还开发了如下的其他安全机制:

9.png

图9其他安全机制(来源:DeepMind)

逐步提高能耗节约率

我们最初的推荐系统由操作人员审查和执行操作,而我们新的人工智能控制系统直接执行操作。我们有意将系统的优化边界限制在一个更窄的运行机制内,以优先考虑安全性和可靠性,这意味着在减少能源方面存在风险/回报的权衡。

尽管该系统只投入使用了几个月的时间,但它已经实现了平均30%的持续节能,而且预期还会有进一步的改进。这是因为随着时间的推移,这些系统会得到更好的数据,如下图所示。随着技术的成熟,我们的优化边界也将扩大,以实现更大的减排。

01.png

很高兴我们的直接人工智能控制系统能够安全可靠地运行,同时持续地节约能源。然而,数据中心仅仅是个开始。从长远来看,我们认为这项技术有可能应用于其他工业领域,帮助更大规模地应对气候变化。

最后,用数字做一个总结,如果我们国内超大、大中型IDC能够在制冷上节约30%的能耗,那么这将意味着可以每年为国家节省3000亿电费开支。

参考资料:

[1] 吴美希,郭亮,《“新基建”数据中心能否摘掉“能耗大户”的帽子?》[Z], 中国信通院,2020.

[2] 《数据中心白皮书(2018)》[R], 中国信通院,2018.

[3] 《运营商边缘计算网络技术白皮书》[R], 中国电信,华为,2019.

[4] 5G+MEC+IP网络白皮书[R],华为,2020.

[5] Jim Gao, Machine Learning Applications for Data Center Optimization[R], Google,2014.

[6] DeepMind AI Reduces Google Data Centre Cooling Bill by 40%[Z],DeepMind,2016.

[7] Safety-first AI for autonomous data centre cooling and industrial control[Z],DeepMind,2018.

[8] David Cearley, Nick Jones, David Smith, Brian Burke, Arun Chandrasekaran, CK Lu,Top 10 Strategic Technology Trends for 2020[R],Gartner,2019.

[9] David Smith, David Cearley, Ed Anderson, Daryl Plummer, Top 10 Strategic Technology Trends for 2020 Distributed Cloud[R],Gartner,2020.

[10] Nick Jones, David Cearley, Top 10 Strategic Technology Trends for 2020:Empowered Edge[R],Gartner,2020.

*本文作者:宇宸,转载请注明来自FreeBuf.COM

# 谷歌 # 新基建 # DeepMind
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者