数据中心深陷能耗与成本困境,原因何在

据 Uptime Institute 所说,抑制能耗——从而降低运营成本——可能就如同在现代系统内置的任何一种性能和电源管理机制上拨动开关那般简单。

我们所谈论的可不是微不足道的电量。

在本周的一篇博客文章中,Uptime 分析师 Daniel Bizo 写道:仅仅启用操作系统级别的调控器和电源配置文件,就有可能使能耗降低 25%至 50%。

此外,启用处理器 C 状态可以使空闲能耗降低近 20%。简而言之,C 状态决定了芯片在空闲时期能够关闭哪些部分。

据 Bizo 称,问题在于这些功能在当今大多数服务器平台上默认是禁用的,而且启用它们往往会导致性能不稳定和延迟增加。

这是因为不管您说的是 C 状态还是 P 状态

从像 P6 这类低性能状态过渡到 P0 的全功率状态是需要时间的

对于某些工作负载而言,这可能会对所观察到的性能产生负面影响

比佐觉得,除了少数像技术计算、金融交易、高速分析和实时操作系统这类对延迟敏感的工作负载之外

启用这些功能对性能的影响即便有也是可以忽略不计的,同时还能够大幅降低功耗

正常运行时间这一论点植根于这样一种信念

“如果数据库查询的一秒仍处于容忍范围内,那么按照定义,仅仅因为服务器在负载较轻时能够这么快速地处理查询,就在十分之一秒内得到响应,其价值是有限的,”比佐写道。

依据标准性能评估公司和绿色网格所发布的基准数据,Uptime 报告指出,现代服务器在性能被限制在类似 P2 时通常能达到最佳能效。

更为棘手的是,过度性能通常不会受到追踪——尽管有许多工具可用于维护服务级别协议和服务质量。

有一种看法是,计算完成得越快,功耗就越低。例如,在一分钟内使用 500 瓦完成一项任务,总体上所需的能量要少于在两分钟内消耗 300 瓦。

然而,Bizo 指出,收益并非总是如此明确。“半导体的能耗曲线在芯片接近其性能上限的时候会变得更为陡峭。”

换句话说,通常存在一个收益递减点,在此之后,您消耗更多功率却只能获得微不足道的收益。在这种情况下,芯片以 500 瓦运行相比 450 瓦运行仅能节省额外的两三秒,这可能不值得。

这有点像在州际公路上用一档行驶。当然,您到达那里的速度会比您换到五档或六档时慢。

好消息是,多年来,CPU 供应商已经开发出了各种用于管理功率和性能的技术。其中许多都源于移动应用,在那里,能耗是一个比在数据中心重要得多的指标。

据 Uptime 所说,这些控制能够对系统功耗产生重大影响,并且不一定得通过限制芯片的峰值性能来削弱它。

据 Uptime 所说,在这些管控方式中,最节能的是基于软件的控制,它有可能把系统功耗降低 25%到 50%——具体得看操作系统管理器和电源计划的复杂情况。

然而,这些软件级别的控制也有可能导致这些控制对于突发的或者对延迟敏感的工作不太可行。

相比之下,Uptime 发现,旨在设定性能目标的纯硬件实现,在状态之间进行切换时往往会快很多——这意味着延迟影响更低。但权衡起来,节能的效果就没那么好了,最多约为 10%。

软件和硬件相结合提供了一种折中的办法,允许软件向底层硬件提供提示,告诉它应该怎样去响应不断变化的需求。Bizo 指出,利用这种性质的性能管理功能,性能节省能够达到 15%至 20%。

虽然这些工具仍存在性能方面的问题,但实际影响可能并不像您所想象的那么糟糕。“可以说,对于大多数用例,主要关注的应该是功耗,而不是性能,”比佐称。 ®