English 中文(简体)
服务器农场关机
原标题:
  • 时间:2008-11-12 22:17:24
  •  标签:

大型服务器农场如何优雅地处理整个或部分农场的关机?我正在考虑计划和非计划情况,如:

  • "We need to shutdown Rack 42"
  • "We need to do work on the power feeds to the whole block"
  • "Blackout! UPS s running out of Juice! Aahh!"
  • "AC is down, air temp is 125F and climbing"

我关心的问题是人们如何处理排序和启动整个事物。我还意识到这很容易与启动和关闭服务以及软件升级系统混淆。

在这一点上,我更多地是出于好奇而询问。

问题回答

电脑开机时消耗的电力比平常运行时要大得多,因为需要让所有盘片和风扇旋转起来,同时启动所有应用程序等高强度CPU活动。大部分商店会采用一套顺序来操作启动过程,以避免过载电路并不得不重新开始。如果你有大量需要连接数据库的应用程序或多个需要与应用服务器通讯的Web服务器,这一点也非常重要。你通常从底部开始,并根据电路上箱子的数量将启动时间错开30秒至一分钟不等。

一种方法是使用临时热插拔镜像现场机器,并假定通过网络访问,通过重新配置路由器将流量转移到镜像,以完成切换。此过程可针对非计划停机进行自动化。

为了计划维护,一些人只是通知他们的用户,在一定时间窗口期间系统将不可用。

冗余电源和燃气发电机可以处理大多数与电力相关的问题,而且支持自动故障转移。

啊,现在我更清楚地理解你的问题了。

dataprobe的产品使您能够监测和管理远程设备的功率。智能系统可以监测每个设备的电流吸收,以验证其是否在标准范围内运行。如果不在范围内,它可以将设备下线并将备用设备上线以替换它,同时注意初始浪涌并等待电源稳定后再切换下一个设备。

请记住,“大型服务器农场”被设计为除非必须这样做,否则永远不会关闭。这意味着这是一个可能性,但非常遥远的事件,当它发生时,你会非常匆忙。每一个其他用例,例如关闭机架或在电源线上进行工作,都将尽可能提前计划好。

当事情变得非常糟糕时,你会真的匆忙起来。

例如,发电机耗尽燃料(通常会保留至少一天的储备量并签有合同及时补给,所以我们在谈论重大灾难),或类似的事件,你会知道在关闭之前还有几个小时的时间来关闭东西。或 HVAC 系统完全失效,然后你只有极短的时间来关闭所有东西,以免温度上升过高。

我不是这方面的专家,我是护城河的另一边(数据中心的客户),但我认为他们会有相应的系统来指挥关闭他们所控制的所有系统,而对于他们无法控制并能够正确关闭的客户系统,他们只需切断电源即可。

The farm will be eventually powered up again one zone at a time, one rack at a time, when all systems are back online and ready to go full capacity (UPSes, generators, HVAC, etc). When they have full control of the systems (i.e., not customer ones but private farms) they will usually bring AC gradually to all circuits, and servers will either power up automatically (if configured to do so, and many servers can even have a setting like "power up after a random time of max X minutes") or they will be commanded to power up via lights-out management like IPMI or similar systems.





相关问题
热门标签