问题现象

刀箱UIS8000中配置8台刀片服务器安装 Centos6.8 做群集 ,当出现高CPU\内存负载时,8台刀片会有随机性出现1~2个刀片服务器宕机,宕机刀片健康灯橙色报警,重启后刀片服务器可以正常开机运行,无报警,但故障会不定期反复出现。

告警信息

出现故障时,刀片健康灯报警。

IML log可见以下报错内容
Server Blade Enclosure Inadequate Power To Power On: Not Enough Power (Enclosure Serial Number xxxxxxxxxx Slot 8)
Maintenance note: CPU(s) operating at reduced performance level due to an enclosure power event.

OA SysLog可见刀片健康状态报警
Mar 14 17:39:35 OA: Blade 8 is reporting failed health status.
Mar 14 17:39:35 OA: Blade in bay #8 status changed from OK to Failed
Mar 14 17:41:40 OA: Blade 1 is reporting failed health status.
Mar 14 17:41:40 OA: Blade in bay #1 status changed from OK to Failed

 

原因分析

查看刀箱OA中电源设置,Dynamic Power是开启状态,由于大部分时间刀片工作在低负载状态,刀箱自动降低对刀片的供电输出,刀箱对刀片供电提高需要响应时间,当系统瞬间出现高负载时,刀片硬件从刀箱获得供电不够导致硬件异常。

查看刀箱电源配置方式:

>SHOW POWER

Power Mode: Redundant

Dynamic Power: Enabled

Set Power Limit: Not Set

解决办法

OA中关闭Dynamic Power功能,观察使用故障无复现。

建议与总结

当出现同刀箱内多台刀片供电相关问题时,可以优先考虑刀箱电源设置,是否有限制,或者动态电源管理。

案例信息

案例类型:经验案例
案例号:201706250002
创建时间:2017年6月25日
更新时间:2017年6月28日
发布时间:2017/6/28 9:01:03
文章密级:游客可见
有效期:长期有效
发布者:杜玉坤 [d61491]
点击次数:895
评论平均得分:0
关键词:Dynamic Power,动态电源
产品线:刀片服务器
产品系列:
产品版本:
故障类型:硬件问题

常用操作
收藏