某局点CAS虚拟机异常重启问题分析

关键词:
问题现象

某局点一台CentOS 7.2虚拟机(已安装castools)经常自动重启,其他虚拟机没有该问题。建议客户排查系统层面的问题,客户收集CAS虚拟机/var/log目录下的messages日志文件,日志高达几个G查看日志,报:hub 4-1:1.0:hub_port_status faileder = -11),怀疑跟这个报错有关系。客户在故障发生一段时间后手动重启虚拟机不再报错,业务也恢复正常。

CAS软件版本:3.0 E0306H07

告警信息

虚拟机业务异常时报的messages错误信息如下:

虚拟机重启在CVK上用lsusb -t命令查看如下:(感觉像是鼠标设备)

虚拟机硬件信息如下

原因分析

收集CAS日志反馈研发分析,最终定位这个是Linux系统固有的问题:内存热添加导致的虚拟机内部IOMMU不适应。很多Linux虚拟机从小于4G内存热添加到4G或更大的时候就会有这个问题。虚拟机热添加内存后虚拟机的xml配置文件中会有两根内存条,虚拟机启动的时候内存小于4G,所以没有IOMMU,然后热添加内存超过4G会造成PCI设备不适应,从而引发虚拟机异常重启。

解决办法

有两个方法可以规避这个问题:

1、关闭虚拟机,然后修改虚拟机内存配置,比如改成6G,再改回到4G。这样可以触发CAS重新去设置虚拟机xml配置文件中的内存配置,会把两个内存条合并为1根内存条,这样启动的时候内存就大于等于4G(推荐方案)

2、在虚拟机的grub中添加iommu=soft,然后重启虚拟机。

建议与总结

1、熟悉CAS虚拟机的常见操作方法,虚拟机添加内存时,建议先关闭虚拟机再添加内存。

2、掌握CAS收集日志的方法。

案例信息

案例类型:经验案例
案例号:201803260037
创建时间:2018年3月26日
更新时间:2018年3月27日
发布时间:2018/3/27 9:07:41
文章密级:游客可见
有效期:长期有效
发布者:马光彬 [m10027]
点击次数:1586
评论平均得分:0
关键词:CAS;虚拟机;重启
产品线:CAS
产品系列:云管理平台
产品版本:
故障类型:

常用操作
收藏