问题现象

某局点反馈现场有两台做irf的S7506E设备,用console方式登录设备,敲命令时稍微有些卡顿。同时伴有业务转发大量丢包现象。

告警信息

现场下行设备通过做了堆叠的S7506E ping上行设备时,反馈丢包率达到80%;而且敲命令时异常卡顿。

原因分析

1、让现场收集设备诊断,发现堆叠所用的两条线缆中有一条2/3/0/5端口下有大量错包:

Ten-GigabitEthernet2/3/0/5 current state: UP
 IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 741f-4a7b-4232
 Description: Ten-GigabitEthernet2/3/0/5 Interface
 Media type is optical fiber,Port hardware type is 10G_BASE_LR_SFP
 Mdi type: auto
 Link delay is 0(sec)
 Peak value of input: 794016 bytes/sec, at 2018-01-18 12:27:14
 Peak value of output: 494913 bytes/sec, at 2018-01-18 14:31:54
 Last 300 seconds input:  418 packets/sec 106849 bytes/sec 0%
 Last 300 seconds output:  107 packets/sec 18898 bytes/sec 0%
 Input (total):  262665001 packets, 60178410578 bytes
  203727617 unicasts, 3178134 broadcasts, 9404935 multicasts, 0 pauses
 Input (normal):  216310686 packets, - bytes
  203727617 unicasts, 3178134 broadcasts, 9404935 multicasts, 0 pauses
 Input:  46354109 input errors, 0 runts, 0 giants, 0 throttles
  46354109 CRC, 0 frame, - overruns, 0 aborts
  - ignored, - parity errors
 Output (total): 87807327 packets, 21175774563 bytes
  68380778 unicasts, 5291359 broadcasts, 14135190 multicasts, 0 pauses
 Output (normal): 87807327 packets, - bytes
  68380778 unicasts, 5291359 broadcasts, 14135190 multicasts, 0 pauses
 Output: 0 output errors, - underruns, - buffer failures
  0 aborts, 0 deferred, 0 collisions, 0 late collisions
  0 lost carrier, - no carrier

2、进一步查看诊断中的配置信息,发现现场配置了一条取消本地优先转发,并且是针对交换机的所有流量:

#
 undo link-aggregation load-sharing mode local-first

因此,怀疑是现场有一条堆叠链路不稳定,导致有跨框流量产生的时候,在不稳定链路上发生了丢包问题。

解决办法

让现场将有问题的一条堆叠线缆拔掉,这种现象随机消失。ping测试无丢包,业务转发也正常,卡的现象也不存在了。之后代理商自行替换了光模块以及堆叠线缆。问题解决。

建议与总结

在做堆叠时,通过诊断查看堆叠线路是否稳定,堆叠端口是否存在错包等,确保设备IRF正常,这是最基本的一步。

案例信息

案例类型:经验案例
案例号:201801190027
创建时间:2018年1月19日
更新时间:2018年3月29日
发布时间:2018/3/29 20:15:59
文章密级:游客可见
有效期:长期有效
发布者:樊金帅 [f15253]
点击次数:526
评论平均得分:0
关键词:
产品线:园区高端交换机产品线
产品系列:S7500E
产品版本:Version 5.20, Release 6708P09
故障类型:

常用操作
收藏