所有故障皆“事出有因”,故障的发生一定是在一个稳定的正常运行的网络中,某一网络环节发生了变化而引起的,这些诱发网络产品发生故障的变化包括:
网络调整:包括但不限于组网调整、配置修改、升级割接等操作;
网络环境发生变化:包括但不限于网络风暴、特定节日/促销活动/智能终端导致用户行为变化,网络设备电源/温度环境发生变化、传输光缆被切断、夏令时跳变、微波受大雨/大雾等其后影响、洪水/火灾/地震/雷击等外界不可抗力
网络设备发生故障:包括但不限于软件发生缺陷、硬件老化故障(单板异常、光纤光模块故障)等。所有这些诱发故障的内在因素绝大多数都有其“外在异常表现”,具体会反映在特定网元的告警、日志、流量统计、端口状态等信息中。因此故障快速定位的关键在于,如何有效而快速的通过事发时间、影响范围、所做操作及故障网络范围的网元基本信息的查看,快速发现这些“外在异常表现”所在的点,进而锁定故障网元节点,找出问题根因。
以上引用自博客园大佬:讲文张字 - 博客园 (cnblogs.com)
处理过程
先说一下现象,整个公司两层楼,全部终端都上不了网,据同事描述刚开始还能上网,网速很慢(当时我正在处理其他事情,没有上网行为,所以没有立马知道断网了),后来直接上不了网了。同事反馈到我这儿之后,我立马开始排查:
1、先用自己电脑长ping网关看是否通(我自己的IP是static的),发现到网关都不通了;
2、立刻到机房检查二三层交换机的状态,发现交换机power、status灯都亮,由此初步判断大概率是环路造成网络风暴;
3、之前刷文章有看到过可以根据交换机灯的闪烁频率来观察是哪台交换机造成的环路,但现场实际灯的闪烁频率没有太大差别,很难辨别;
4、于是立马console线连上每台二层交换机检查CPU和内存(display cpu;display memory),查看mac信息和mac漂移记录(dis mac-address mac-move);
5、幸运的是第二台连接上去后,交换机就不停的在输出CPU过载的日志,立马意识到可能就是这台,于是直接先将这台交换机的uplink口shutdown,遂让工位同事查看我的长ping网关的控制台,已能正常ping通,于是断定是这台交换机下的用户的操作导致了网络风暴;
6、我司的交换机和端口是根据部门工位划分的,所以很容易找到了对应的部门;
7、询问该部门的同事刚刚是否有操作过拔插网线操作,其中一位同事表示刚刚将IP话机插到了网口上;
8、听到这里我立马知道了,是由于IP话机的原因,我司的IP话机是双网口,一个连接二层交换机,一个连接PC,路由模式为桥接,相当于一个HUB,检查刚刚同事操作的话机的网线连接情况,发现,两根网线都连接到了工位网口上,相当于话机和交换机对插,形成环路。检查到后,立马拔下其中一根,遂到机房重新UP交换机的uplink口,对应部门的网络也恢复正常。
9、后续将所有二层交换机都开启STP生产树功能。
总结
整理排查步骤
一、排查二层交换机问题
检查网关连通性
使用电脑长ping网关,发现网关不通。
检查交换机状态
到机房查看二三层交换机的状态,发现交换机的电源灯和状态灯都亮,初步判断可能是环路造成的网络风暴。
观察交换机灯光
尝试根据交换机灯的闪烁频率辨别问题交换机,但未能成功。
连接交换机进行诊断
使用console线连接每台二层交换机,检查CPU和内存状态(display cpu; display memory),查看MAC信息和MAC漂移记录(dis mac-address mac-move)。
第二台交换机显示CPU过载日志,怀疑问题所在,shutdown该交换机的uplink口。
二、定位问题用户及原因
确定故障部门
根据交换机和端口划分,找到对应的部门。
询问操作情况
询问部门同事是否有拔插网线操作,其中一位同事表示刚刚将IP话机插到了网口上。
发现问题原因
确认IP话机的双网口均连接到了工位网口,形成环路。
拔下其中一根网线后,重新启用交换机的uplink口,网络恢复正常。
分析问题发生的原因
1、公司网络设备操作规程不完善、培训资料和流程不完善;
2、交换机缺少重要配置;
3、网络缺少监控与冗余设计;