饿了么“某机房网络故障导致下单业务抖动”之解决方案
2017-12-14 06:37:31
原文:http://efs.ele.me/?p=163
由于运营商xx网内链路中断,导致部分xx运营商方向流量绕行xx运营商,xx运营商部分出口拥堵, 造成部分 BGP 客户xx运营商、xx运营商方向品质下降,经上报运营商并持续疏导优化流量至其他出口后,线路恢复。19:57分:大量报警频发,大屏订单主业务曲线出现波动,noc发现网络有异常,noc立刻联系基础运维&xx机房进行排查;20: 01分: noc oncall基础运维跟进了解排查进度,xx机房工程师查看其内网未发现异常;20: 05分:xx机房工程师测试与运营商物理链路正常,公网排查发现电信路由异常绕行联通;20: 09分: 业务仍未恢复,noc oncall业务运维做出口切换评估和准备;20:10分:xx机房工程师定位故障为xx运营商路由异常,导致部分流量绕行xx运营商,同时xx机房工程师开始临时疏导流量;20:22分:基础运维切到第二出口,业务开始恢复,但微信支付没有恢复;20:35分:基础运维再次切回第一出口,业务恢复。1. 已要求运营商,在网络故障发生第一时间,优先为xx机房调优出口;2. 已联系运营商并要求对方升级近期常出故障设备,并保障xx机房的网络品质 ;3. 加快监控系统的升级,以便能够在发生故障的第一时间发送具有饿了么信息的告警邮件,并迅速定位故障原因 ;4. 告警邮件已加入xx机房和饿了么接口人邮箱,xx机房接口人发现告警后会第一时间通知到饿了么联系人,以便饿了么了解信息,加快故障响应和处理速度。下单业务受直接影响下掉,导致napos(商户系统)接单和物流运单同比下跌。