toppic
当前位置: 首页> 修真小说> 饿了么“某机房网络故障导致下单业务抖动”之解决方案

饿了么“某机房网络故障导致下单业务抖动”之解决方案

2017-12-14 06:37:31
来自:饿了么技术通告
原文:http://efs.ele.me/?p=163
事故时间:
10月25日,持续38min。

事故定级:
[P4] 

事故责任人:
技术运营创新中心

事故原因及解决方案:
由于运营商xx网内链路中断,导致部分xx运营商方向流量绕行xx运营商,xx运营商部分出口拥堵, 造成部分 BGP 客户xx运营商、xx运营商方向品质下降,经上报运营商并持续疏导优化流量至其他出口后,线路恢复。

事故复盘:
19:57分:大量报警频发,大屏订单主业务曲线出现波动,noc发现网络有异常,noc立刻联系基础运维&xx机房进行排查;

20:  01分:  noc oncall基础运维跟进了解排查进度,xx机房工程师查看其内网未发现异常;

20:  05分:xx机房工程师测试与运营商物理链路正常,公网排查发现电信路由异常绕行联通;
20:  09分:  业务仍未恢复,noc oncall业务运维做出口切换评估和准备;

20:10分:xx机房工程师定位故障为xx运营商路由异常,导致部分流量绕行xx运营商,同时xx机房工程师开始临时疏导流量;

20:22分:基础运维切到第二出口,业务开始恢复,但微信支付没有恢复;

20:25分:xx机房工程师完成流量疏导;

20:35分:基础运维再次切回第一出口,业务恢复。

改进方案:

xx机房方:
1. 已要求运营商,在网络故障发生第一时间,优先为xx机房调优出口;
2. 已联系运营商并要求对方升级近期常出故障设备,并保障xx机房的网络品质 ;
3. 加快监控系统的升级,以便能够在发生故障的第一时间发送具有饿了么信息的告警邮件,并迅速定位故障原因 ;
4. 告警邮件已加入xx机房和饿了么接口人邮箱,xx机房接口人发现告警后会第一时间通知到饿了么联系人,以便饿了么了解信息,加快故障响应和处理速度。

我方:
不定期进行切换演练(技术运营部 长期进行)
事故现场:
在线支付下单业务曲线下掉抖动
事故上下文:
下单业务受直接影响下掉,导致napos(商户系统)接单和物流运单同比下跌。

注:
1.运营事故分级规范 v 1.2。
2.关于事故赔偿规范及流程。

这一次,只为你而来!
扫描下方二维码,即刻下载APP
赶快开启你的拇指之旅吧~
Android 和 iOS 均可使用哟~



友情链接