当前位置: 首页 > news >正文

故障频发,给我一个完美的解释...

1.盘点事故

8月19日,网易云音乐「崩了」,网页端报错,App 无法使用,什么原因?你那受影响了吗?

一次更新,一串代码,全球宕机。7月19日下午发生了全球范围内的Windows大面积蓝屏事件!美国网络安全龙头企业CrowdStrike一次失败的软件更新,给全球无数微软Windows系统用户搅了个不得安宁。

07月02日10:04分,阿里云又挂了!上海可用区N出现网络访问异常!B站App无法使用浏览历史关注等内容,消息界面、更新界面、客服界面均不可用,用户也无法评论和发弹幕,视频评论区和用户(UP主)主页都无法加载…

2.无端的猜测

争对这次的网易云崩了,传言程序员删库跑路,一下子热度攀升,甚至甩锅给数据库,更有提到是裁员裁到大动脉导致!最终根据官方的告知是因基础设施故障,导致网易云音乐各端无法正常!

走在漆黑的小路上总想找点光 哪怕那是一滩深水的反光,这些不假思索脱口而出的猜测,大都是刀枪剑影的语言暴力。既要有赤子之心,还能够明察秋毫,这是很难的境界了!就像前段时间体育“饭圈文化”引发的粉群之争。水云间,半梦半醒,半清半浊,这些故障背后的根因究竟是什么?不得而至,我想只有运维商才有最权威的发声!

听到不少对国产数据库的吐槽,可能每次类似的大故障,大家都会关联到国产数据库,在中国这片土地上,现在到底有多少家数据库创业公司,有多少种产品,我想肯定是数不清楚的。这里面到底又有几个可以做到拳打Oracle,脚踢DB2?

数据库的国产化意味着中国能够自主掌握关键技术,特别是在数据安全和主权方面具有重要意义。
OceanBase、GaussDB、TiDB、达梦、海量等一些国产数据库也加大研发力度,请大家相信国产化数据库,因为这里有很多志同道合的奋斗者一直在努力,从未放弃!

3.用户的期待

其实用户一直在等待,事后故障复盘权威报告,可事实是只有恢复之后的告知!今天看了下网上大家的第一反应都是这么大的公司怎么还会出这样的问题?

反思这个问题出现其背后的原因是什么?毕竟这么大的公司,应急预案肯定是有的,补救措施肯定也是相对完善,为什么还会造成这么大的后果?难道高可用真的形同虚设?

解决“IT系统稳定性工作很难被认可”的难题,一个好办法,就是在每次意外事件后,就撰写并公布领导和用户都能看懂的避坑指南。让他们了解稳定性工作所面临的挑战和价值。“ 很多做过稳定性这事的人都知道,做这个事情最麻烦的是很难被认可,做的好,不出问题,不懂的人不知道你做了什么,出了问题的时候觉得你到底做了什么,所以会看到很多公司都是运动式的做稳定性,一阵一阵的。

用户为什么这么迫切的期待复盘报告呢?复盘报告详细描述了处理过程、服务影响、问题分析与改进措施,并提供中文简体、繁体、英文三种版本,能让人重新树立阿里工程师可以更好地应对未来故障的信心。对软件系统生产事故复盘报告越保密,开发人员对自己能应对软件系统稳定性故障就越没信心!


http://www.mrgr.cn/news/4163.html

相关文章:

  • 基于Kotlin Multiplatform实现静态文件服务器(二)
  • 【taro react】 ---- 通过时间格式化处理提取倒计时的分秒、时段的小时分、选择日期的月和天
  • Springcloud从零开始---Zuul(二)
  • VAuditDemo常规漏洞
  • Docker Swarm 管理
  • Kaggle竞赛——心脏病患者预测与可视化
  • Android 12系统源码_多屏幕(三)模拟辅助设备功能实现原理
  • PCDN技术如何提高网络性能?
  • Huawei Matebook e 2022 安装 archlinux 双系统
  • 鸿蒙卡片服务
  • 第R2周:LSTM-火灾温度预测
  • 【C/C++】宏定义标志位使用到 (1U<<0)是为什么?
  • ROS常用消息之Image
  • 基于Django的停车场车辆出入管理系统,可识别车牌图片
  • AI大模型应用开发实战-Agent应用对话情感优化
  • ChatGPT完成论文润写的几点说明
  • 你也想转行成为一名程序员吗?作为过来人的我希望你想清楚这几个问题再做决定
  • 第18 章探讨 C++新标准.可变参数模板,模板和函数参数包,展开参数包
  • 延时仅33us,Linux-RT实时性能测试分享—基于瑞芯微RK3562J国产平台
  • Fiddler不仅可以抓包,还可以做接口测试喔