跳至正文

小错误,大灾难——GitLab 离线一天

小错误,大灾难——GitLab 离线一天

GitLab是一家替代广受欢迎的GitHub 的初创公司,最近的日子相当糟糕,因为一个人为错误导致整个网站宕机了一整天

当网站遇到加载时间和稳定性问题时,GitLab 的问题首先出现该网站已下线以纠正这些问题。然而在维护的过程中,有人不小心误删了一个包含300GB直播制作数据的目录

对 GitLab 来说幸运的是,删除的内容只影响问题和合并请求存储库和 wiki 没有受到这个错误的任何影响,这意味着这个错误造成的损害没有它本来应该的那么严重

gitlab 推文

删除目录后,GitLab 人员立即转向其备份。不幸的是,GitLab 遇到了另一个问题根据随着GitLab 努力恢复在线而不断更新的Google Doc 文件,该网站部署的所有 5 种备份/复制技术都无法可靠地工作,并且在某些情况下从未首先设置

从云中检索这些丢失的文件不是 GitLab 的选择,因为这家初创公司去年年底决定转储云,以构建和运营自己的 Ceph 集群不用说,GitLab 现在正在重新考虑他们在该特定主题上的立场。

尽管 GitLab 经历了动荡的一天,但该网站现在正常运行。虽然该网站报告说在 6 小时的时间窗口内丢失了一些数据,但在整个考验过程中Git存储库都没有受到伤害。可以在此处查看整个事件的完整事件日志

虽然可以从 GitLab 的小错误(主要是狂妄自大)中吸取许多教训,但 GitLab 处理危机的方法相当令人钦佩,因为这家初创公司对用户清晰透明希望 GitLab 从这个错误中吸取教训。否则,如果历史重演,它的用户群可能不会那么宽容。

来源:The Register

标签: