小错误,大灾难——GitLab 离线一天
GitLab是一家替代广受欢迎的GitHub 的初创公司,最近的日子相当糟糕,因为一个人为错误导致整个网站宕机了一整天。
另请阅读:
10 个有用的 Github 功能
当网站遇到加载时间和稳定性问题时,GitLab 的问题首先出现。该网站已下线以纠正这些问题。然而在维护的过程中,有人不小心误删了一个包含300GB直播制作数据的目录。
对 GitLab 来说幸运的是,删除的内容只影响问题和合并请求。存储库和 wiki 没有受到这个错误的任何影响,这意味着这个错误造成的损害没有它本来应该的那么严重
删除目录后,GitLab 人员立即转向其备份。不幸的是,GitLab 遇到了另一个问题。根据随着GitLab 努力恢复在线而不断更新的Google Doc 文件,该网站部署的所有 5 种备份/复制技术都无法可靠地工作,并且在某些情况下从未首先设置。
从云中检索这些丢失的文件不是 GitLab 的选择,因为这家初创公司去年年底决定转储云,以构建和运营自己的 Ceph 集群。不用说,GitLab 现在正在重新考虑他们在该特定主题上的立场。
@TheRegister @gitlab将致力于提高应用程序的性能并探索替代云托管提供商。
– Connor Shea (@connorjshea) 2017 年 2 月 1 日
尽管 GitLab 经历了动荡的一天,但该网站现在正常运行。虽然该网站报告说在 6 小时的时间窗口内丢失了一些数据,但在整个考验过程中Git存储库都没有受到伤害。可以在此处查看整个事件的完整事件日志。
虽然可以从 GitLab 的小错误(主要是狂妄自大)中吸取许多教训,但 GitLab 处理危机的方法相当令人钦佩,因为这家初创公司对用户清晰透明。希望 GitLab 从这个错误中吸取教训。否则,如果历史重演,它的用户群可能不会那么宽容。
来源:The Register