系统维护记录

Posted by zuzhihui in Linux技术 on 2008/05/25 with No Comments

这两天,我们的一台Xen VPS Host主机的的硬盘也“地震”了。这台主机上有两块硬盘坏了。但是由于做了RAID,数据一点没有丢失。这次事故使部分客户的VPS中断了,尤其是一些做新闻的客户,比如 汶川地震网等,我们深表歉意,我们会尽力杜绝此类事件的发生。

这台VPS Host一共三块硬盘,前两块做了RAID1,上面安装了操作系统,放着所有VPS数据。第三块硬盘没有做RAID,用来备份数据。昨天晚上,我收到主机上SMARTD发来的邮件报告第二块硬盘检测失败。这时第一块硬盘很正常,所以系统还是没有受到影响。但是这时候由于没有了RAID,系统就处于不安全的状态,因为如果第一块硬盘再坏了,系统就不能在线运行,只能从第三块硬盘手工恢复数据了。为了消除这个状态,我们把第三块硬盘的数据清理了一下,然后把第三块硬盘加入RAID。这样虽然没有了备份空间,但系统稳定了。

下午大概三点的时候第三块硬盘也坏了(第三块和第二块是一起购买的)。我们立即派人联系服务器经销商,取了两块新的服务器硬盘,赶赴IDC。在只有一块硬盘的情况下,系统也是在线的。关键是这时候系统由于需要重启了,而重启失败了。后来发现启动失败的原因是由于/etc/fstab文件中有第三块硬盘的分区,这个分区的文件系统检查标志是打开了的,所以启动过程要检查这个分区,发现错误后就不继续了,要输入root密码才能进入一个shell。如果不是这个启动失败,断线时间能缩短一些。

在IDC换了硬盘后,系统能够正常访问了。由于RAID重构是在后台进行的,所以系统的IO在重构过程中比较繁忙,VPS中应该能感觉到。

经过这次事件,总结了几点经验教训:

  1. 客户的数据是最重要的,RAID一定要坚持做,数据安全方面任何环节不能忽视
  2. 一台主机上的硬盘要不同批次的,最好是要不同品牌的,因为同一批硬盘的质量往往类似,如果一个出问题的话,这个批次的其他硬盘也有可能要出问题。
  3. 要注意Linux的fstab文件,不重要的分区不要加入检查标志,否则这个分区检查不通过,系统将不能正常启动起来。

目前国内有VPS市场服务名声不好(google关键字 “vps 服务差 OR 骗子公司 OR 垃圾” 可以看到),而我们一定要对客户负责,真诚。不管在价格方面还是服务方面都对客户透明,对所有人统一标价,服务不到的地方要反省而不是欺骗或者隐瞒。我以前在国外某VPS公司的一段兼职经验让我看到国外多数VPS公司的服务还是比较真诚的,我们确实应该好好学习。

标签:

Leave a Comment

Back to Top

2007-2013 © 北京瑞豪开源科技有限公司 京ICP备13004995号-2