Daily-10-27

谁都想不到第一次挑战会来的这么快,前两天还在悠哉游哉的看镜像站,今天就遇到了空前绝后大危机。学校的服务器似乎遇上了arp广播风暴,信息办和青柚几乎所有的服务都down了。两位后端学长带着我去了信息办,用了一下午来试着恢复所有service,顺便还参观了一下信息办的机房。

今天早上才写了Qingyou_1这篇文章,说到同时加班我摸鱼。这个摸鱼确实没得办法,毕竟是业务处理方面的事情,但今天这个服务器down了,可就是彻彻底底要运维干活了(然后我还是在摸鱼)。早上本来在开开心心的在github上搭自己的blog,本来很开心的发现hexo的源代码和deploy用的现成文件可以直接用git branch分开来。结果到了中午,突然说学校的内部网络出了超级大问题,连食堂都刷不上卡。中午两位后端学长都到了,然后带着我去了信息办,坐在某个开会的桌子边重启服务。主要是两位学长在做,我最多起一个记录的作用。下面是一些印象深刻的记录。

  1. 最主要的两台服务器,理论是完全一样的,但一台可以正常运行,另一台卡死,reboot都卡死。并且tomcat父进程为1,无法kill,同时其log文件夹无法打开,无法ls、du,free显示内存占满,swap分区16g全满。最后只能物理重启,重启后可以正常使用了,从另一台服务器上copy过来了配置。
  2. 搭载某部门服务的服务器,80+443端口都无法使用,但ssh连接正常,redis没有设置登录密码,但是手动登录时要求密码了,reboot之后可以正常使用了,但是证书似乎还有问题,两个学长也没解决。
  3. 搭载另一部门服务的服务器,服务down了,重启服务后可正常使用。

除此之外还有各种容器需要重启,有的是学长搭建的,如果不及时记录的话,还真不一定记得住他们的作用。

本来下午约了去飞无人机,果断推到明天了,不过无人机的代码倒是早就写好了。本以为明天没课的,约时间调试无人机的时候才想起来明天还有个实验课。又是不想上课的一天。

不管怎么说,今天下午还是多多少少学到了点nouns,也深刻意识到一个了解服务的运维的重要性,此前的服务都是后端同学手动搭的,幸好他们还记得相关信息,不然我现在的能力可做不到完美恢复。除此之外,我对网络、数据库的了解还是差的太多。

对于未来的话,希望能早点上云吧,服务也希望能够系统化一点,文档可以多写一点。

以上。