谨慎
(1)能备份的东西在操作前一定要备份,不要省略,往往能迅速挽救生命;
(2)在线操作必须在测试环境中获得授权和验证,或者必须在大多数人共同决定后进行。不要提出自己的主张;
(3)可以用工具操作的东西,不要手动打上所谓的tall命令,可以提前写成脚本,不要手动操作;
(4)对线路有影响的操作,需要评估流量低峰期,错峰流量;
(5)添加基础报警前请不要上线,请务必使用业务上线前报警;
(6)作为运维工程师对报警系统的敬畏、上午例行检查、历史故障总结等;
2. 失败
(1)发生故障时,优先恢复业务,而不是找问题;
(2)困难故障需要故障升级通道,所有可用资源由Leader协调;
(3) 运维工程师按流程造成的故障,不记入员工KPI考核,但记入Leader KPI考核,推动流程整改;
(4)未按程序操作,造成在线重大故障的,应记录在工程师和领队的KPI考核中,并对故障承担连带责任;
大型站长资讯类网站! https://www.zxzz.com.cn