凌晨三点,机房的白炽灯刺得人眼睛发疼。我盯着监控屏上跳动的红色警报,手指在键盘上翻飞——3台服务器的CPU使用率飙到了98%,数据库连接池耗尽,业务接口返回502错误。工位上的冷萃咖啡早凉透了,后颈全是冷汗。
这是我做Linux运维的第3年。3年前,我还是个连vim都用不利索的计算机系毕业生,在人才市场挤得汗流浃背,简历上只敢写“熟悉Linux基本操作”。如今,我主导着公司百万级用户产品的底层架构,年薪刚过百万。手机弹出HR的消息:“下周一,集团CTO要听你讲云原生运维体系。”
这十年,我从机房里的“搬砖工”,活成了别人眼里的“技术大拿”。今天,我想把这条踩过坑、熬过夜、流过血的路,原原本本摊开给你看。
2015年,我以实习生身份进入一家电商公司。面试时HR说:“运维岗不需要多聪明,肯吃苦、坐得住就行。”我信了,但真正入职才发现——“吃苦”的定义远超想象。
我的第一个任务是“清理300台服务器的日志”。听起来简单?但每台服务器有200G日志,要手动用rm-rf删?主管拍了拍我肩膀:“傻小子,学学cron定时任务和logrotate,以后你得给全公司服务器‘打扫卫生’。”
那三个月,我的日常是:
每天早8点到机房,给50台服务器开机(老机器启动慢,得一台台等);
蹲在服务器前敲命令,记满3本笔记本(df-h看磁盘、top看进程、netstat查端口);
熬了7个通宵修数据库——有次误删了生产库的ibdata1文件,急得跪在地上求DBA救场(后来才知道,这文件删了等于数据库“心脏停跳”)。
但我没抱怨。因为每次解决一个问题,我就多懂一点服务器的“脾气”:
它怕内存泄漏,所以得用ps-ef|grep盯着进程;
它怕磁盘爆满,所以得写脚本监控/var/log分区;
它怕网络丢包,所以得学ping、traceroute、tcpdump抓包。
关键认知:运维的“基础”不是背命令,是“和服务器建立直觉”。你敲过的每一个cd、ls、chmod,都是在和这台机器“培养感情”。等你摸透它的“习性”,故障来了就像看天气预报——服务器一咳嗽,你就知道它要发烧了。
2017年,公司业务爆发,服务器从300台涨到2000台。我成了部门的“救火队长”:
大促前服务器必宕机(流量突增撑不住);
每月都有3-5次数据库慢查询(业务SQL写得烂);
运维团队每天睡不踏实,手机24小时开着强提醒。
主管拍着我肩膀叹气:“小周,你现在像个消防员,哪里着火灭哪里。但我们要的是‘消防局长’——提前把火灭在萌芽里。”
这句话点醒了我。我开始琢磨两件事:自动化和标准化。
以前扩容服务器,得手动装系统、配环境、同步代码,一台机器要2小时。我学了Ansible,写了个Playbook——现在扩容100台服务器,只需要在控制台点一下,30分钟搞定。
以前服务器出问题,往往是业务部门骂过来才知道。我牵头搭了Zabbix监控平台,设了200+个告警规则:
CPU连续5分钟>80%→立即电话通知;
数据库QPS突降50%→触发短信告警;
磁盘使用率超85%→自动清理30天前的日志。
我带着团队写了《运维操作手册》,从“如何重启Nginx”到“数据库主从切换SOP”,细化到每一步命令。新人培训时,直接丢给他一本手册:“照着做,出错算我的。”
半年后,部门故障率下降70%,加班时长砍半。老板拍板给我涨了50%工资——这是我第一次意识到:运维的价值,从来不是“修得多快”,而是“修得越少越好”。
2020年,公司启动数字化转型,CTO说要“用技术驱动业务”。我突然发现:以前的运维,是“支撑部门”;现在的运维,得是“业务伙伴”。
我开始研究公司的核心业务:电商大促的流量波动规律、用户下单的链路瓶颈、库存系统的响应延迟。以前看到服务器CPU高只会加机器,现在会想:“是不是秒杀活动的缓存没预热?”“支付接口的数据库索引是不是该优化了?”
我牵头做了两件事:
自动化运维平台:用Python写了套脚本,对接Jenkins做CI/CD,把应用发布时间从40分钟压缩到8分钟;
成本优化方案:分析服务器利用率,把低负载的机器回收,一年省了200万云服务器费用。
带团队时,我总说一句话:“运维不是‘背锅侠’,是‘业务护航者’。”我鼓励新人参与业务讨论,教他们用数据说话(比如“大促期间服务器成本增加30%,但GMV增长50%,ROI是正的”)。
这一年,我晋升为运维总监,薪资从30k涨到60k。更重要的是,我开始理解:运维的最高境界,是用技术为业务创造价值——你能帮公司省多少钱、赚多少钱,决定了你能拿多少工资。
去年,猎头找到我:“某大厂招云原生运维架构师,年薪120万+期权,你去聊聊?”
面试时,CTO问了我一个问题:“如果现在让你设计一个支撑亿级用户的电商系统,你会怎么规划运维体系?”
我答:“我不会只考虑服务器,会从‘云原生架构’入手——用K8s做容器编排,用Prometheus+Grafana做全链路监控,用ServiceMesh做服务治理。更重要的是,我会把运维能力‘产品化’:让业务团队自助扩缩容、自动排查故障,把运维从‘成本中心’变成‘效率引擎’。”
后来我才知道,CTO看重我的,不是“修服务器”的技术,而是“用技术重构业务”的视角。
现在,我带的团队有50人,负责公司所有核心业务的底层架构。每天早上,我扫一眼监控大屏:服务器利用率75%(合理区间)、接口延迟P99<200ms(达标)、数据库QPS平稳——然后打开电脑,开始写下一版《云原生运维白皮书》。
这十年,我见过太多运维工程师的迷茫:
“每天敲命令,什么时候能出头?”
“技术更新太快,学不过来怎么办?”
“运维是不是青春饭?”
我想说:运维是最“长情”的技术岗——只要你愿意沉下去,把每一个故障当教材,把每一次优化当勋章,时间会给你最好的答案。
如果你也想走这条路,记住三个“笨功夫”:
敲够10000小时命令:别嫌基础操作枯燥,这是你和服务器“对话”的语言;
啃透3本经典书:《鸟哥的Linux私房菜》《UNIX环境高级编程》《凤凰项目》(后者教你用技术思维做业务);
永远比业务快半步:今天多学一点云原生、SRE、DevOps,明天就能比同事多一份竞争力。
最后送你我工位上贴的一句话:
“运维不是‘修机器的人’,是‘让机器更好服务业务的人’。
而我们,终将活成自己羡慕的样子。”
版权声明:本站所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请举报,一经查实,本站将立刻删除。