大有可为
岗位职责:
1、系统稳定性保障
负责公司核心业务系统的7x24高可用架构设计、部署及稳定性优化,制定并执行容灾、容错方案。
主导生产环境故障的快速响应、根因分析及长效解决方案落地,推动SLA/SLO持续提升。
2、持续交付与自动化
设计并优化CI/CD流水线,推动自动化发布、灰度发布、蓝绿部署等实践,提升交付效率。
开发运维工具链(如监控告警、日志分析、资源调度等),实现运维场景的自动化、智能化。
3、监控与可观测性体系
构建多维度监控体系(Metrics/Logs/Tracing),使用Prometheus、ELK、Grafana等工具实现业务全链路可观测。
通过数据驱动优化系统性能,提前识别潜在风险并推动预防性治理。
4、成本与资源管理
负责云资源(AWS/Aliyun等)或物理服务器的规划、成本优化及利用率提升,制定容量管理策略。
推动FinOps实践,平衡性能与成本,实现资源精细化运营。
5、运维规范与协作
制定运维标准化流程(变更管理、应急预案、安全合规等),推动DevOps文化落地。
协同开发、测试、安全团队,优化跨部门协作机制,提升整体研发效能。
任职资格:
1、学历与经验:
本科及以上学历,计算机、通信等相关专业,3年以上运维开发或业务运维经验,有复杂业务系统运维经验优先。
熟悉互联网高并发、分布式系统架构,对微服务、容器化、云原生技术。
2、技术能力:
精通Linux系统、网络协议及性能调优,熟练使用Shell/Python/Go至少一门语言开发运维工具。
熟悉Ansible/Terraform等自动化运维工具,具备Kubernetes生产环境管理经验。
深入掌握至少一种公有云的核心服务及运维实践者优先。
熟悉监控告警体系搭建(如Zabbix/Prometheus+Alertmanager),具备全链路故障定位能力。
3、软性要求:
具备优秀的业务敏感度,能快速理解业务需求并转化为技术方案。
抗压能力强,能高效处理紧急故障,具备系统性解决问题思维。
良好的沟通能力和团队协作精神,能推动跨部门项目落地。
加分项:
1、有存储、接入层服务类运维经验者优先。
2、熟悉AIOps、混沌工程(Chaos Engineering)等前沿技术实践。
3、拥有云平台(腾讯云/AWS/Aliyun认证)或PMP等相关认证。
拉勾安全提示