-
职位职责: 1、负责大模型相关产品的全链路交付管理,深度参与项目可行性评估,实施方案制定(容量规划、技术选型等),保障产品高效、稳定上线; 2、负责保障客户环境的稳定运行,建立故障预防与应急响应机制,快速定位并解决各类故障与告警; 3、负责对客赋能,为客户定制专业化、场景化的使用及运维培训方案,培养客户技术团队自主运维能力; 4、协同项目经理整合内外部资源,化解项目执行中的技术难题,确保项目按时高质量交付; 5、建立客户问题反馈闭环管理机制,深度分析客户反馈数据,挖掘客户潜在需求,驱动产品功能迭代与用户体验持续优化。 职位要求: 1、计算机相关专业本科以上学历,5年以上云原生运维经验,2年以上大模型部署调优经验; 2、熟悉Docker、Kubernetes等容器技术,了解主流云平台(阿里云/AWS等)的使用,并具备丰富的实操和运维经验; 3、深入理解Linux/Unix系统、网络原理及硬件架构,具备扎实的理论基础与丰富的实践经验,拥有出色的故障排查能力,能够快速定位并解决复杂技术问题; 4、熟悉Golang/Python中至少一种开发语言,有Ansible/Saltstack/Puppet等自动化部署和编排工具开发经验; 5、具备较强的沟通和团队协作能力,能够与技术、产品、销售等不同部门人员进行有效沟通与合作,共同推动项目进展; 6、具有大模型项目落地经验者优先,熟悉大模型训练、推理等业务流程及技术要点;具有交付运维团队管理经验者优先,能够合理分配任务、协调资源,保障团队高效运作。
-
岗位职责 搭建区块链节点以提供高可用服务 维护节点及服务的高可用性 确保产品与服务访问的可用性与可靠性 搭建稳定多云高可用架构 任职要求 211院校计算机相关专业本科及以上学历 1-3年运维工作经验 精通云平台(AWS,GCP,Azura等) 精通常见编程架构语言(Python, Golang, Shell) 英文可作为工作语言 符合以下条件者优先 了解区块链,或运行过区块链节点
-
岗位职责: 1、负责管理本地服务器及阿里云资源等日常维护,技术支持、系统优化、故障处理、相关维护文档编制; 2、负责以及应用系统日常维护工作,系统上线、升级、部署日常操作; 3、负责管理办公及网络设备(如路由器、交换机、防火墙); 4、负责对现行自动化建设与维护。 任职资格: 1、本科以上学历,一年以上相关工作经验; 2、具有Linux系统维护经验以及云服务器相关经验,熟练操作常见的Linux发行版(如CentOS, Ubuntu)系统的安装、配置及日常使用; 3、具备Shell/Python脚本编写能力,能高效地通过脚本自动化处理日常运维任务; 4、熟悉Nginx/mysql/redis/消息队列等软件的日常维护及故障排查; 5、熟悉TCP/IP协议栈以及HTTP协议,能够理解并解决相关的网络通信问题;了解基本的路由与交换技术,能够对交换机、路由器以及防火墙进行必要的配置工作; 6、熟悉常用的监控工具(如Prometheus, Zabbix等)和日志管理系统(如ELK Stack等),能够设置和维护这些工具以确保系统的稳定运行; 7、掌握Docker容器技术及Kubernetes集群管理,能够部署、管理和优化容器化应用。
-
运维工程师 工作职责: 1、负责公司服务器、网络设备等硬件设施的安装、配置、维护和管理,确保其稳定运行。 2、设计、开发和维护自动化运维脚本和工具,提高运维工作效率和质量。使用脚本语言(如 Python、Shell)编写自动化部署脚本,实现服务器软件的快速部署和配置更新。建立和完善运维自动化平台,集成监控、部署、配置管理等功能。 3、搭建和维护服务器及网络的监控系统,使用开源或商业监控工具(如 Zabbix、Prometheus 等)对系统资源(CPU、内存、磁盘 I/O、网络流量等)、服务状态(Web 服务、数据库服务等)进行实时监控并配置合理的告警机制。 4、负责 Kubernetes 集群的规划、部署和初始化配置。根据业务需求,搭建高可用、高性能的 K8s 集群,包括但不限于选择合适的节点数量、配置网络插件(如 Calico、Flannel)和存储插件(如 Ceph、NFS)。 5、负责公司外部项目部署交付(需能接受短期出差),包括自建k8s集群以及各种私有容器云平台上部署公司项目,编写和维护项目相关文档,包括但不限于集群架构图、部署手册、运维手册、故障处理指南等。 6、快速响应和处理各种系统、K8s集群和应用出现的故障。在发生故障时,能够迅速定位问题的根源,如网络故障、存储故障、应用代码问题等,并采取有效的解决措施,尽快恢复业务正常运行。制定和演练应急响应计划,包括灾难恢复、故障转移等场景。 任职要求: 1、本科及以上学历,计算机科学、信息技术或相关专业背景。 2、熟悉 Linux 常用命令和服务(如 Apache、Nginx、MySQL、Redis 等)的部署和优化。 3、熟悉网络基础知识,包括 TCP/IP 协议、路由交换技术、VLAN、VPN 等,具备网络故障排查能力。 4、深入理解 Kubernetes 的架构、原理、核心组件和资源对象(如 Pod、Deployment、Service、Ingress 等),具备丰富的 K8s 集群部署和运维经验。 5、熟悉容器技术,如 Docker,包括容器的创建、运行、网络和存储配置等。 6、掌握至少一种监控工具(如 Prometheus)和可视化工具(如 Grafana)的使用,能够构建有效的监控体系。 7、熟悉网络和存储相关知识,如 IPV4/IPV6、TCP/IP 协议、分布式存储原理等,能够解决 K8s 集群中的网络和存储问题。 8、具备一定的编程能力,熟练掌握至少一种脚本语言(如 Shell、Python),用于自动化运维任务。 9、具备良好的沟通能力和团队协作精神,能够与不同部门的人员有效沟通和协作。 10、具备较强的问题解决能力和抗压能力,能够在紧急情况下迅速、有效地解决问题。 11、具有较强的学习能力和自我提升意识,能够及时掌握新的运维技术和工具。 12、具有丰富的toB项目部署交付经验优先。
-
岗位职责: 1、负责管理本地服务器及阿里云资源等日常维护,技术支持、系统优化、故障处理、相关维护文档编制; 2、负责以及应用系统日常维护工作,系统上线、升级、部署日常操作; 3、负责管理办公及网络设备(如路由器、交换机、防火墙); 4、负责对现行自动化建设与维护。 任职资格: 1、本科以上学历,3年以上相关工作经验; 2、具有Linux系统维护经验以及云服务器相关经验,熟练操作常见的Linux发行版(如CentOS, Ubuntu)系统的安装、配置及日常使用; 3、具备Shell/Python脚本编写能力,能高效地通过脚本自动化处理日常运维任务; 4、熟悉Nginx/mysql/redis/消息队列等软件的日常维护及故障排查; 5、熟悉TCP/IP协议栈以及HTTP协议,能够理解并解决相关的网络通信问题;了解基本的路由与交换技术,能够对交换机、路由器以及防火墙进行必要的配置工作; 6、熟悉常用的监控工具(如Prometheus, Zabbix等)和日志管理系统(如ELK Stack等),能够设置和维护这些工具以确保系统的稳定运行; 7、掌握Docker容器技术及Kubernetes集群管理,能够部署、管理和优化容器化应用。
-
侧重开发 一、工作内容及职责: 负责调控云模型数据的日常运维与问题消缺,同时承担新一代平台前端开发任务,基于业务需求进行界面设计与功能实现。 二、任职条件: 1、精通 HTML5、CSS3、JavaScript(ES6+),熟悉浏览器原理、HTTP协议及前端性能优化。 2、熟练掌握 Vue.js 框架,具备良好的组件化开发思维。 3、熟悉 Layui、jQuery 等前端库/框架,有实际项目应用经验优先考虑。 4、具备 ECharts、H5、Canvas、Node.js 开发经验者优先考虑。 5、熟悉前端安全实践,具备良好的编码规范意识。 6、有电力相关系统开发经验者优先考虑。 7、具备良好的逻辑思维与文字表达能力,能够独立撰写技术文档、总结报告等材料者优先考虑。 8、责任心强,具备良好的沟通能力。
-
岗位职责: 1、负责私有云平台、虚拟化平台、容器云平台等多种虚拟化技术平台的建设及运维管理工作,包括软硬件选型、服务选型、工具建设、资源交付、容量/性能监测与调整、扩容/缩容、故障排除等; 2、负责设计、规划、建设和运营公司统一的网络、计算、存储资源池,优化高可用集群的架构和性能; 3、负责公司灾难恢复体系的建设及运营管理工作; 4、负责服务器类硬件产品运维管理工作,包括对PC服务器、小机、一体机、存储等的监控、调优、故障诊断、性能优化等; 5、负责物理机、虚拟机、裸金属的操作系统及镜像源等的运维与管理; 6、参与IT内部支持系统、运维自动化平台及其组件的设计与开发运维工作; 7、负责持续制定并完善服务器系统运维标准流程规范及灾备、应急处置规范等。 8、具备极好的跨部门沟通能力和团队管理能力。 任职资格: 1、本科及以上学历,计算机、通信等相关专业,8年以上服务器系统运维经验,其中3年以上互联网金融、银行、保险等行业经验,有带过团队; 2、精通服务器虚拟化相关技术,掌握主流如腾讯、阿里、青云等私有云平台、VMWare虚拟化平台及Rancher、Openshift、TKE等容器云管理平台; 3、精通常用操作系统(Windows、Linux),熟练使用Python、SHELL等脚本语言; 4、具备常见运维工具(如 Zabbix/ELK/Ansible/Docker 等)的使用经验; 5、具有良好的沟通协调能力,较强的团队合作精神、责任心和一定抗压能力。
-
岗位职责: 1.负责CDH大数据平台的安装和部署; 2.负责CDH大数据平台各组件的性能优化; 3.负责CDH大数据平台各组件的运行维护和状态监控; 4.负责新技术调研,并能在团队内进行推广应用。 任职资格: 1.理解大数据计算原理,精通Hadoop/Spark体系,了解大数据平台运营基本思路; 2.熟悉HDFS、HBASE、KUDU、SPARK、HIVE等hadoop核心组件,具有两年以上hadoop/Spark技术的运维经验; 3.理解MapReduce计算框架的思想,熟悉分布式计算模型; 4.至少精通一种大数据开发语言,如JAVA、scala等; 5.至少熟练使用一种脚本语言,如Shell、Python等; 6.热爱技术,工作认真、严谨,有团队精神。
-
岗位职责 1. 负责超大规模服务器集群的交付保障、运行维护及资源退役,保障硬件资源稳定、高效运行; 2. 负责跟踪和处理服务器各类硬件故障,持续优化问题发现-定位-处置闭环机制,提升故障处理效率; 3. 负责AI大模型训练/推理集群相关服务器的运维支持,保障模型稳定性; 4. 负责协同网络、存储、数据中心等团队进行系统级故障协同定位及优化改进; 5. 负责推动新硬件上线适配及运维策略制定,确保平滑演进; 6. 负责运维可视化、自动化能力及故障预测预防能力建设。 任职要求 1. 本科及以上学历,计算机或相关专业; 2. 3年以上服务器硬件运维经验,有IDC实地运维或大规模集群支持经验者优先; 4. 熟悉主流服务器硬件架构,具备GPU服务器运维经验优先; 5. 具备处理AI大模型训练中常见硬件故障的能力; 6. 了解Linux操作系统基本命令,掌握常用日志分析与硬件健康检测工具; 7. 具备良好的开发能力,熟悉至少一种脚本语言(如 Python / Go / Shell),可独立开发或维护日常运维自动化工具; 8. 具备良好的沟通协作能力和问题分析能力,责任心强
-
乌鸫科技-运维工程师-北京/杭州/上海
[望京] 2023-05-1915k-30k 经验3-5年 / 本科电商平台,IT技术服务|咨询,贸易|进出口 / 不需要融资 / 500-2000人负责阿里云混合云平台稳定性保障工作,维护客户关系,确保客户满意,具体工作内容包括但不限于: 1、云平台日常健康检查、监控及日常问题处理; 2、根据客户业务运行状况对云平台容量做出合理预估并针对性优化; 3、客户现场工作总结,定期汇报; 4、按需与客户完成云产品应用或运维技术交流; 5、根据现场客户的实际业务场景需要,向产品提供优化改进建议; 具备以下能力优先: 1、精通Shell,Python等语言;有大规模IT架构下的自动化运维运维经验者优先; 2、具有ACP(阿里云认证工程师)、ACE(阿里云认证高级工程师)、CCIE、RHCE等专业领域认证证书优先; 职位要求: 1、2年以上云平台或中间件、数据库、大数据等相关应用、运维经验。 2、熟悉Linux系统,能对系统的基本问题进行分析、解决; 3、熟悉一种数据库(MySQL/SQLServer等),对数据库的常见问题进行分析、解决; 4、熟悉Docker,对容器的常见问题进行分析、解决; 5、优秀的沟通和协作能力,能负责现场的运维相关工作; 6、能够接受派驻客户现场进行工作,熟悉安全生产的相关规定并遵守; 7、具备技术文档撰写的能力; 8、大数据驻场方向需能够熟练使用Hadoop、Hive、Hbase、Spark、Zookeeper、Flume等技术,并有过实际项目经验;有阿里云EMR使用经验者优先考虑; 9、中间件驻场方向需能熟练使用weblogic、tomcat、nginx中间件的一种或多种;具备java开发经验优先考虑; 10、网络驻场方向需具备大规模的骨干网络建设和运营项目经验,熟悉STP、TCPIP、OSPF、BGP、ISIS、MPLS VPNTE等协议,熟悉大规模IDC及骨干网络架构;熟悉Cisco、Juniper、H3C等主流网络厂商产品技术及产品架构; -
工作职责 1、负责公司K8S集群及中间件集群的可靠、稳定、高效运行,对系统中存在的问题进行汇总与分析,提出改进意见与建议; 2、负责SRE体系及规范的建设与落地,在保证用户使用体验和稳定性的前提下,推动运维体系朝着云原生化的方向发展,持续改进整个系统的管理和运行效率,不断提升资源利用率 3、关注业界前沿容器及中间件相关技术动态,探索云原生技术的发展方向,推动新技术在团队中应用落地,提升整体技术水平 任职要求 1、本科及以上学历,计算机及信息等相关专业优先,5年左右运维开发或集群运维经验 2、熟悉shell,python,go至少一种语言,有相关的开发经验 3、对中间件有丰富的运维部署或开发经验,包括分布式数据库、缓存、消息队列等 4、熟悉k8s生态体系产品的管理、调度、运行、安全等原理机制并熟练使用,有大规模集群管理应用经验 5、熟悉operator/CRD/CSI/CNI/CRI等k8s扩展体系,有相关的运维或开发经验 5、下面几个方面应该具备50% a.具备较强的执行力和判断力,能够有效推动事情快速落地;较好的问题分析、归纳总结能力,良好的沟通交流及书面表达水平 b.具备高度的责任心,积极主动的工作态度,良好的团队合作精神,较强的危机意识和服务意识 c.能够深刻理解运维自动化,较强的数据化运营意识,熟悉 SRE 理念,有 Devops 实践经验 d.熟悉运维工作内容和流程,各类型运维工具;对运维工作方向有一定的思考,有运维体系的理念 e.有大数据、推荐系统、机器学习、AI模型训练相关开源系统的使用或优化经验
-
工作职责 1、负责商汤AI云物理网络的规划、设计和建设,支持在公有云、专有云、私有云场景下业务需求,合理规划和部署、日常变更和故障排查; 2、定期分析网络性能,优化网络结构,提高可用性; 3、负责网络运维标准化、自动化、平台化建设; 4、负责网络设备及耗材的测试、选型,和厂商及运营商的沟通; 5、和业务方包括但不限于计算产品、网络产品、存储产品等沟通交流,从客户视角推动数据中心架构和技术演进; 任职要求 1、计算机、通信等专业**本科学历,3年以上工作经验且不少于1年综合技术支持经验; 2、熟悉云计算网络,深入理解TCP/IP、OSPF、HSRP、BGP、MPLS等各种网络协议、路由协议、交换协议,有实际大型网络配置管理、故障排查经验; 3、熟悉网络虚拟化、SDN网络特点和开源控制器、Openflow、linux系统其中任何一项优先考虑; 4、工作思路清晰,具有良好的运维服务意识,承受较大的工作压力。 加分项:有公有云网络架构设计和运维经验者
-
#### **岗位职责:** 1. **数据库部署与运维** - 负责 OpenStack、Kubernetes 环境下 **MySQL、PostgreSQL、OpenGauss、Redis** 等数据库的 **部署、配置、调优及高可用架构设计**。 - 使用 **Helm、Ansible、Terraform** 等工具实现数据库的 **自动化部署与生命周期管理**。 - 监控数据库性能,优化 **SQL 查询、索引、缓存策略**,确保数据库高效稳定运行。 2. **云环境运维与问题排查** - 负责 OpenStack(Nova、Cinder、Neutron)和 Kubernetes(Pod、Service、Ingress)环境下的 **数据库服务运维**。 - 快速定位并解决 **线上数据库故障**(如主从延迟、锁竞争、OOM、网络问题),保障 SLA。 - 配合 Dev/Ops 团队优化 **CI/CD 流水线**,确保数据库变更安全上线。 3. **安全与合规** - 执行 **数据库安全审计**,防范 SQL 注入、未授权访问等风险,确保符合 **等保、GDPR** 等合规要求。 - 管理 **数据库权限、加密(TLS)、备份恢复**,制定 **灾备方案(PITR)**。 4. **运维开发与自动化** - 开发 **数据库运维工具**(如自动备份、监控告警、日志分析),提升运维效率。 - 编写 **Prometheus + Grafana 监控看板**,实现 **慢查询、连接池、存储增长** 等关键指标可视化。 - 参与 **ChatOps** 建设,集成 **Slack/钉钉机器人** 实现自动化运维。 #### **任职要求:** - **技术栈:** - 精通 **MySQL/PostgreSQL** 运维,熟悉 **高可用方案(主从复制、MGR、Patroni、Galera)**。 - 熟悉 **OpenStack(Ceph、Swift)和 Kubernetes(StatefulSet、Operator)** 的存储管理。 - 熟练使用 **Ansible、Terraform、Helm** 进行自动化运维,掌握 **Python/Go/Shell** 脚本开发。 - 了解 **Prometheus、ELK、Grafana** 监控体系,具备 **故障根因分析(RCA)** 能力。 - **经验要求:** - 3 年以上 **数据库运维/DevOps** 经验,有 **大规模云环境(AWS/Azure/私有云)** 实战经验优先。 - 熟悉 **数据库安全(审计、加密、RBAC)**,有 **等保合规** 经验者优先。 - **软技能:** - 良好的 **问题排查能力**,能在高压下快速恢复服务。 - 具备 **文档编写习惯**,能清晰记录运维流程和事故报告。
-
岗位职责: 1.负责大数据分析平台的系统部署、运行和系统维护工作; 2.负责集群的稳定性维护、性能调优; 3.负责大数据分析平台的系统监控、应急响应和故障排除; 4.负责系统运维、监控、部署相关的功能开发和技术文档编写; 5.负责开发运维工具、简化日常运维工作。 岗位要求: 1.了解日志系统、监控告警系统、自动化运维平台,有相关开发经验优先; 2.深入了解Linux系统,能独立部署开源软件,熟悉并掌握shell或python脚本语言; 3.深入了解运维体系技术、熟悉容量规划,架构设计和性能优化; 4.懂信息技术安全者优先考虑。 5.熟悉Hadoop生态组件,对于HDFS、Yarn等组件的日常操作较为熟练,能够对组件的运行日志进行简单分析 6.熟悉ansible等批量集群管理工具优先
-
岗位职责: 1. 负责运维自动化系统的前后端设计与开发。 2. 负责运维自动化系统开发文档、架构图、需求设计、测试用例的编写。 3. 负责运维自动化系统维护、测试、上线 4. 负责运维自动化系统的功能维护及bug管理 岗位要求: 1.精通Python语言,掌握 Django框架,有开发中大型系统的经验。 2. 熟练掌握Vue3.0 elment-ui等主流框架,理解框架设计原理,有良好的WEB前端优化经验。 3.熟练掌握Mysql数据库,拥有数据库表设计与优化经验。 4.熟练掌握Redis,拥有缓存运用的经验。 5.熟练掌握Linux,能够熟练使用系统命令。 6.熟练掌握gitlab、云效平台等版本管理发布系统,熟悉主流的持续集成方面解决方案和云原生解决方案 优先原则: 1、简历中需提交历史开发作品截图,包含产品开发文档信息。 2、熟悉运维自动化系统、流程引擎、智能化运维系统开发与维护,经验丰富者优先 3、熟悉云原生架构者优先 4、具有敏捷开发落地经验者优先 项目背景: 运维自动化系统的维护以及功能的迭代开发,现有系统架构图、文档的维护,架构的改造升级,平台系统的前后端优化和改造; 前后端熟练,后端这块能够基于业务需求,抽象成平台,具有架构方面的能力; 能够基于现有平台,搭台子,运维写逻辑,比如告警、自动化操作、监控、日志、安全等,由开发把完整的框架和功能按照可配置可自行服务编排,运维通过各个模块的接口来进行业务逻辑的实现,比如cmdb,开发做出来的是一个系统,运维在这里可以录入信息,字段的调整也是通过后来来定义和配置,减少开发写业务逻辑的时间,更多放到平台和架构以及服务编排能力上


