-
职位职责: 1、保障公司短视频产品的直播重保平台等核心系统的线上稳定性,对线上事故进行快速响应并建立机制、平台提升处理效率; 2、参与建设运维工具、平台,推进运维自动化; 3、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 4、积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档; 5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统SLA。 职位要求: 1、本科及以上学历,计算机及相关专业; 2、扎实的计算机软件基础知识;了解 Linux 操作系统、存储、网络IO等相关原理; 3、熟悉一种或多种编程语言,例如Python/Go/Java/PHP/C/C++; 4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感。
-
岗位职责: 1. 负责美团核心交易业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、机房容灾、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 岗位基本要求: 1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
-
【职位诱惑】 - 腾讯系团队,扁平管理,六险一金; - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设; - 能学习到许多金融、证券行业知识。 【岗位职责】 1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率; 2.参与建设运维工具和平台, 推进运维自动化; 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化; 4.处理告警,使告警得到良好处置; 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移; 6.指导研发更好的使用平台工具。 【职位要求】 1.本科及以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2.扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3.熟悉一种或多种编程语言,例如Python/Go/Shell; 4.具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5.具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/redis/mysql 等); 6.具有算法思维,良好的数据结构和系统设计的能力者优先。
-
职位职责: 1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。 职位要求: 1、本科及以上学历,计算机、软件工程等相关专业优先; 2、熟悉Linux,熟练掌握Mysql/Redis/PostgreSQL/MongoDB等数据库技术原理之一,具备生产问题的快速定位与解决能力; 3、熟悉Python/Golang等开发语言之一; 4、有向量数据库领域工作经验,了解主流向量数据库系统,如Milvus、Faiss、Vector等; 5、熟悉Kubernetes、Docker、Operator等云原生/容器相关技术; 6、逻辑思维能力强,责任心强,学习能力和钻研精神突出,对技术充满热情,具备快速定位和独立解决问题的能力,以及良好的逻辑表达、沟通和技术文档撰写能力。 加分项: 1、具有公有云或企业私有云平台相关实践经验者优先,有大规模数据库运维经验者优先; 2、有大模型应用平台使用经验者优先,例如:扣子、百炼和千帆等。
-
职责描述: 1、负责公司大数据平台的运维保障工作,保障平台的正常运行和相应数据服务的稳定高效; 2、对接数据开发侧团队,主动优化和完善服务巡检、监控工具、脚本等,减少人工操作提高运维效率;负责数据平台的故障处置、推动性能优化。如平台产品技术问题,提交给平台产品技术组进行后台处理,并及时反馈. 3、负责数据平台二线运维支撑保障,响应运维/服务台一线请求:处置生产事件,跟踪问题处理; 4、定期组织团队人员开展大数据平台的技术知识积累和移交; 5、负责设计日常运维相关的自动化工具或系统,并完成相应需求收集和需求管理 ; 任职要求: 1. 具有1年以上金融行业数据类项目运维经验,熟悉保险业务操作与管理。具有大数据平台相关技术进行数据仓库、数据中台开发、维护、优化等项目经验的人员,或长期在类似的运维项目上承担运维工作优先; 2. 具备较强的数据开发分析能力,熟练掌握SQL等技能,熟练掌握大数据平台、UNIX、LUNIX和中间件的技能。有java或Python开发基础优先; 3. 具备较强的数据分析,问题分析,逻辑思维能力,团队协作能力,有良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题者优先; 4. 强烈的自驱力和责任感,面对复杂业务问题,可以从业务和技术多角度推进,最终达成目标。
-
岗位职责 1、负责线上业务的维护工作,确保线上业务能够7*24正常运行; 2、配合开发进行新项目的部署、上线以及后续的维护工作; 3、深入理解产品的架构, 发现并解决故障隐患及性能瓶颈,参与架构优化、容灾优化、性能优化等项目; 4、配合产品进行日常的升级发布,并且对于升级流程进行优化,提升升级发布的效率; 5、配合制定相关的运维流程,确保业务的稳定性、安全性以及标准性;" 任职要求 "1、本科以上学历,计算机或相关专业,2年及以上Linux运维工作经验,并有100台以上Linux服务器运维经验; 2、具备实际业务运维经验,如WEB、游戏等业务类型的维护,具备nginx的实际使用经验,最好了解业务层面的高可用; 3、具备基本的网络知识,如TCP/IP、HTTP、DNS等等,具备CCNA或者CCNP认证更佳; 4、熟悉CDN行业的主流产品及供应商,具备CDN实际使用经验,能够处理常见的CDN相关问题; 5、熟悉互联网产品基本架构,有互联网产品研发或运维经验者优先; 6、具备极强的责任感,提供7*24小时的服务技术支持,出现问题能够及时响应并且处理;
-
岗位职责: 1、负责移动云可用性方案设计与落地,包括设计/架构/部署/运维以及持续优化 2、通过设计及监控可用性,延时等服务整体健康性指标,来运维视频云平台服务 3、通过自动化/系统化的方式,以可持续维护的目标来扩容服务,并且主动提出和实施改进服务稳定性及运维灵活性的方案, 提升移动云云平台的运维管理效率 4、负责提升移动云运维质量,提升服务SLA标准 任职条件: 1、有大型系统的运维管理经验,5年以上相关工作经验; 2、精通Linux系统、Shell/Python编程语言、网络TCP/IP协议、数据库等,动手能力强 3、对大规模分布式系统的设计,分析,故障排查有强烈兴趣 4、较强的分析和解决问题的能力,强烈责任感、 缜密的逻辑思维能力,并有很强的沟通以及主动推进问题直至解决的能力 5、有大型云计算公司从业经验,对于华为云、阿里云、AWS系统开发、测试、运维、应用工作经验者优先
-
岗位职责: 1. 负责美团核心交易业务的稳定性保障工作; 2. 参与设计与开发devops工具,包括但不限于容量规划、资源管理、故障分析等; 3. 精细化数据运营,包括可用性指标、历史事故、资源利用率等,挖掘系统薄弱点,落地改进项目; 4. 积累运维最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 岗位基本要求: 1、 计算机相关专业。深入理解Linux系统,精通TCP/IP、HTTP等协议,具备扎实的网络、计算机体系结构方面的知识; 2、 至少熟悉一门编程语言,java/python/go,能开发工具提升效率; 3、 热爱技术,责任感强,拥有强大的项目执行力和良好的沟通协作能力; 4、 工作细致、善于思考,有较强的分析和解决问题的能力; 5、 具备良好的沟通以及协调能力,能独当一面,也擅长团队作战。
-
岗位职责: 1、开发自有DevOps平台; 2、完成开发过程中的详细设计,数据库设计,并完成设计评审; 3、完成主要功能组件的开发工作; 4、修复开发测试中产生的系统bug。 任职条件: 1. 具有*****大学本科及以上学历(学信网可查),计算机或相关专业; 2. 5年以上Java后端项目软件开发经验; 3. 了解软件系统架构,有软件系统架构设计经验;熟悉面向对象开发,具备微服务拆分能力和领域模型抽象能力,熟悉常用设计模式; 4. Java基础扎实,掌握多种Java主流开发框架,熟悉SpringBoot/SpringCloud等,能够熟练进行服务器端开发; 5. 熟悉HTTP/HTTPS协议,熟悉REST API接口设计和实现; 6. 熟悉MySQL、Redis等数据库的设计和开发,对数据库性能优化有一定经验者优先; 7. 有分布式开发经验,熟悉分布式服务框架、消息中间件等;熟悉Kubernetes等相关技术者优先; 8. 熟悉Scrum敏捷开发; 9. DevOps、CI/CD平台开发经验(必选项)。
-
岗位职责: - 根据公司战略和业务发展的要求,设计系统运维方案和基础架构,制订运维工作策略、规划,保障核心系统的高效稳定运行 - 负责相关运维团队的人员培养和团队管理,提升团队的整体技术实力 - 建立完善的服务运维体系,包括资源管理、容量管理、变更管理、配置管理、灾备管理、活动重保、日常Oncall、业务巡检、故障预案、架构优化等 - 与研发协同持续优化核心系统和基础设施的稳定性和性能 - 用技术手段提升运维工程化能力,研发设计自动化运维工具和平台,减少日常重复性工作,提升运维效率 - 通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率 任职资格: - 计算机相关专业,7年以上互联网系统运维经验,或5年以上互联网SRE经验 - 具备较强的工程能力,精通使用至少一种编程语言,如shell、python、go、Java等,具有较强运维开发能力 - 精通分布式系统、大规模集群、容错、备份、负载均衡、云原生等技术,对高可用架构、容量规划和配置管理有实践经验,具备很强技术敏感度和故障排查经验 - 熟练掌握如nginx、lvs、redis、kafka、mysql等常见中间件的工作原理、部署及性能优化。 - 熟悉K8S和容器技术,能够对K8S平台进行维护和优化 - 熟悉linux文件系统、内核、linux性能调优、TCP/IP、HTTP等协议,有良好的网络、数据存储、计算机体系结构方面的知识 ,具备很强技术敏感度和故障排查经验。 - 熟悉AWS/GCP/阿里云/腾讯云等云平台运维管理经验 - 具备优秀的团队管理能力,优秀的解决问题能力和较强的学习能力 - 为人务实和正直,有强的大局观
-
Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
-
Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
-
SRE运维工程师(中间件及云原生方向) 岗位描述:乌鸫科技-TAM-混合云专家组 1. 深入理解阿里混合云产品技术原理, 协助平台驻场&客户解决云平台规划、交付、升级、运维等阶段的疑难问题,主要技术方向在弹性计算、云网络、云存储、安全、数据库,云平台底座,云管,云原生等技术领域; 2,对于客户场景的问题沉淀方案提升产品的标准化支持能力,站在客户的视角提出产品改进优化点,提升产品的体验和稳定性 3. 在高可用故障演练、热升级实施、架构改造等方面总结沉淀技术解决方案,通过专家服务形式提供现场履约 4,在业务场景通过开发工具不断提升业务效率和完善服务的标准化能力 具备以下能力优先: 1,有云厂商相关云产品运维支持经验者优先; 2,有阿里云ACP,AES,RHCE等专业领域证书优先; 职位要求 1. 大学本科及以上学历,英语4级及以上, 对云平台相关的运维支持,现场履约支持,工具开发等工作领域有热情; 2. 对于云平台计算、存储、网络、操作系统、中间件、数据库、云安全等技术领域,在至少一个领域有2年及以上的运维支持经验, 在纵向技术栈深入理解,针对疑难问题有较强分析与排查能力; 3, 在通用能力上熟悉Linux,Docker,具备常见问题的分析解决能力,对脚本有基本的阅读能力; 4, 优秀的沟通和协作能力,具备较好的客户服务意识,具备较强的问题ownership; 5. 有优秀的逻辑思维和技术文档撰写的能力,热爱技术并善于钻研,能主动思考,有解决疑难问题的毅力和决心。 6. 在工具开发方向需要有丰富的代码开发以及优化的经验,精通一门以上脚本语言(shell/python等),熟悉java/C++/Golang等开发语言一种及以上。
-
SRE运维工程师(中间件及云原生方向) 岗位描述:乌鸫科技-TAM-混合云专家组 1. 深入理解阿里混合云产品技术原理, 协助平台驻场&客户解决云平台规划、交付、升级、运维等阶段的疑难问题,主要技术方向在弹性计算、云网络、云存储、安全、数据库,云平台底座,云管,云原生等技术领域; 2,对于客户场景的问题沉淀方案提升产品的标准化支持能力,站在客户的视角提出产品改进优化点,提升产品的体验和稳定性 3. 在高可用故障演练、热升级实施、架构改造等方面总结沉淀技术解决方案,通过专家服务形式提供现场履约 4,在业务场景通过开发工具不断提升业务效率和完善服务的标准化能力 具备以下能力优先: 1,有云厂商相关云产品运维支持经验者优先; 2,有阿里云ACP,AES,RHCE等专业领域证书优先; 职位要求 1. 大学本科及以上学历,英语4级及以上, 对云平台相关的运维支持,现场履约支持,工具开发等工作领域有热情; 2. 对于云平台计算、存储、网络、操作系统、中间件、数据库、云安全等技术领域,在至少一个领域有2年及以上的运维支持经验, 在纵向技术栈深入理解,针对疑难问题有较强分析与排查能力; 3, 在通用能力上熟悉Linux,Docker,具备常见问题的分析解决能力,对脚本有基本的阅读能力; 4, 优秀的沟通和协作能力,具备较好的客户服务意识,具备较强的问题ownership; 5. 有优秀的逻辑思维和技术文档撰写的能力,热爱技术并善于钻研,能主动思考,有解决疑难问题的毅力和决心。 6. 在工具开发方向需要有丰富的代码开发以及优化的经验,精通一门以上脚本语言(shell/python等),熟悉java/C++/Golang等开发语言一种及以上。
-
岗位职责: 1、负责稿定私有化客户部署、运维实施与技术支持 2、辅助参与私有化部署时相关实施工具研发 3、能够准确地将实施过程中遇到的问题、需求传达给研发&SRE团队,并进行必要的整理和归纳 4、能够较好的服务意识快速响应客户问题和保障客户服务可用性 岗位要求: 1、一年以上运维相关经验,熟练使用Shell脚本,能够独立完成各种运维相关工作,快速高效的处理各种突发事件 2、熟悉 Linux/Unix 系统、网络、硬件等相关知识 3、熟悉Kubernetes基础运维操作,能够基于K8S环境进行环境搭建、服务部署、问题排查 4、具备良好的表达能力,良好的文档编写和方案呈现能力 5、有不错的抗压能力,能够接受中短期出差 6、有企业实施交付经验者优先
热门职位