• 25k-50k 经验不限 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、保障全公司包括抖音、国际化短视频、广告等业务的数据稳定性,提升数据平台服务产品质量,保障业务的持续可用; 2、基于运维经验、工具、平台对线上事故快速响应提升处理效率,同时优化运维体系,推动提升服务可靠性、可扩展性,保障系统SLA,同时推进运维自动化提效; 3、通过持续的全方位运营,包括运维规范及最佳实践、监控及可用性指标、历史事故等,为数据高可用架构设计和选型提供指导,同时能够系统性排查架构风险隐患,推进改进项落地; 4、参与大数据运维平台的研发、自动化建设与持续迭代,引导产品的运维模式向数字化,智能化方向发展演进。 职位要求: 1、计算机相关专业,本科及以上学历; 2、3年及以上SRE运维经验,熟悉运维体系建设与稳定性保障; 3、熟悉Linux、网络等系统运维技能,具备运维问题分析、应急解决以及性能调优等能力; 4、熟悉至少一门编程语言,包括但不限于:Shell、Python、Java、Scala、PHP、Go等; 5、具备良好的沟通表达、团队协作以及自驱能力,促进跨团队的合作; 6、有大数据稳定性问题排查经验,具备清晰排查思路,具备快速定位问题能力加分。
  • 20k-40k 经验不限 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责字节跳动数据中心网络P4网关产品交付和线上运维工作,提供超大集群网关服务能力和保证线上稳定运行; 2、负责网关类产品稳定性方案设计和能力建设,包括监控、告警、应急响应、运维数据分析,风险治理等; 3、负责网关类产品运维流程和规划的制定和优化,持续提升交付、变更、运维效率。 职位要求: 1、计算机相关专业,本科以上学历,具备扎实的计算机体系知识; 2、熟悉常见网络协议,比如TCP/IP、BGP、VXLAN、GRE等; 3、熟悉VPC、负载均衡、云企业网、专线连接等公有云网络产品优先; 4、具备良好的现网意识,持续提升现网的稳定性,有运维或稳定性相关经验优先; 5、具备良好的沟通表达能力和团队合作意识,责任心强,有较强的自我驱动能力; 6、掌握Golang、C++、Python等开发语言中的一门。
  • 20k-40k·15薪 经验3-5年 / 本科
    金融 / 上市公司 / 500-2000人
    【职位诱惑】 - 腾讯系团队,扁平管理,六险一金; - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设; - 能学习到许多金融、证券行业知识。 【岗位职责】 1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率; 2.参与建设运维工具和平台, 推进运维自动化; 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化; 4.处理告警,使告警得到良好处置; 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移; 6.指导研发更好的使用平台工具。 【职位要求】 1.本科及以上学历, 计算机相关专业, 并有两年以上相关领域工作经验; 2.扎实的计算机软件基础知识; 了解 Linux 操作系统、存储、网络 IO 等相关原理; 3.熟悉一种或多种编程语言,例如Python/Go/Shell; 4.具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感; 5.具有相关计算/分布式/大数据等系统经验优先(Nginx/Kubernetes/Docker/redis/mysql 等); 6.具有算法思维,良好的数据结构和系统设计的能力者优先。
  • 15k-30k·14薪 经验3-5年 / 本科
    金融 软件开发 / 不需要融资 / 2000人以上
    职责描述: 1、负责公司大数据平台的运维保障工作,保障平台的正常运行和相应数据服务的稳定高效; 2、对接数据开发侧团队,主动优化和完善服务巡检、监控工具、脚本等,减少人工操作提高运维效率;负责数据平台的故障处置、推动性能优化。如平台产品技术问题,提交给平台产品技术组进行后台处理,并及时反馈. 3、负责数据平台二线运维支撑保障,响应运维/服务台一线请求:处置生产事件,跟踪问题处理; 4、定期组织团队人员开展大数据平台的技术知识积累和移交; 5、负责设计日常运维相关的自动化工具或系统,并完成相应需求收集和需求管理 ; 任职要求: 1. 具有1年以上金融行业数据类项目运维经验,熟悉保险业务操作与管理。具有大数据平台相关技术进行数据仓库、数据中台开发、维护、优化等项目经验的人员,或长期在类似的运维项目上承担运维工作优先; 2. 具备较强的数据开发分析能力,熟练掌握SQL等技能,熟练掌握大数据平台、UNIX、LUNIX和中间件的技能。有java或Python开发基础优先; 3. 具备较强的数据分析,问题分析,逻辑思维能力,团队协作能力,有良好的沟通能力和责任感,能够承担工作压力,独立分析和解决问题者优先; 4. 强烈的自驱力和责任感,面对复杂业务问题,可以从业务和技术多角度推进,最终达成目标。
  • 20k-30k·14薪 经验3-5年 / 本科
    软件服务|咨询 / B轮 / 150-500人
    if strings.Contains(passions, "coding") { switch techstack { case "Go": fallthrough case "Node.js": fallthrough case "Python": fallthrough case "Kubernetes": fallthrough case "Serverless": fmt.Println("Join AfterShip") } } 岗位职责 1、保障公司业务的稳定,积极解决业务问题;负责公司各类公有云 PaaS、SaaS 产品的维护; 2、通过自研、开源软件二开等手段提升自动化能力,提升运维效率; 3、深入业务架构,结合运维相关的最佳实践,对线上系统进行优化; 4、通过架构优化、工具平台、流程机制建设,持续提升网站稳定性,持续优化云成本; 5、梳理和完善运维文档,沉淀技术经验;参与 On-Call 值班,及时响应处理线上报警等事件。 岗位要求 1、本科及以上学历,至少 3 年以上互联网系统的运维经验,英语读写熟练; 2、熟悉 Linux 操作系统、计算机网络等,基础知识扎实;至少熟练掌握 Shell/Python/Go 一种语言; 3、有生产环境下 K8s 的使用和维护经验;熟悉 Prometheus、Grafana 等监控工具; 4、有 GCP、AWS 等国外公有云使用经验优先,比如 GKE、Pub/Sub、Cloud Storage、Dataflow、Cloud Run 等产品; 5、有良好的线上安全意识、学习能力、团队精神和客户意识;有高度的责任感,对于工作积极严谨。 加分项 1、有丰富的 GCP 或 AWS 云平台使用经验; 2、有 AIOps 领域的实践经验; 3、有运维自动化平台或者 API 开发经验; 4、有数据库相关的维护经验; 5、英语可作为工作语言。 为什么加入我们 1、朝阳行业:国际电商 SaaS 服务赛道,国际一线投资机构加持; 2、稳健发展:团队稳健扩张,业务规模及营收每年持续稳健增长; 3、多元文化:团队来自全球 20 多个不同城市,国际化视角、扁平化管理; 4、极客氛围:拥抱开源技术,实践敏捷开发,崇尚通过工具和自动化来解决问题; 5、特色福利:AI 学习基金、 一对一帮带、内部商城、提供 MacBook 及可升降办公桌。
  • 信息安全,企业服务 / 上市公司 / 2000人以上
    1、负责深信服云原生操作系统和PaaS平台的运维SRE和系统交付相关工作 2、负责系统的线上运维工作,高效定位和解决线上问题; 3、参与构建自动化集成与测试平台、性能测试平台,运维监控平台并进行部署交付和验证等; 能力要求 1、本科或以上,计算机相关专业,熟悉Python、golang、C/C++、java等开发语言的其中一种; 2、三年以上互联网业务或者运维平台开发经验,具备SaaS和私有云交付方案设计、部署经验和能力; 3、熟悉TCP/IP、路由交换等常见的网路技术、同时具备网络、安全等IDC机房运维经验者优先; 4、熟悉包括但不限于K8S、微服务、数据库系统、各种中间件技术、Prometheus等技术者优先; 5、熟悉云计算相关技术,有相关云产品开发、运维和监控经验者大大优先; 6、有技术追求,对智能运维SRE等相关技术的探索和提升非常感兴趣。
  • 15k-30k·14薪 经验5-10年 / 本科
    电商平台,消费生活 / 不需要融资 / 50-150人
    Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
  • 15k-30k·14薪 经验5-10年 / 本科
    电商平台,消费生活 / 不需要融资 / 50-150人
    Description The platform team is seeking an experienced Site Reliability Engineer (SRE) to meet rapid expansion of our business. You need to be highly sensitive to system reliability, and keen on identifying/resolving system risks to keep the system working well. In the platform team, you will be involved in provisioning, maintaining infrastructure, proposing solutions for the system, and working online with people from different countries. Responsibilities: • Participate in on-call duty to respond/investigate/resolve system incidents or handle support tickets for application teams. • Pay attention to alarms in the monitoring system, provide timely feedback, and solve problems. • Design, implement, and govern infrastructure to achieve high availability & scalability. • Evaluate and research technical initiatives with complete plans including documentation, provisioning, testing, and monitoring. • Construct service quality system, lead the team to complete indicator quantification. Required Skills and Qualifications: • Good English communication and writing skills, learning ability, and hands on skills. • Proficiency with Azure (Azure resources, network models, and best practices). • More than 2 years of experience in managing AKS/Kubernetes. • Familiar with Infrastructure as Code, Terraform preferred. • Familiar with CI/CD automation. • Familiar with observability technologies, like Prometheus, and Grafana. • Familiar with several of following middleware: Kafka, MySQL, Mongo, Elasticsearch, and Redis. Nice to Have: • CKA, CKAD Certificate is a plus. • Certificates related to Cloud Native/ Ops and Maintenance Qualifications is a plus. • Familiar with Java or Go.
  • 40k-80k 经验5-10年 / 大专
    区块链 / 不需要融资 / 50-150人
    岗位职责: - 根据公司战略和业务发展的要求,设计系统运维方案和基础架构,制订运维工作策略、规划,保障核心系统的高效稳定运行 - 负责相关运维团队的人员培养和团队管理,提升团队的整体技术实力 - 建立完善的服务运维体系,包括资源管理、容量管理、变更管理、配置管理、灾备管理、活动重保、日常Oncall、业务巡检、故障预案、架构优化等 - 与研发协同持续优化核心系统和基础设施的稳定性和性能 - 用技术手段提升运维工程化能力,研发设计自动化运维工具和平台,减少日常重复性工作,提升运维效率 - 通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率 任职资格: - 计算机相关专业,7年以上互联网系统运维经验,或5年以上互联网SRE经验 - 具备较强的工程能力,精通使用至少一种编程语言,如shell、python、go、Java等,具有较强运维开发能力 - 精通分布式系统、大规模集群、容错、备份、负载均衡、云原生等技术,对高可用架构、容量规划和配置管理有实践经验,具备很强技术敏感度和故障排查经验 - 熟练掌握如nginx、lvs、redis、kafka、mysql等常见中间件的工作原理、部署及性能优化。 - 熟悉K8S和容器技术,能够对K8S平台进行维护和优化 - 熟悉linux文件系统、内核、linux性能调优、TCP/IP、HTTP等协议,有良好的网络、数据存储、计算机体系结构方面的知识 ,具备很强技术敏感度和故障排查经验。 - 熟悉AWS/GCP/阿里云/腾讯云等云平台运维管理经验 - 具备优秀的团队管理能力,优秀的解决问题能力和较强的学习能力 - 为人务实和正直,有强的大局观
  • 20k-25k 经验5-10年 / 本科
    软件服务|咨询,IT技术服务|咨询 / 上市公司 / 500-2000人
    岗位职责: 1、负责极光推送等核心产品的私有云项目交付工作,包括项目ROI评估、项目管理、定制需求开发、项目交付实施等; 2、负责制定私有云项目评估标准,合理评估项目ROI,最大化私有云项目收益; 3、负责私有云产品的项目管理工作,与销售团队双线协同,高效完成交付; 4、负责私有云项目定制需求响应与产品规划,提升定制开发效能; 5、负责私有云项目交付体系建设与人员培养,提升交付实施效能; 6、负责私有云交付中心团队管理工作; 岗位要求: 1、计算机相关专业本科及以上学历,具备3-5年以上的面向B端企业的项目经验; 2、具备良好的项目管理、客户关系维护能力,和优秀的沟通技巧,能妥善协调好客户、合作伙伴、内部团队的合作关系; 3、具备较好的研发背景和产品思维; 4、有一定的团队管理经验。
  • 20k-40k·15薪 经验3-5年 / 本科
    金融 / 上市公司 / 2000人以上
    工作职责: 作为最核心的团队成员,您将和行业最精英的同事一起致力于以下工作: 1、主导私有云、多云管理平台的规划与落地,满足上万服务器规模的管理与调度; 2、负责基础组件自动化运维平台的开发,提升运维效率; 3、负责linux操作系统内核调优、问题定位及主机容量管理等工作。 4、追求技术**,通过持续引入开源技术达到降低成本、提高效率的目的,保障业务稳定可靠地发展。 任职要求: 我们希望您: 1、本科及以上学历,2年及以上相关工作经验; 2、熟悉Linux系统和相关运维体系,能快速定位CPU、IO、SWAP、内存等性能问题; 3、熟悉cobbler等自动化部署工具; 4、有openstack、KVM等虚拟化运维实践经验; 5、熟练掌握python、go、java等任意一种语言,具备运维工具开发能力; 6、具有良好的服务意识,具备优秀的分析和解决问题的能力,喜欢有挑战的工作。 以下为加分项: 1、有千台以上规模服务器系统运维经验优先; 2、有K8S运维经验优先。
  • 15k-30k·14薪 经验1-3年 / 不限
    营销服务|咨询,软件服务|咨询 / 不需要融资 / 150-500人
    岗位职责: 1、负责稿定私有化客户部署、运维实施与技术支持 2、辅助参与私有化部署时相关实施工具研发 3、能够准确地将实施过程中遇到的问题、需求传达给研发&SRE团队,并进行必要的整理和归纳 4、能够较好的服务意识快速响应客户问题和保障客户服务可用性 岗位要求: 1、一年以上运维相关经验,熟练使用Shell脚本,能够独立完成各种运维相关工作,快速高效的处理各种突发事件 2、熟悉 Linux/Unix 系统、网络、硬件等相关知识 3、熟悉Kubernetes基础运维操作,能够基于K8S环境进行环境搭建、服务部署、问题排查 4、具备良好的表达能力,良好的文档编写和方案呈现能力 5、有不错的抗压能力,能够接受中短期出差 6、有企业实施交付经验者优先
  • 30k-60k 经验5-10年 / 本科
    人工智能服务,IT技术服务|咨询 / 上市公司 / 2000人以上
    工作职责 1、以AI大装置产品的服务可靠性为目标,定义研发、运维和应急响应阶段服务的SLI/SLO/SLA的评价体系和运维方案,定义重点流程SOP/MOP/EOP,对产品的SLA负责。 2、负责 SRE 平台/工具建设,如CMDB、K8S/Docker、metrics、tracing、logging、monitor、chaos 、自动恢复等,支撑上层训练平台,解决生产中容量、性能和稳定性问题。 3、负责SRE在AI场景的探索和落地,比如AIOPS、多级灰度、混合部署、容量管理等,提高运维效率和服务可靠性 4、负责性能问题、疑难问题的快速定位、分析解决; 5、负责系统和业务的架构方案优化; 6、制定和优化运维解决方案; 任职要求 1. 大学本科及以上学历,5年以上SRE平台工具建设和实战经验,2年以上SRE架构设计经验 2.深入理解linux操作系统和网络原理,具备linux gdb分析coredump的能力;熟悉虚拟化技术和K8S/docker等基础平台建设,有大规模集群架构设计和开发运维经验优先 3.熟悉SRE体系、运维体系的方法、流程,有领先性的SRE技术平台开发和运维经验 4.熟练掌握shell/python等至少一门开发语言 5.积极进取,良好的团队协作、沟通能力,乐于分享,良好的客户服务意识
  • 20k-35k 经验5-10年 / 本科
    文娱|内容,金融 / A轮 / 500-2000人
    岗位亮点: 办公形式是在家远程办公 工作时间:10点-12点半,14点-18点半,每周平均每天8小时,周末双休 金融科技类型的互联网企业,高速发展中,这里有你学不完的技术和挑战,只要你愿意!全球化、扁平化、自治化! 岗位职责: 深入理解业务,负责金融业务的高可用治理,持续提升业务SLA; 通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,落地地改进项目; 持续打磨监控体系,提升监控效率,缩短故障定位时长; 保障业务系统IaaS、PaaS 基础设施高效稳定运行,持续完善运维规范、提炼标准操作流程 监控和审查系统架构合理性、流程逻辑合理性,系统性能、稳定性等技术领域和指标,驱动项目业务团队解决问题; 负责**时间响应生产故障,作为总体调度角色,组织相关研发、运维、产品等各方联合排查和解决问题,对故障响应时间、故障解决时间MTTR负责; 引导 SRE 基础运维工作朝着自动化、平台化、智能化方向演进,提升基础架构各组件体系整体运维管理效率。 积累运营最佳实践,为业务架构设计与组件选型提供指导,输出运维技术文档。 编写相关文档、定期进行技术和管理成果全员分享。 其它相关工作。 任职要求: 计算机本科相关专业,7年以上中大型互联网/金融行业开发/运维/SRE经验,3年消息中间件/缓存/k8s/数据库生产环境维护经验。 精通Shell编程,熟练掌握Golang\Java\Python 中的 1-2 种编程语言; 有良好的计算、存储、网络、安全、计算机体系结构方面的知识; 熟悉网络基本原理,熟悉 TCP/UDP 网络、Http、Socket、CDN等技术 熟练掌握如Nginx、LVS、Redis、Kafka、MySQL、Elasticsearch 等常见中间件/数据库工作原理、部署和使用; 熟悉Jenkins、Gitlab等,对CI/CD流程制定与集成有实践经验; 熟悉Docker/k8s容器平台及相关的底层技术和原理; 熟悉互联网技术架构,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解; 熟悉互联网通用的组件,对消息中间件、分布式缓存、数据库有较深入的理解; 有丰富的服务运维或中间件运维经验Troubleshooting,对常见的系统隐患、系统故障有系统性总结和实际处理经验; 能够胜任7*24小时故障响应及处理,抗压性强,良好的服务意识和团队合作精神; 性格开朗外向,有很好跨团队的沟通技巧,有很强的责任心,具备优秀的推动力,做事追求**。 工作细致、善于思考,有很强的数据分析和问题解决能力; 加分项: 有跨地区远程项目协助经验者优先; 有在证券、期货公司、区块链从事相关技术类工作经验; 有完整自动化运维工具开发经验者优先; 岗位亮点: 公司金融科技重点业务线的高可用治理; 通过事故运营、质量运营和风险运营等,持续推进高可用治理,提升业务SLA; 自动化运维系统、运营系统的建设和打磨,持续提升人效; 我们的技术栈: 数据库 mysql pgsql elasticsearch redis mongodb etcd OceanBase CickHouse 中间件 nacos kafka zookeeper rabbitmq rocketmq apisix nginx 容器化 k8s rancher 存储 nas ceph 网络/负载均衡 CDN haproxy frp openvpn-as apisix CI/CD confluence/JIRA/gitlab/harbor 语言 go java python
  • 24k-40k·14薪 经验1-3年 / 本科
    通讯电子 / 不需要融资 / 2000人以上
    岗位职责: 1、负责数据库产品交付上线、运维保障、故障诊断、问题处理工作; 2、负责分布式数据库产品运维平台和工具的设计、开发工作; 3、用自动化、智能化的方法解决超大规模集群、分布式应用及复杂系统运维中的问题; 4、负责监控系统的设计、评审、发布并推动产品改进; 岗位要求: 1、熟悉Linux操作系统,具备常见故障的诊断、分析和处理能力; 2、熟悉Java、C/C++、Shell、Python等任一编程语言; 3、有业界领先的运维平台设计、开发、维护、SRE等经验者优先; 4、责任心强,沟通能力好,适应团队工作,善于思考、总结和改进。