• 9k-15k 经验1-3年 / 本科
    信息安全,网络通信 / 不需要融资 / 500-2000人
    岗位职责: 参与智能运维平台的场景分析、实施交付和运维工作: 1.负责智能运维相关平台的日常运维工作。 2.利用智能运维平台,基于运维监控、日志等数据,实现从故障监控、预警、告警到根因分析、故障自愈的AIOps场景落地; 3.负责系统工具开发工作。(具备python开发技能) 岗位要求: *****学信网可查本科,计算机科学相关专业,扎实的计算机基础,良好的学习能力,缜密的逻辑思维,享受探索新技术的过程; 1.两年以上系统运维或Python开发经验,有大数据类系统的开发运维经验优先;有AIOps项目研发实施经验者优先; 2.具有运营商行业的网管侧系统运维和IT系统运维经验优先。 3.具有认真负责的专业素养、积极主动的工作态度、有独立分析和解决问题的能力,以及良好的学习能力和团队合作精神。 4.具备良好的沟通能力和文档编写能力,能够与客户进行顺畅沟通和文档输出。 技术要求: 1.熟练掌握linux运维技术,熟悉shell脚本,可以辅助研发判断程序问题; 2.熟练掌握Python语言,并具备1年以上开发经验,具备 pandas库使用经验。 3.具备数理统计、SQL数据库原理相关知识; 4.熟悉hadoop相关技术(hdfs、hive、kafka、spark、flink、zookeeper、yarn等) 优先。
  • 20k-40k 经验3-5年 / 本科
    信息安全 / A轮 / 15-50人
    工作内容: 1、利用AI技术打造可观测系统的智能化,打造下一代AIOps智能运维系统; 2、将业务需求和算法解决方案有机结合,深度参与产品设计; 3、负责公司业务的监控项和告警项所产生的数据处理,涉及数据挖掘、异常检测、故障定位等前沿算法模型的研究及应用; 4、构建以核心运维数据为基础的智能化监控生态,包括但不限于智能检测、告警聚合、诊断归因、自动恢复等核心功能; 5、参与重点项目实施工作,协助售前/售后工程师开展场景分析、数据调研、算法应用实施工作; 6、负责机器学习在运维场景领域落地,包括算法/模型设计、开发、训练、验证及优化; 任职要求: 1、熟悉常用Linux命令,熟练掌握Java、Python 语言; 2、能够熟练使用Scikit Learn、Pandas、Numpy和Scipy开发框架; 3、具备优秀的编程能力,有出色的算法实现能力及调优经验; 4、对知识图谱,自然语言处理等业务有一定理解,熟悉NLP的常用算法,具有NLP相关项目实战经验; 5、具备良好的英文阅读能力,善于发现业界及学术界前沿技术,并加以改良和落地; 6、AIOps相关工作经验者优先,APM 领域相关工作算法工作经验者优先; 7、智能运维领域理论研究和实践经验,时序大数据处理经验者优先,熟悉常见的算法者优先;
  • 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、负责视频云业务稳定性相关平台的产品设计、架构重构和功能迭代,优化使用效率和体验; 2、针对变更管理、应急响应、容量治理等领域的问题提出解决方案,并通过相关系统建设进行沉淀; 3、参与自动化能力建设,包括版本发布、配置管理、服务器日常维护等,提升业务运维效率; 4、参与AIOps等各类专项技术调研,新技术引入等前瞻项目。 职位要求: 1、本科及以上学历,3年以上运维开发或应用运维经验; 2、熟悉Java,Python,Go等至少一种开发语言,有相关开发经验; 3、熟悉MySQL,Redis,RocketMQ等常用中间件的基本原理,有相关实践经验; 4、熟悉RedHat,CentOS,Fedora等操作系统原理,TCP/IP以及常用的网络协议; 5、较强的责任心沟通能力和逻辑表达能力,具备良好的团队合作精神和主动意识。 加分项: 1、有数据处理及分析相关经验,熟悉相关的组件,如:Hive,Clickhouse,HDFS等; 2、熟悉常见的前端框架(如React,Vue); 3、熟悉云计算、容器化技术(如Docker,Kubernetes)。
  • 10k-20k 经验5-10年 / 本科
    数据服务,硬件 / 未融资 / 50-150人
    岗位职责: 1、负责公司产品S-Data智能运营平台解决方案销售,包括智能监控、AIOPS、数据运营可视化、业务自动化等的销售推广工作; 2、负责行业客户跟进,数据保护解决方案销售,产品包括:超融合产品、存储/备份软件、容灾系统软件、虚拟化软件、网盘等; 3、独立拓展客户,具备与“C-level” 沟通谈判的能力; 4、负责客户长期跟踪,挖掘客户需求; 5、组织并策划相关的市场活动,如行业会议、客户沙龙等。 任职要求: 1、大学本科及以上学历, 具有金融、计算机等专业背景优先; 2、优秀的沟通表达及领悟能力,良好的职业形象,有金融行业相关经验者优先; 3、优秀的应届毕业生可以择优录取。
  • 4k-8k 经验在校/应届 / 本科
    内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责超大规模的主机系统运维&监控中心,运维中心涵盖变更发布、服务托管、配置采集,监控中心涵盖采集、存储、告警等基础能力; 2、参与产品需求设计、研发方案设计及代码开发等,编写和维护相关平台的技术文档; 3、参与海量Agent、中心调度、数据存储等关键技术的研发和优化; 4、根据业界相关技术的发展做前瞻性调研、预研工作。 职位要求: 1、2026届本科及以上学历在读,计算机、通信等相关专业; 2、熟练掌握算法、数据结构等基础知识,至少熟练使用一门编程语言(Go/Python/C/C++等); 3、对操作系统、计算机网络有扎实的基础; 4、对于开源监控、运维类系统或有二次开发经验者优先;有AIops算法&工程实践经验者优先; 5、有强烈的求知欲,优秀的学习和沟通能力,热爱编程,有较强的学习能力,能及时关注和学习业界最新技术。
  • 社交 / 上市公司 / 2000人以上
    岗位职责: 1、系统稳定性保障     负责公司核心业务系统的7x24高可用架构设计、部署及稳定性优化,制定并执行容灾、容错方案。     主导生产环境故障的快速响应、根因分析及长效解决方案落地,推动SLA/SLO持续提升。 2、持续交付与自动化     设计并优化CI/CD流水线,推动自动化发布、灰度发布、蓝绿部署等实践,提升交付效率。     开发运维工具链(如监控告警、日志分析、资源调度等),实现运维场景的自动化、智能化。 3、监控与可观测性体系     构建多维度监控体系(Metrics/Logs/Tracing),使用Prometheus、ELK、Grafana等工具实现业务全链路可观测。     通过数据驱动优化系统性能,提前识别潜在风险并推动预防性治理。 4、成本与资源管理     负责云资源(AWS/Aliyun等)或物理服务器的规划、成本优化及利用率提升,制定容量管理策略。     推动FinOps实践,平衡性能与成本,实现资源精细化运营。 5、运维规范与协作     制定运维标准化流程(变更管理、应急预案、安全合规等),推动DevOps文化落地。     协同开发、测试、安全团队,优化跨部门协作机制,提升整体研发效能。 任职资格: 1、学历与经验:     本科及以上学历,计算机、通信等相关专业,3年以上运维开发或业务运维经验,有复杂业务系统运维经验优先。     熟悉互联网高并发、分布式系统架构,对微服务、容器化、云原生技术。 2、技术能力:     精通Linux系统、网络协议及性能调优,熟练使用Shell/Python/Go至少一门语言开发运维工具。     熟悉Ansible/Terraform等自动化运维工具,具备Kubernetes生产环境管理经验。     深入掌握至少一种公有云的核心服务及运维实践者优先。     熟悉监控告警体系搭建(如Zabbix/Prometheus+Alertmanager),具备全链路故障定位能力。 3、软性要求:     具备优秀的业务敏感度,能快速理解业务需求并转化为技术方案。     抗压能力强,能高效处理紧急故障,具备系统性解决问题思维。     良好的沟通能力和团队协作精神,能推动跨部门项目落地。 加分项: 1、有存储、接入层服务类运维经验者优先。 2、熟悉AIOps、混沌工程(Chaos Engineering)等前沿技术实践。 3、拥有云平台(腾讯云/AWS/Aliyun认证)或PMP等相关认证。
  • 25k-40k 经验5-10年 / 本科
    消费生活、信息安全 / 未融资 / 15-50人
    【岗位职责】 ? 配合业务分析师完成业务调研、充分理解业务; ? 负责软件系统技术选型、技术架构设计和技术路线制定; ? 负责系统架构设计相关需求和文档的编写; ? 负责核心业务模块代码编写; ? 参与系统技术标准和规范的制定、执行情况的评审及落地检查; ? 负责AIOps理念及文化的落地; ? 负责技术预研和技术攻关,突破系统和项目中的技术难点; 【技能要求】 ? 熟悉国内外主流互联网技术体系,有大型项目建设经验,具有AI应用实践经验,工业级AI场景落地经验者优先 ? 精通云原生技术:Docker、Kubernetes、Prometheus等技术的应用 ? 精通掌握Python企业级开发体系技术:数据分析库(如NumPy、SciPy、Pandas)、机器学习库(如Scikit-learn、TensorFlow、PyTorch)、大模型开发框架(如LlamaFactory、SGLang、vLLM)等 ? 精通掌握Java企业级开发体系技术:Spring Boot、Spring Cloud ? 精通前端主流框架:Vue/React/Angular ? 熟练使用Nginx、Kafka、Redis、ELK等常用中间件 ? 精通掌握Oracle、MySQL数据库设计、大型分布式系统设计 ? 具有良好的沟通能力、学习能力和团队合作意识,有良好的文字表达能力
  • 电商,企业服务 / 上市公司 / 2000人以上
    阿里专有云APaaS团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、负责云+应用一体化运维平台的设计与实现,包括应用蓝图三态规划、自动化发布、扩缩以及应用容灾管理、应用资源编排等 2、基于五层全景拓扑设计并实现监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复的链路闭环 3、负责专有云统一CMDB、运维流程引擎、应用终态引擎、监控采集和计算引擎的设计与实现 岗位要求: 1、熟悉Java基础技术,包括IO、多线程、分布式、缓存、消息等机制;同时熟悉GO语言及K8S Operator开发和运维能力优先 2、熟悉Spring 、MVC等主流框架,熟悉Linux下的常用命令,熟悉MySQL等主流数据库 3、熟悉常用设计模式,最好有大型应用的开发经验,具备应对大数据、分布式、高并发、高负载、高可用性等系统设计能力 4、具备良好的抽象设计能力,思路清晰,善于思考,能独立分析和解决问题,责任心强,具备良好的团队合作精神和承受压力的能力
  • 15k-20k 经验3-5年 / 大专
    物联网 / 上市公司 / 500-2000人
    职位职责详细描述: 1、负责人工智能领域前沿技术的研究与实现; 2、参与人工智能、深度学习基础平台的选型、框架搭建和研发; 3、结合公司业务场景进行人工智能和机器学习的应用,包含:图像识别和NLP。 4、参与项目的落地开发,与开发团队合作完成模型应用和模型优化。 岗位要求: 1.具有3年以上Python开发经验,熟练使用常用库和模块;2.对人工智能技术感兴趣,了解AI领域的主要开源平台(如:TensorFlow、Caffe、MxNet等)及相关的算法组件(如:数据预处理、特征工程、统计分析、机器学习、深度学习等),有相关项目实践经验更佳;3.熟悉Docker、Kubernet等容器化技术;熟悉OpenStack;4.对AIOps相关概念和技术有掌握的,优先考虑。
  • 20k-30k 经验5-10年 / 本科
    IT技术服务|咨询 / 未融资 / 50-150人
    岗位职责: 1.进行市场研究和用户需求调研,制定业务运维产品规划及实施路线图; 2.负责产品的设计实现、组织和推进产品开发与上线; 3.通过用户反馈、产品用户使用情况数据分析等方式,对产品的持续迭代和改进负责; 4.与运营、市场同事配合,共同达到产品预期效果; 5.参与产品的复杂项目实施方案设计; 6.支持产品销售过程,为售前、交付、售后同事提供必要的产品支持。 任职要求: 1.本科及以上学历 2.5年以上IT行业工作经验;3年及以上B端产品经理工作经验; 3.了解AIOps,熟悉Agent原理,熟悉常用的SQL,通信协议等优先; 4.熟练掌握常见原型工具,对交互设计有深刻认识; 5.良好的逻辑思维能力、学习能力、沟通协作能力和执行力; 6.对产品有热情,善于扮演团队推动者的角色。
  • 15k-30k·14薪 经验不限 / 本科
    IT技术服务|咨询 / D轮及以上 / 150-500人
    【About Guance】 观测云成立于 2013 年 7 月,是由红杉资本、阿里巴巴、复星集团、张江高科、深创投、华业天成等知名投资机构投资的高新技术企业。 观测云的自研产品「观测云」,首批获得中国信通院颁发的「可观测性平台技术能力」与「根因分析技术能力」先进级认证,实现对云、云原生、应用及业务的统一监测需求,可为互联网、零售、金融等行业用户提供统一高效的数字化可观测服务。观测云作为一款数字化生产力工具,助力实现用数据驱动的现代软件工程体系,用可观测性改变软件全生命周期管理。 立足于云时代,观测未来将持续提升技术能力与服务质量,为中国 SaaS 基础软件的发展注入希望! 【What You’ll Do】 1. 负责观测云的产品工作,包括需求调研、行业分析、产品规划、产品设计等工作; 2. 与客户、前场团队紧密沟通,理解和分解平台的需求,落实到产品规划和设计中; 3. 与研发团队保持紧密合作,协调组织设计、开发、测试资源推动产品发布并项目落地; 4. 跟进产品关键数据指标和用户反馈,持续优化产品。 【Who You Are】 1. 本科以上学历,计算机相关专业优先; 2. 2 年云计算相关行业经验,1~3 年相关产品经验,具备从 0 到 1 落地产品的能力; 3. 有日志分析、链路追踪、用户访问行为分析、基础设施性能分析、拨测、AIOPS、混沌工程等相关产品或模块设计和主导经验,有相关产品成功落地案例优先; 4. 有客户端/服务端/前端开发经验者优先; 5. 有较强的产品 Owner 意识,良好的自我管理能力、逻辑思维、跨团队沟通协调能力; 6. 具备创新精神,用户价值导向、乐观、抗压能力强。 【Benefits and Growth】 1、0-4个月年终奖,投入有回报; 2、晋升可由部门推荐+个人自荐,鼓励挑战自我; 3、行业大牛多,快速成长,激发无限可能; 4、五险一金+定期体检,工作无后顾之忧; 5、超多带薪年假+下午茶零食+生日会+团建假+旅游假+育儿假; 5、弹性工作,人性化的企业文化; 6、持续的专业发展、高频的产品培训; 7、绩优员工期权激励计划。 上面列出的福利和成长可能会根据您工作所在的地区以及您在观测云工作的岗位而有所不同。
  • 30k-50k·16薪 经验1-3年 / 硕士
    电商,企业服务 / 上市公司 / 2000人以上
    职位描述 1. 负责大语言模型的应用模式探索和落地,包括大不限于Agent,RAG,多模态等 2. 负责天基小蜜产品(基于LLM应用)在资源运维和运营等场景下的算法设计和优化,包括但不限于故障应急,人效优化,资源优化等 2. 负责日志数据和时序数据的特征挖掘,提升异常检测的准确率和召回率 3. 负责复杂故障场景下的多维度关联分析和根因定位的算法方案设计和实现 4. 负责智算资源的利用率分析和稳定性能力构建和应用 5. 结合以上方向的研究和实践,撰写发表论文,和业界、学术界保持良好的交流。 职位要求 1.计算机、数学或统计学相关专业硕士及以上学历; 2.熟练掌握Java/Python中至少一门语言,有扎实的数据结构和算法基础,具有良好的编程习惯; 3. 熟练掌握至少一种主流的深度学习框架,Pytorch,tensorflow等; 4.熟悉常用的机器学习算法,例如时序分析算法,日志分析算法等; 5. 熟悉LLM原理,训练和推理方案;了解大语言模型FT,HFRL,prompt调优等技术原理,了解RAG,Agent等应用模式和框架; 6.具备优秀的分析和解决问题的能力,良好的沟通协作能力; 7.有数据挖掘、机器学习、强化学习、信息检索、自然语言理解、AIOps等相关领域研究和实践经验,在以上领域的国际会议(SIGIR、SIGKDD、ICML、NIPS、WSDM、WWW、AAAI、CIKM、ACL、RECSYS)或者期刊上发表过论文者更佳; 8.参加过ACM或数据挖掘&机器学习类竞赛(天池大奖赛、Kaggle)并取得好名次者更佳; 9.参与过机器学习开源项目并有突出贡献者更佳。 https://careers.aliyun.com/off-campus/position-detail?lang=zh&positionId=1092401&track_id=SSP*************NgQOiNwbsL6144
  • 金融 / 未融资 / 2000人以上
    职位描述 - 负责智能化运维平台的规划设计、实现及优化工作,带领研发团队研发先进的智能运维产品 - AIOps、SRE方向的前沿性研究、探索和落地 - 参与核心系统的设计和编码 - 主导技术方案和系统运维架构评审,掌握相关的技术架构和原理,能够从运维角度主动识别方案风险,并给出专业的解决方案 - 对研发团队的质量和效率负责 - 团队内部的技术培训与人才培养 - 跨团队的沟通、协调和协作 技术能力要求 - 深入理解计算机体系架构、linux内核、分布式系统架构、虚拟化技术、网络通信与系统编程至少2个方向以上技术 - 精通python,有大型项目开发经历 - 熟悉Docker/k8s容器平台及相关的底层技术和原理 - 熟悉Jenkins、Gitlab等,熟悉CI/CD流程制定与集成 - 有良好的网络、存储、安全等计算机体系结构方面的知识 - 具备丰富的大规模服务集群的运维经验和大型运维系统的设计能力和落地经验,高并发架构经验,熟悉高可用集群、负载均衡集群的规划与搭建 熟练掌握Redis、Kafka/RabbitMQ、Ceph/ElasticSearch等主流中间件(至少2个以上)的原理和使用 - 了解Hadoop/Spark/Filnk/Hive等大数据主流技术(至少2个以上) - 熟悉数据库技术(MySQL) 其他能力要求 - 技术领导力 - 团队协调力和执行力 - 有下面经历会有加分项: - 负责过运维体系层面的系统性规划和建设,有实践经验 - Django使用和开发经验 - Saltstack使用和开发经验 - airflow使用和开发经验 - AIOps系统设计研发经验
  • 20k-30k 经验3-5年 / 本科
    金融 / 未融资 / 500-2000人
    工作职责1.依托公司千万级用户数据,挖掘重点场景,利用AI/机器学习,优化算法,总结客户洞察,增加客户忠诚度,提升客户价值;2.参与大部门大数据算法平台建设工作,搭建开源的算法平台;3.跟踪物流行业的机器学习、深度学习算法理论进展,并将优秀的算法应用到业务场景中,提升业务数据应用价值。任职资格本科以上学历,计算机/数学/人工智能/统计/运筹学专业,有扎实的数据结构和算法功底;有特征工程、数据建模、机器学习等相关基础。1、5年以上算法开发经验,熟练/精通Python/Java语言,熟悉基本的Linux指令,有扎实的编码能力将算法落地工程化;2、熟悉常用数据挖掘算法(聚类/分类/回归/关联规则/图模型)等算法原理,具备实际的建模经验,熟悉常用机器学习算法原理,如朴素贝叶斯/决策树/随机森林/逻辑回归/SVM等,并具备相关应用经验;3、熟悉hadoop/spark分布式计算平台,具有基于hive/hbase/spark的实际开发经验;熟练使用spark mlib框架;4、具备较强的商业和数据敏感度,尤其对于物流行业业务有较好了解,有良好的理解能力,沟通表达能力和独立专业报告的能力;5、有AIOps、OCR、NLP、知识图谱相关项目经验者优先考虑。
  • 50k-100k·15薪 经验5-10年 / 本科
    硬件 / 不需要融资 / 2000人以上
    岗位职责: 1、负责基础设施的运维管理与维护,包含服务器管理,集群管理,存储管理,监控管理,SLA管理; 2、负责运维制度规范的梳理和制定,让运维操作和流程更加标准,可控; 3、负责与工具研发团队对接,推动运维操作与流程的平台化; 4、负责基础设施稳定性体系建设,包括系统/硬件/存储的故障预防,故障发现、故障应急、故障预案,故障演练等; 5、负责服务器,存储,备份的部署与维护,巡检,操作变更,升级,安全加固等; 6、负责linux/windows操作系统的维护管理,包含登录与权限管理,系统基线,系统服务,以及常规性能分析与系统问题排查; 7、负责运维自动化脚本的编写,部署,更新,管理; 8、负责运维行业前沿技术的调研与引入(如AIOps,DevOps,FinOps等); 任职要求: 1. 5年以上工作经历,本科及以上计算机相关专业,有大规模运维架构管理经验优先 2. 精通华为、H3C、浪潮等主流服务器/存储/备份等硬件管理(如BIOS,BMC,IPMI, Console, 架构,监控,维修) 3. 精通华为FusionCompute/FusionAccess/VMware/KVM/Xen/OpenStack/K8S等产品或技术 4. 精通华为OceanStor存储产品,熟悉IPSAN,FCSAN等存储技术,了解存储系统、SAN和NAS的基本原理以及数据灾备技术 5. 熟悉Linux/windows系统日常管理命令、服务(NTP,SYSLOG,DNS,FTP等)、性能分析(CPU/MEM/IO/NETWORK) 6. 熟练使用shell/powershell/sed/awk/perl/python/go/java/c 至少一种语言 7. 熟悉主流云厂商产品(ECS/RDS/OSS/SLB等),能够基于云产品进行运维架构设计与管理 8. 熟悉常见的运维管理架构(账权,批量,安全等), 有故障预防,监控,发现,排查与处理经验