• 40k-60k 经验5-10年 / 本科
    人工智能服务,科技金融 / 不需要融资 / 500-2000人
    岗位职责: (1)负责兴业银行分布式应用开发平台的设计和研发,牵头制定行内相关平台的规范指引; (2)深度参与兴业银行超大型分布式应用的建设。 岗位要求: (1)具备5年以上分布式微服务技术相关工作经验; (2)曾负责或者以骨干身份参与分布式应用开发平台研发建设,并具有超大型分布式系统建设经验; (3)研究过SpringCloud、Dubbo、Sofa等分布式开发框架,有源码重构经验优先; (4)熟悉超大型分布式应用建设时所需的关键技术,如单元化、双活/多活、灰度发布、分布式事务、分布式批量调度等; (5)熟悉超大型分布式系统建设时所需的缓存、注册中心、配置中心、日志、全链路监控等组件; (6)具有大型系统应用上云相关经验; (7)具有大型互联网技术中台的研发和架构经验或者银行分布式核心系统建设经验者优先。 工作地点:上海、福州、成都
  • 30k-60k·15薪 经验3-5年 / 硕士
    360
    信息安全 / 上市公司 / 2000人以上
    职责描述: 1. 优化大模型分布式训练速度; 2. 完善分布式训练框架,增加框架稳定性和扩展性 任职要求: 1. 学士及以上学历,计算机、电子、自动化等相关专业; 2. 熟悉Python,熟悉C/C++编程,编程能力优秀; 3. 熟练掌握TensorFlow/PyTorch等至少一种深度学习框架; 4. 熟练掌握TensorRT, XLA, TVM等深度学习编译器,能够基于这些编译器做二次开发或者加速应用; 5. 熟悉GPU等硬件架构,精通CUDA、cuDNN、NCCL,熟悉RDMA,Nvlink等互联技术; 6. 熟悉模型并行,数据并行,流水并行等分布式训练加速的基本原理; 7. 熟悉业界常见的分布式训练解决方案,例如Megatron, DeepSpeed等; 8. 有相关的项目背景优先。
  • 18k-28k 经验3-5年 / 本科
    人工智能服务,科技金融 / 不需要融资 / 500-2000人
    岗位职责: (1)负责兴业银行分布式应用开发平台的设计、研发、维护工作,参与兴业银行研发规范制定、故障排查、平台安全加固等工作; (2)参与兴业银行重要系统、关键技术能力的建设。 岗位要求: (1)3年以上丰富的工程实践经验;深入理解常见系统架构模型,具备大规模分布式系统建设经验; (2)熟悉SpringCloud、SOFA、ServiceComb、Dubbo等分布式开发框架,具备源码项目实践经验; (3)深入研究过Netty、JVM内部运行机制,具备丰富的故障定位能力; (4)具备应用网关、分布式事务、批量作业、分布式锁、分库分表、分布式id、服务编排等分布式关键技术解决方案设计和实现能力; (5)了解大规模分布式系统关键技术能力,如系统单元化、双活/多活、全链路灰度发布等; (6)在复杂系统架构和功能实现场景中,具备技术抽象能力,能够提取通用技术组件并不断持续优化。 符合以下一项或多项条件者优先: (1)曾负责或深度参与大中型金融或互联网企业的开发平台建设者; (2)曾负责或深度参与大中型金融核心系统相关建设者; (3)对ServiceMesh落地、云原生相关技术、Go语言熟练使用相关经验者; (4)具有大型互联网技术及中台的研发和架构经验优先; (5)对技术有追求,对知名开源组件有重要贡献或在开源社区有相关优秀作品者。 工作地点:上海、福州、成都
  • 20k-40k·14薪 经验3-5年 / 本科
    移动互联网,广告营销 / 上市公司 / 2000人以上
    工作职责: 1.参与研发分布式存储平台的建设工作,包括对象存储/块存储/文件存储等系统具体模快的设计、开发及优化; 2.主导存储平台的架构设计以及优化,保障存储系统在高并发场景下的可靠、低延迟、高可用等特性; 3.持续学习业界成熟方案,主导公司存储技术栈的优化和演进,以产品为驱动,支撑搜狐内部各个业务线在存储端的各类需求。 任职资格: 1.*****本科及以上学历,计算机相关专业; 2.3年及以上分布式存储相关工作经验; 3.熟练掌握Golang/Java/C++等语言进行开发(至少熟练掌握一种); 4.有扎实的算法基础,能灵活应用各种常见的数据结构; 5.有实际分布式项目开发经验,有实现高性能高可用服务的经验; 6.熟悉IO栈、多线程、RPC、Zookeeper、Etcd等基础框架,有一定架构设计经验,熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7.熟悉业界主流分布式存储产品者优先,如AWS-S3、CEPH,HDFS,HBASE等; 8.对云原生的监控和报警解决方案有比较深入理解; 9.有对象存储,块存储,NOSQL存储或其他大规模数据存储系统开发运维经验者优先考虑。
  • 20k-35k·14薪 经验1-3年 / 本科
    移动互联网,广告营销 / 上市公司 / 2000人以上
    工作职责: 1.负责分布式存储平台的研发建设工作,包括对象存储/块存储/文件存储等系统的开发、优化; 2.持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求; 3.负责部分运维任务,高效定位,分析和解决线上问题。 任职资格: 1.*****本科及以上学历,计算机相关专业; 2.2年及以上云存储相关工作经验; 3.熟练掌握GO/JAVA等语言进行开发(至少熟练掌握一种); 4.有扎实的算法基础,能灵活应用各种常见的数据结构; 5.熟悉操作系统原理、Linux IO性能调优方法; 6.熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7.熟悉一业界主流分布式存储产品,如AWS-S3、CEPH,HDFS,HBASE等; 8.有对象存储,块存储,NOSQL存储或其他大规模数据存储系统开发运维经验者优先考虑。
  • 15k-25k 经验3-5年 / 本科
    金融 / 上市公司 / 2000人以上
    工作职责 1、参与平安云分布式存储建设工作,保证生产系统稳定运行; 2、熟悉常见的云存储产品功能、特点,参与云存储产品规划,思考并提出建议; 3、参与云存储系统核心功能的设计、开发工作; 4、保证云存储生产运行中的系统稳定运行,了解其运行情况,对问题及时进行诊断及解决; 5、与关联系统团队保持良好沟通及协作,保证各项工作稳定开展。 任职要求 1、熟悉Linux环境编程, 具有3年以上的后台开发经验 ; 2、掌握基础网络协议(TCP、HTTP等)知识,熟悉网络编程和网络服务框架等; 3、具有扎实的编程基础,熟练掌握至少一门语言c/c++/python/go/java,如无go语言经验,愿意转go; 4、追求高品质代码,对工程质量有深刻认识, 注重模块化、单元测试、异常测试; 5、熟练掌握常用数据结构和算法,熟悉多线程编程技术,熟悉分布式协议(如Paxos/Raft/Zab等) ; 6、有较强的学习能力,有强烈的求知欲和进取心,能及时关注和学习业界最新技术。 满足以下条件者优先: 1、有大规模对象、文件、块存储或数据库等项目相关经验; 2、有Ceph开发运维经验; 3、熟悉以下任一开源存储系统源码:beegfs、ZFS、TiKV,Redis、HDFS、LevelDB、RocksDB、Mysql、MongoDB等; 4、熟悉Linux下 I/O协议栈; 5、具有内核,操作系统相关开发经验。
  • 15k-30k 经验5-10年 / 本科
    金融 / 上市公司 / 2000人以上
    工作职责 1、参与平安云分布式存储建设工作,保证生产系统稳定运行; 2、熟悉常见的云存储产品功能、特点,参与云存储产品规划,思考并提出建议; 3、参与云存储系统核心功能的设计、开发工作; 4、保证云存储生产运行中的系统稳定运行,了解其运行情况,对问题及时进行诊断及解决; 5、与关联系统团队保持良好沟通及协作,保证各项工作稳定开展。 任职要求 1、熟悉Linux环境编程, 具有3年以上的后台开发经验 ; 2、掌握基础网络协议(TCP、HTTP等)知识,熟悉网络编程和网络服务框架等; 3、具有扎实的编程基础,熟练掌握至少一门语言c/c++/python/go/java,如无go语言经验,愿意转go; 4、追求高品质代码,对工程质量有深刻认识, 注重模块化、单元测试、异常测试; 5、熟练掌握常用数据结构和算法,熟悉多线程编程技术,熟悉分布式协议(如Paxos/Raft/Zab等) ; 6、有较强的学习能力,有强烈的求知欲和进取心,能及时关注和学习业界最新技术。 满足以下条件者优先: 1、有大规模对象、文件、块存储或数据库等项目相关经验; 2、有Ceph开发运维经验; 3、熟悉以下任一开源存储系统源码:beegfs、ZFS、HDFS、Hbase,LevelDB,RocksDB,Mysql、MongoDB,TiKV,Redis等; 4、熟悉Linux下 I/O协议栈; 5、具有内核,操作系统相关开发经验。
  • 20k-30k·13薪 经验不限 / 本科
    移动互联网,企业服务 / B轮 / 15-50人
    工作内容: 1. 分布式存储 ceph(或其他)的部署、运维、突发故障排查、性能优化; 2. 在私有机房环境部署新集群,需要偶尔出差; 3. 输出运维技术文档。 任职要求: 1. 本科及以上学历; 2. 对 Linux 系统熟悉,能编写 Shell 脚本,至少熟悉一门脚本语言(Python/其他); 3. 有构件并维护生产环境 ceph 的工作经验; 4. 对操作系统、硬件有一定的理解,有能力发现和处理集群在运行过程中遇到的问题; 5. 优秀的学习能力,愿意接触新知识、新技术。 ## 加分项: 1. 有 Kubernetes 生产环境维护管理经验,熟练使用 Kubernetes,熟知 Kubernetes 生态; 2. 有生产环境混合云配置与管理经验; 3. 有机房高可用网络环境配置与管理经验; 4. 对 GPU 设备有所了解,构建过针对机器学习场景的平台。
  • 35k-70k 经验5-10年 / 本科
    企业服务,工具 / 未融资 / 15-50人
    1、ceph分布式存储系统的维护及性能优化。 2、ceph分布式存储的产品应用以及业务需求开发。 3、ceph分布式存储bug解决和定制开发。 4、ceph分布式存储系统的运维支持,及时发现系统隐患、瓶颈,并解决问题。 1、计算机或相关专业本科以上学历,5年以上开发经验。 2、精通C/C++或golang语言,熟悉Linux/Unix平台开发,至少熟悉一种脚本语言。 3、了解KVM,QEMU,libvirt等虚似化组件,熟悉VFS、Block Layer内核机制和磁盘读写原理。 4、熟悉ceph的源代码和内在工作原理,能对其进行性能优化、问题修复。 5、熟悉ceph,有丰富的线上部署、日常运维、扩缩容、性能分析、故障定位处理能力。 6、有钻研精神,态度积极,自我驱动。 加分条件: 1、熟悉windows RBD,有iSCSI协议协议的开发经验优先。 2、有无盘系统搭建和维护经验优先。
  • 18k-35k 经验3-5年 / 硕士
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系,跟踪和探索面向大模型的分布式优化技术新趋势; 2. 负责组织进行软件的设计和开发,对多GPU(同一节点和跨网络多节点)通信性能优化; 职位要求 1. 研究生及以上学历,计算机/电子相关专业优先,5年(博士3年)以上分布式系统优化经验; 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架,具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库(NCCL,UCX, etc.)和经验者优先; 3. 具备芯片互联和网络传输编程相关知识,例如RDMA,PCIE Peer2Peer, GPU Direct等经验者优先; 4. 熟练掌握深度学习分布式优化方法,有大模型训练和推理优化经验者优先; 5. 统筹协调能力强,有大型系统开发团队管理经验优先。
  • 15k-30k 经验1-3年 / 本科
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责大模型分布式系统和多GPU优化系统研发,探索面向大模型的分布式优化新技术; 2. 负责分布式系统软件的设计和开发,提升多GPU(同一节点和跨网络多节点)高性能网络通信性能; 职位要求 1、本科及以上学历,计算机/电子相关专业优先,至少2年分布式、通信系统优化经验; 2、熟练掌握C、C++、Go等一种或多种编程语言,熟悉计算机体系架构、分布式并行计算和异构计算框架; 3、熟悉OpenMPI, OpenSHEM, MPICH,NCCL,UCX等一种或多种分布式通信软件者优先; 4、了解RDMA,PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先; 5、了解常见的深度学习分布式优化方法者优先;
  • 10k-20k 经验1-3年 / 大专
    其他 / 未融资 / 50-150人
    岗位职责: 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作; 2、实施项目成本控制; 3、配合技术部门完成项目技术方案设计,与客户进行前期沟通工作; 4、独立完成现场与项目方相关部门、监理的协调工作;严格实施公司关于现场管理的相关规定,做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理 任职要求: 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺,能独立进行现场施工操作、指导; 2、能够对工前、过程、验收及现场进行有效的组织和实施,并可进行技术指导;3、 能够独立进行工程项目的管理和实施,有较强的现场组织、沟通和协调能力;4、 责任心强,有团队合作精神; 5、 具备相关项目的管理经验,有地面电站、渔光互补电站项目管理经验者优先;有三年以上相关工作经验或相关执业资格证书(一建、二建)者优先。
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 人工智能服务,IT技术服务|咨询 / D轮及以上 / 500-2000人
    工作职责: 1.设计并实现创新的机器学习解决方案,并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构,深入主流的机器学习框架,对框架进行调整、改进和优化。 3.研究核心技术突破点,在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责,分析并深入发现系统风险点,提高系统服务在各种风险下的容错能力。 任职要求: 1.有比较扎实的计算机理论基础,熟练使用C/C++编程,对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力,有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力,良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱,并对新技术持有敏感性并愿意致力于新技术的探索和研究,对解决具有挑战性问题充满激情。 加分项: 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种,社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验,如CUDA,OpenCL,OpenMP,MPI等,并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验,例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解,并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态,在社区有过相关代码贡献者优先。 工作地点:北京、上海、深圳、新加坡;