【分布式研发高级工程师】-招聘求职信息-拉勾招聘

推荐职位排序方式：默认最新
月薪：
不限
- 不限
- 2k以下
- 2k-5k
- 5k-10k
- 10k-15k
- 15k-25k
- 25k-50k
- 50k以上
工作性质：
不限
- 不限
- 全职
- 兼职
- 实习

分布式文件存储产品化开发工程师-Data
[成都·武侯区] 1天前发布

25k-50k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、参与面向企业服务的大规模分布式文件存储产品的设计和开发，打造业界先进的标准化产品； 2、持续优化系统稳定性、性能、成本、可扩展性、可维护性等； 3、深入理解业务场景的存储需求，针对性的为不同业务场景提供最合适的存储方案。职位要求： 1、熟悉分布式存储系统的实现原理，具有计算机相关工作经验； 2、熟悉Go/Python/C/C++中至少一种，对工程质量有很高的自我要求； 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解； 4、熟悉文件存储、块存储、对象存储中的一种或多种者优先； 5、对技术有强烈的进取心，具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
ceph 分布式存储研发高级工程师
[深圳·福田区] 2022-10-19

35k-70k 经验5-10年 / 本科

任展咨询

企业服务,工具 / 未融资 / 15-50人

1、ceph分布式存储系统的维护及性能优化。 2、ceph分布式存储的产品应用以及业务需求开发。 3、ceph分布式存储bug解决和定制开发。 4、ceph分布式存储系统的运维支持，及时发现系统隐患、瓶颈，并解决问题。 1、计算机或相关专业本科以上学历，5年以上开发经验。 2、精通C/C++或golang语言，熟悉Linux/Unix平台开发，至少熟悉一种脚本语言。 3、了解KVM,QEMU,libvirt等虚似化组件，熟悉VFS、Block Layer内核机制和磁盘读写原理。 4、熟悉ceph的源代码和内在工作原理，能对其进行性能优化、问题修复。 5、熟悉ceph，有丰富的线上部署、日常运维、扩缩容、性能分析、故障定位处理能力。 6、有钻研精神，态度积极，自我驱动。加分条件： 1、熟悉windows RBD，有iSCSI协议协议的开发经验优先。 2、有无盘系统搭建和维护经验优先。
阿里云分布式大数据架构开发工程师（阿里云·飞天企业版）
[上海·龙华] 2025-11-09

25k-50k·16薪经验不限 / 本科

阿里云

电商,企业服务 / 上市公司 / 2000人以上

关于我们加入阿里云飞天企业版团队，您将参与构建面向云原生、DevOps、IoT、AIOps、时序存储与安全分析的企业级大数据服务，并参与面向 AI 的智能化能力落地。在国内最大规模的云平台上，解决真实且复杂的工程问题，成长与影响力并重。参与企业级大数据产品的核心分布式架构设计与性能优化；推动微服务平滑拆分与弹性扩缩容，提升系统自愈能力与可观测性；深度结合安全、容灾与自动化运维，保障企业级服务的合规与可靠性；有机会将前沿云计算与 AI 能力快速落地，参与产品长期演进规划。 ========= 负责飞天企业版大数据类产品的分布式系统开发与架构演进，推动微服务化与弹性扩缩容方案落地。优化系统性能与资源使用（内存/CPU），设计退避、限流、熔断等容错与自愈机制。主导或参与底层库与中间件的调优、代码重构与可测试性改进，提升系统可维护性。构建与完善漏洞自动化修复、容灾恢复流程，支持企业级特殊服务/数据场景。与产品、运维、测试等团队协同，推动线上演进、容量规划与可靠性保障。岗位要求熟练掌握 C++/Python/Go/Java 中至少一种，具备良好的编码规范与单元测试习惯；熟悉代码重构与常用设计模式。三年以上分布式系统开发经验，有公有云/私有云相关项目经验优先。了解编程语言演进与 Core Guidelines（如 C++ Core Guidelines）者优先。熟悉 Folly、Abseil、ElasticSearch、ClickHouse、Kafka 等大数据基础开源组件，能阅读源码并有社区贡献或提交者优先。熟悉 Kubernetes 等容器编排/分布式管控系统；使用过 Azure Stack、AWS Outposts 等专有云/混合云解决方案者更佳。学习能力强，对云计算前沿技术充满热情，能将新技术快速工程化并在产品迭代中做出合理权衡与规划。
大模型分布式系统优化专家
[南京·建邺区] 2023-12-01

18k-35k 经验3-5年 / 硕士

基流科技

企业服务,人工智能,通讯电子 / 天使轮 / 50-150人

职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系，跟踪和探索面向大模型的分布式优化技术新趋势； 2. 负责组织进行软件的设计和开发，对多GPU（同一节点和跨网络多节点）通信性能优化；职位要求 1. 研究生及以上学历，计算机/电子相关专业优先，5年（博士3年）以上分布式系统优化经验； 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架，具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库（NCCL,UCX, etc.）和经验者优先； 3. 具备芯片互联和网络传输编程相关知识，例如RDMA，PCIE Peer2Peer, GPU Direct等经验者优先； 4. 熟练掌握深度学习分布式优化方法，有大模型训练和推理优化经验者优先； 5. 统筹协调能力强，有大型系统开发团队管理经验优先。
大模型分布式系统优化工程师
[南京·建邺区] 2023-12-01

15k-30k 经验1-3年 / 本科

基流科技

企业服务,人工智能,通讯电子 / 天使轮 / 50-150人

职位描述 1. 负责大模型分布式系统和多GPU优化系统研发，探索面向大模型的分布式优化新技术； 2. 负责分布式系统软件的设计和开发，提升多GPU（同一节点和跨网络多节点）高性能网络通信性能；职位要求 1、本科及以上学历，计算机/电子相关专业优先，至少2年分布式、通信系统优化经验； 2、熟练掌握C、C++、Go等一种或多种编程语言，熟悉计算机体系架构、分布式并行计算和异构计算框架； 3、熟悉OpenMPI, OpenSHEM, MPICH，NCCL,UCX等一种或多种分布式通信软件者优先； 4、了解RDMA，PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先； 5、了解常见的深度学习分布式优化方法者优先；
分布式光伏工程师
[南通·崇川区] 2023-11-15

10k-20k 经验1-3年 / 大专

江苏熙能

其他 / 未融资 / 50-150人

岗位职责： 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作； 2、实施项目成本控制； 3、配合技术部门完成项目技术方案设计，与客户进行前期沟通工作； 4、独立完成现场与项目方相关部门、监理的协调工作；严格实施公司关于现场管理的相关规定，做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理任职要求： 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺，能独立进行现场施工操作、指导； 2、能够对工前、过程、验收及现场进行有效的组织和实施，并可进行技术指导；3、能够独立进行工程项目的管理和实施，有较强的现场组织、沟通和协调能力；4、责任心强，有团队合作精神； 5、具备相关项目的管理经验，有地面电站、渔光互补电站项目管理经验者优先；有三年以上相关工作经验或相关执业资格证书（一建、二建）者优先。
高性能计算资深工程师（分布式训练）
[北京·小关] 2023-09-02

40k-70k·16薪经验不限 / 本科

小红书

消费生活 / D轮及以上 / 500-2000人

1.负责机器学习分布式训练方向的工作，系统开发、高性能优化 2.熟悉分布式训练框架，熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验，支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程，网络吞吐性能优化，可对神经网络特定layer进行深层优化
高性能计算资深工程师（分布式训练）
[上海·黄浦区] 2023-09-02

40k-70k·16薪经验不限 / 本科

小红书

消费生活 / D轮及以上 / 500-2000人

1.负责机器学习分布式训练方向的工作，系统开发、高性能优化 2.熟悉分布式训练框架，熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验，支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程，网络吞吐性能优化，可对神经网络特定layer进行深层优化
分布式存储系统研发
[北京·中关村] 2023-08-04

24k-45k 经验3-5年 / 本科

搜狐集团

移动互联网,广告营销 / 上市公司 / 2000人以上

云存储/分布式存储研发工程师岗位职责： 1、负责分布式存储平台的研发建设工作，包括对象存储/块存储/文件存储等系统的开发、优化； 2、持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求； 3、负责部分运维任务，高效定位，分析和解决线上问题；岗位要求： 1、重点本科及以上学历，计算机相关专业； 2、2年及以上云存储相关工作经验； 3、熟练掌握GO/JAVA等语言进行开发（至少熟练掌握一种)； 4、有扎实的算法基础，能灵活应用各种常见的数据结构； 5、熟悉操作系统原理、Linux IO性能调优方法； 6、熟悉分布式系统的设计和应用，了解分布式常用技术原理； 7、熟悉一业界主流分布式存储产品，如AWS-S3、CEPH，HDFS，HBASE等； 8、有对象存储，块存储，NOSQL存储或其他大规模
plan1956-大规模分布式机器学习系统工程师
[北京·北下关] 2023-07-17

70k-80k 经验在校/应届 / 硕士

第四范式

人工智能服务,IT技术服务｜咨询 / D轮及以上 / 500-2000人

工作职责： 1.设计并实现创新的机器学习解决方案，并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构，深入主流的机器学习框架，对框架进行调整、改进和优化。 3.研究核心技术突破点，在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责，分析并深入发现系统风险点，提高系统服务在各种风险下的容错能力。任职要求： 1.有比较扎实的计算机理论基础，熟练使用C/C++编程，对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力，有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力，良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱，并对新技术持有敏感性并愿意致力于新技术的探索和研究，对解决具有挑战性问题充满激情。加分项： 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种，社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验，如CUDA，OpenCL，OpenMP，MPI等，并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验，例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解，并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态，在社区有过相关代码贡献者优先。工作地点：北京、上海、深圳、新加坡；
机器学习系统工程师 - 机器学习框架/分布式训练
[杭州·西兴] 2023-03-15

30k-60k·16薪经验1-3年 / 硕士

摩尔线程

硬件 / A轮 / 500-2000人

工作职责 1.参与主流机器学习框架与摩尔线程软硬件栈的对接，模型优化和部署； 2.参与机器学习单GPU以及分布式训练技术的研究与实现，如各种并行与异构计算技术的设计、开发以及与性能优化； 3.参与研究并实现适合摩尔线程自研GPU的模型优化和压缩方法。任职资格 1.熟悉Linux开发环境，精通C++和Python，具备良好扎实的算法基础、良好的编程风格和系统设计能力； 2.深入理解典型的深度学习算法（如CV和NLP模型），主流深度框架（如TensorFlow、PyTorch、MxNet、Caffe、PaddlePaddle等）开发或优化经验； 3.或有深度学习编译器（如XLA、TVM、Glow、NGraph）等软件栈的开发经验； 4.精通分布式训练技术，有参数服务器、多维并行、显存交换等技术的深入研究与开发者可优先考虑； 5.有机器学习模型性能调优和模型压缩（量化、剪枝、蒸馏、NAS等）经验者可优先考虑； 6.精通并行计算通信库（如MPI），有丰富的CUDA并行编程和典型机器学习算子开发经验者可优先考虑； 7.有强烈的工作责任心，较好的学习能力、沟通能力和自驱力。
机器学习系统工程师 - 机器学习框架/分布式训练
[上海·张江] 2023-03-15

30k-60k·16薪经验1-3年 / 硕士

摩尔线程

硬件 / A轮 / 500-2000人

工作职责 1.参与主流机器学习框架与摩尔线程软硬件栈的对接，模型优化和部署； 2.参与机器学习单GPU以及分布式训练技术的研究与实现，如各种并行与异构计算技术的设计、开发以及与性能优化； 3.参与研究并实现适合摩尔线程自研GPU的模型优化和压缩方法。任职资格 1.熟悉Linux开发环境，精通C++和Python，具备良好扎实的算法基础、良好的编程风格和系统设计能力； 2.深入理解典型的深度学习算法（如CV和NLP模型），主流深度框架（如TensorFlow、PyTorch、MxNet、Caffe、PaddlePaddle等）开发或优化经验； 3.或有深度学习编译器（如XLA、TVM、Glow、NGraph）等软件栈的开发经验； 4.精通分布式训练技术，有参数服务器、多维并行、显存交换等技术的深入研究与开发者可优先考虑； 5.有机器学习模型性能调优和模型压缩（量化、剪枝、蒸馏、NAS等）经验者可优先考虑； 6.精通并行计算通信库（如MPI），有丰富的CUDA并行编程和典型机器学习算子开发经验者可优先考虑； 7.有强烈的工作责任心，较好的学习能力、沟通能力和自驱力。
分布式文件存储研发工程师
[武汉·流芳] 2023-03-13

18k-35k 经验3-5年 / 本科

中国系统

其他 / 不需要融资 / 2000人以上

岗位职责： 1. 参与自研分布式文件存储产品架构设计 2. 负责自研分布式文件存储产品特性功能实现以及性能优化任职要求： 1. *****本科及以上学历，计算机、通信、电子等相关专业 2. 扎实的Linux C/C++编程能力，良好的编码习惯，精通数据结构、算法和常用编程模型 3. 2年及以上的文件存储产品领域开发经验，有文件存储架构设计经验者优先 4. 熟悉分布式文件元数据架构和原理，熟悉文件存储高级特性实现原理，如配额，快照，QoS，多租户，文件/对象无损互通 5. 熟悉GlusterFS/Lustre/Ceph等分布式文件存储系统的任意一种优先 6. 熟悉NFS/SMB等文件协议者优先 7. 具有较强的英文阅读能力
华为云-分布式系统软件开发工程师
[深圳·龙岗区] 2023-02-18

20k-40k·15薪经验3-5年 / 本科

华为技术有限公司

通讯电子 / 不需要融资 / 2000人以上

【岗位职责】 1、负责分布式系统核心产品关键技术的研究，确保产品领先业界竞争力。 2、负责新一代分布式All-Flash存储引擎设计开发，关键技术点突破，可靠性设计，全栈性能优化，提升产品竞争力。 3、负责AI分布式文件系统设计开发，深度探索剖析AI业务场景瓶颈，基于DevOps流程端到端交付特性，参与项目的全生命周期管理。 4、负责多并发任务调度系统架构设计和开发，优化openstack卷管理调度性能问题，对接瑶光架构技术开发项目，实现更优的性能云资源服务。【岗位要求】 1、***本科及以上学历，有大规模系统开发经验优先。 2、掌握c/c++/java/python语言的一种或多种，熟悉linux系统。 3、熟悉分布式存储/云计算/虚拟化等关键技术，具有实际项目经验者优先。 4、熟悉openstack开源项目，对数据中心资源调度有研究背景优先。 5、对新技术充满求知欲，乐于团队合作和技术分享。
分布式开发工程师
[南京·雨花台区] 2023-02-13

15k-25k 经验1-3年 / 本科

华为技术有限公司

通讯电子 / 不需要融资 / 2000人以上

岗位职责 1.从事分布式大数据/文件/对象存储系统的测试和开发； 2.实现公有云/私有云分布式文件/对象/块存储服务的高性能、高可靠性、高可用目标。岗位要求 1.掌握C/C++/Java/go/Python/JS等一种或多种编程语言，熟悉Linux相关知识，对基本数据结构和算法有一定的了解； 2.有存储、分布式、文件系统、容器领域、Linux内核、AI以及大数据开发经验者优先； 3.具备良好的解决问题能力，逻辑思维能力，善于沟通与合作； 4.干工作认真负责，能承受一定工作，具备良好的团队协作与沟通交流意识。