• 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、参与面向企业服务的大规模分布式文件存储产品的设计和开发,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可扩展性、可维护性等; 3、深入理解业务场景的存储需求,针对性的为不同业务场景提供最合适的存储方案。 职位要求: 1、熟悉分布式存储系统的实现原理,具有计算机相关工作经验; 2、熟悉Go/Python/C/C++中至少一种,对工程质量有很高的自我要求; 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解; 4、熟悉文件存储、块存储、对象存储中的一种或多种者优先; 5、对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
  • 18k-35k 经验3-5年 / 本科
    其他 / 不需要融资 / 2000人以上
    岗位职责: 1. 参与自研分布式文件存储产品架构设计 2. 负责自研分布式文件存储产品特性功能实现以及性能优化 任职要求: 1. *****本科及以上学历,计算机、通信、电子等相关专业 2. 扎实的Linux C/C++编程能力,良好的编码习惯,精通数据结构、算法和常用编程模型 3. 2年及以上的文件存储产品领域开发经验,有文件存储架构设计经验者优先 4. 熟悉分布式文件元数据架构和原理,熟悉文件存储高级特性实现原理,如配额,快照,QoS,多租户,文件/对象无损互通 5. 熟悉GlusterFS/Lustre/Ceph等分布式文件存储系统的任意一种优先 6. 熟悉NFS/SMB等文件协议者优先 7. 具有较强的英文阅读能力
  • 40k-75k·15薪 经验不限 / 本科
    人工智能服务 / C轮 / 150-500人
    职位描述: 1、负责业务模型训练的正确性,完成模型在框架间的迁移,合理设计实验完成模型训练指标如loss的对齐和收敛一致性验证 2.负责业务模型训练的稳定性,快速定位训练任务报错原因并解决,开发相关工具链完成训练自动容错 3.负责提升业务模型训练效率,定位性能瓶颈并持续优化训练框架,提高训练性价比。 4.负责训练优化技术的调研和落地,与业务协作完成算法和系统的联合优化。 职位要求: 1.计算机科学或相关学科的硕士及以上学位,2年及以上相关工作经验 2.对机器学习,自然语言处理等技术有深刻理解,有实际的LLM相关模型训练经验 3,精通Python、熟悉C++编程语言,熟悉计算机系统,熟悉国内外开源训练框架如Pytorch,Megatron,Huggingface、Deespeed,Paddle和PaddleNLP等。 4.熟练掌握各种并行训练优化,通信优化等策略。 加分项 1.熟悉CUDA开发,能完成算子优化 2.有1年以上机器学习训练框架研发经验 3.有RLHF相关如PPO训练研发经验
  • 20k-40k·16薪 经验3-5年 / 本科
    IT技术服务|咨询 / 不需要融资 / 150-500人
    区块链应用开发工程师 Innovation Engineer (Blockchain) -工作职责: 1. 负责Web3及区块链应用系统的设计、开发、测试和演进 2. 设计高性能、高可靠服务;建立快速、稳定、安全的后端代码 3. 研究区块链和Web3前沿技术 4. 保证工程质量和开发交付效率 -岗位要求: 1. 计算机相关专业本科以上学历 2. 两年以上大规模系统软件开发经验(如数据库系统、存储系统、或其它分布式中间件系统等) 3. 熟练掌握GO、C++、RUST等一门或多门编程语言 4. 具有微服务框架、云原生、RPC框架、API网关、数据层、性能优化等相关技术经验者优先 5. 英文读写熟练,口语能简单交流,参加日常的海外会议
  • 25k-45k 经验1-3年 / 本科
    数据服务 / 不需要融资 / 150-500人
    岗位职责: 1、负责分布式数据库集群的功能开发; 2、负责分布式数据库特性数据的存储结构改造; 3、负责研发多副本技术; 4、负责研发分布式数据库特有的流式计算、窗口函数功能。 岗位要求: 1、3年及以上数据库相关开发经验,本科及以上学历; 2、熟练掌握C/C++语言,具备良好的编程习惯、数据结构、算法等基础知识,对分布式系统的架构和原理有一定的了解; 3、对分布式数据库原理有深入了解,熟悉influxdb、opentsdb、timescaledb、TDengine等分布式数据库项目者优先。
  • 20k-40k·16薪 经验1-3年 / 硕士
    数据服务|咨询 / C轮 / 150-500人
    数据的价值,决定了存储系统的价值。面对爆炸性增长的非结构化数据,以及复杂多变的业务需求,我们需要创造性的思维,从零开始思考和设计新一代的分布式文件系统。 在 SmartX 你将有机会与最优秀的存储工程师一起工作,构建新一代的分布式文件系统,使得应用系统随时随地都可以安全且高效的存储和访问数据。 分布式文件系统研发工程师 - 北京 - 社招/校招 岗位职责: - 参与设计和开发新一代分布式文件系统,通过创新思维解决元数据管理、数据管理等关键领域的技术难题; - 撰写细致的设计文档,并对其他同事的代码进行审查; - 与测试、产品、售前和售后部门密切配合,不断提升产品质量和竞争力。 岗位要求: - 热爱编程,熟练掌握 Rust/ C/ C++; - 熟悉 CIFS、Samba、NFS、S3 等存储协议; - 具备多线程程序和性能调优的经验; - 熟练掌握 Linux 操作系统的使用; - 有存储、操作系统等相关项目的经验; - 具备良好的团队协作和沟通能力。 在 SmartX 工作,你将拥有: - 全新 MacBook 办公设备(或 Thinkpad 自选) + 大屏显示器 - 弹性工作,上下班不打卡,周末双休 - 全额五险一金+年度免费体检 + 商业医疗保险 - 餐补 + 团建基金 + 零食饮料 + 日常团队活动(1024程序员节,冬至一起煮饺子,端午一起包粽子等等) - 12 天带薪年假 + 12 天带薪病假 - 扁平管理,没有老大x总,只有助你成长和答疑解惑的伙伴和技术大牛带你飞
  • 其他 / 不需要融资 / 2000人以上
    岗位职责: 1. 负责自研分布式存储产品集群网络子系统需求开发,缺陷分析与解决 2. 负责自研分布式存储产品集群网络子系统性能调优 任职要求: 1. *****本科及以上学历,计算机、通信、电子等相关专业 2. 扎实的Linux C/C++编程能力,良好的编码习惯,精通数据结构、算法和常用编程模型 3. 2年及以上的后台服务器领域开发经验,有大规模,高并发,高性能软件架构设计和开发经验者优先 4. 精通至少一种网络技术:TCP/Socket网络编程,内核协议栈设计与实现,RDMA,RPC 5. 熟悉开源网络技术libfabric,dpdk,libevent等任意一种优先 6. 有存储产品网络子系统设计,开发和维护经验者优先 7. 具有较强的英文阅读能力
  • 50k-80k·16薪 经验5-10年 / 本科
    企业服务 / 不需要融资 / 50-150人
    作为存储工程师,你将聚焦于诸多大数据领域的技术挑战。 基于前沿软硬件技术并结合量化研究的特点,你将设计、研发、优化、维护行业领先的低延时、高性能、可扩展的分布式文件存储、对象存储、缓存系统和大数据管理系统。 岗位要求 1)国内外知名院校的计算机科学本科及以上学历,2年以上存储相关经验; 2)熟练掌握C/C++开发语言,掌握常见的算法和数据结构; 3)精通Linux操作系统,对Linux Kernel熟悉者优先 4)熟悉开源分布式文件系统、对象存储系统或缓存系统,了解其架构、原理、调优、运维等多方面知识; 5)熟悉TCP/RDMA/RoCE/GPUDirect等通信协议,有DPDK/SPDK/NVMe开发经验者优先。
  • 50k-80k·16薪 经验3-5年 / 本科
    企业服务 / 不需要融资 / 50-150人
    作为存储工程师,你将聚焦于诸多大数据领域的技术挑战。 基于前沿软硬件技术并结合量化研究的特点,你将设计、研发、优化、维护行业领先的低延时、高性能、可扩展的分布式文件存储、对象存储、缓存系统和大数据管理系统。 岗位要求 1)国内外知名院校的计算机科学本科及以上学历,2年以上存储相关经验; 2)熟练掌握C/C++开发语言,掌握常见的算法和数据结构; 3)精通Linux操作系统,对Linux Kernel熟悉者优先 4)熟悉开源分布式文件系统、对象存储系统或缓存系统,了解其架构、原理、调优、运维等多方面知识; 5)熟悉TCP/RDMA/RoCE/GPUDirect等通信协议,有DPDK/SPDK/NVMe开发经验者优先。
  • 电商,企业服务 / 上市公司 / 2000人以上
    关于我们 加入阿里云飞天企业版团队,您将参与构建面向云原生、DevOps、IoT、AIOps、时序存储与安全分析的企业级大数据服务,并参与面向 AI 的智能化能力落地。在国内最大规模的云平台上,解决真实且复杂的工程问题,成长与影响力并重。 参与企业级大数据产品的核心分布式架构设计与性能优化; 推动微服务平滑拆分与弹性扩缩容,提升系统自愈能力与可观测性; 深度结合安全、容灾与自动化运维,保障企业级服务的合规与可靠性; 有机会将前沿云计算与 AI 能力快速落地,参与产品长期演进规划。 ========= 负责飞天企业版大数据类产品的分布式系统开发与架构演进,推动微服务化与弹性扩缩容方案落地。 优化系统性能与资源使用(内存/CPU),设计退避、限流、熔断等容错与自愈机制。 主导或参与底层库与中间件的调优、代码重构与可测试性改进,提升系统可维护性。 构建与完善漏洞自动化修复、容灾恢复流程,支持企业级特殊服务/数据场景。 与产品、运维、测试等团队协同,推动线上演进、容量规划与可靠性保障。 岗位要求 熟练掌握 C++/Python/Go/Java 中至少一种,具备良好的编码规范与单元测试习惯;熟悉代码重构与常用设计模式。 三年以上分布式系统开发经验,有公有云/私有云相关项目经验优先。 了解编程语言演进与 Core Guidelines(如 C++ Core Guidelines)者优先。 熟悉 Folly、Abseil、ElasticSearch、ClickHouse、Kafka 等大数据基础开源组件,能阅读源码并有社区贡献或提交者优先。 熟悉 Kubernetes 等容器编排/分布式管控系统;使用过 Azure Stack、AWS Outposts 等专有云/混合云解决方案者更佳。 学习能力强,对云计算前沿技术充满热情,能将新技术快速工程化并在产品迭代中做出合理权衡与规划。
  • 18k-35k 经验3-5年 / 硕士
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系,跟踪和探索面向大模型的分布式优化技术新趋势; 2. 负责组织进行软件的设计和开发,对多GPU(同一节点和跨网络多节点)通信性能优化; 职位要求 1. 研究生及以上学历,计算机/电子相关专业优先,5年(博士3年)以上分布式系统优化经验; 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架,具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库(NCCL,UCX, etc.)和经验者优先; 3. 具备芯片互联和网络传输编程相关知识,例如RDMA,PCIE Peer2Peer, GPU Direct等经验者优先; 4. 熟练掌握深度学习分布式优化方法,有大模型训练和推理优化经验者优先; 5. 统筹协调能力强,有大型系统开发团队管理经验优先。
  • 15k-30k 经验1-3年 / 本科
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责大模型分布式系统和多GPU优化系统研发,探索面向大模型的分布式优化新技术; 2. 负责分布式系统软件的设计和开发,提升多GPU(同一节点和跨网络多节点)高性能网络通信性能; 职位要求 1、本科及以上学历,计算机/电子相关专业优先,至少2年分布式、通信系统优化经验; 2、熟练掌握C、C++、Go等一种或多种编程语言,熟悉计算机体系架构、分布式并行计算和异构计算框架; 3、熟悉OpenMPI, OpenSHEM, MPICH,NCCL,UCX等一种或多种分布式通信软件者优先; 4、了解RDMA,PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先; 5、了解常见的深度学习分布式优化方法者优先;
  • 10k-20k 经验1-3年 / 大专
    其他 / 未融资 / 50-150人
    岗位职责: 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作; 2、实施项目成本控制; 3、配合技术部门完成项目技术方案设计,与客户进行前期沟通工作; 4、独立完成现场与项目方相关部门、监理的协调工作;严格实施公司关于现场管理的相关规定,做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理 任职要求: 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺,能独立进行现场施工操作、指导; 2、能够对工前、过程、验收及现场进行有效的组织和实施,并可进行技术指导;3、 能够独立进行工程项目的管理和实施,有较强的现场组织、沟通和协调能力;4、 责任心强,有团队合作精神; 5、 具备相关项目的管理经验,有地面电站、渔光互补电站项目管理经验者优先;有三年以上相关工作经验或相关执业资格证书(一建、二建)者优先。
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化