高性能集合通信库工程师-网络20k-40k

上海经验不限本科及以上后端工程师
岗位所属职位类型
全职

  • 后端开发
字节跳动
分享到微信
微信扫一扫,用小程序打开分享
收藏
职位诱惑:

弹性工作

职位描述:

职位职责:
1、核心研发工作:
1)负责集合通信库(CCL)设计、开发与优化,支持多卡/多机场景下的高性能通信;
2)基于RDMA和Scale-up等互联技术,研发高速通信库及相关工具;
3)探索通信与计算的协同优化,设计通信算子与计算算子的融合方案;
2、性能优化与问题解决:
1)分析并优化AI集群中单机内/多机间的集合通信性能(如AllReduce、All2All等),突破软硬件性能瓶颈;
2)解决分布式训练/推理场景中的通信问题,适配复杂应用场景需求;
3)利用Triton等工具开发高性能通信计算融合算子,优化端到端通信延迟;
3、技术协作与生态建设:
1)与训练、推理、自研软硬件等团队协作,优化AI模型通信效率,支撑整体系统性能提升;
2)洞察集合通信技术趋势,推动自研通信库的架构演进与生态适配。
职位要求:
1、本科及以上,计算机、电子工程相关专业;
2、扎实的分布式系统知识,熟悉大规模AI集群架构、网络通信原理及RDMA技术;
3、熟悉常见集合通信算法(如Ring、Tree、Halving-Doubling),了解集合通信库(NCCL等)实现原理;
4、具备复杂问题分析能力,能独立完成性能调优与故障排查。

工作地址

上海 - 杨浦区- 中国大陆上海市杨浦区民府路678号上海新江湾广场T2号楼,邮编:200082查看地图

职位发布者:

拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
  • 评价人头像匿名
    半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官很nice
    [面试过程]
    面试了一小时,面试官很专业,数仓理论没准备好,很遗憾
    (71)
  • 评价人头像匿名
    半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官很nice
    面试官是大牛
    福利待遇杠杠的
    [面试过程]
    过程很棒,面试官都是技术型的,聊得很开心
    (39)
  • 半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官很nice
    面试效率高
    [面试过程]
    在算法题上纠结太久,细节没处理好。面试官很不错
    (129)
抖音视界(北京)有限公司

字节跳动

相似职位