分布式训练框架研发工程师40k-75k·15薪

北京经验不限本科及以上后端工程师
岗位所属职位类型
全职

  • Golang
  • C++
  • 人工智能服务
  • 计算机相关专业
  • 并行计算
  • Python
崇朗科技
分享到微信
微信扫一扫,用小程序打开分享
职位诱惑:

空间大

职位描述:

职位描述:
1、负责业务模型训练的正确性,完成模型在框架间的迁移,合理设计实验完成模型训练指标如loss的对齐和收敛一致性验证
2.负责业务模型训练的稳定性,快速定位训练任务报错原因并解决,开发相关工具链完成训练自动容错
3.负责提升业务模型训练效率,定位性能瓶颈并持续优化训练框架,提高训练性价比。
4.负责训练优化技术的调研和落地,与业务协作完成算法和系统的联合优化。
职位要求:
1.计算机科学或相关学科的硕士及以上学位,2年及以上相关工作经验
2.对机器学习,自然语言处理等技术有深刻理解,有实际的LLM相关模型训练经验
3,精通Python、熟悉C++编程语言,熟悉计算机系统,熟悉国内外开源训练框架如Pytorch,Megatron,Huggingface、Deespeed,Paddle和PaddleNLP等。
4.熟练掌握各种并行训练优化,通信优化等策略。
加分项
1.熟悉CUDA开发,能完成算子优化
2.有1年以上机器学习训练框架研发经验
3.有RLHF相关如PPO训练研发经验

工作地址

北京 - 海淀区 - 五道口- 北京市海淀区中关村东路8号东升大厦C座9层查看地图

职位发布者:

拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
该职位尚未收到面试评价
北京崇朗科技有限公司

崇朗科技

相似职位