【高性能计算软件工程师】-招聘求职信息-拉勾招聘

推荐职位排序方式：默认最新
月薪：
不限
- 不限
- 2k以下
- 2k-5k
- 5k-10k
- 10k-15k
- 15k-25k
- 25k-50k
- 50k以上
工作性质：
不限
- 不限
- 全职
- 兼职
- 实习

高性能集合通信库工程师-网络
[上海·杨浦区] 09:25发布

20k-40k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、核心研发工作： 1）负责集合通信库（CCL）设计、开发与优化，支持多卡/多机场景下的高性能通信； 2）基于RDMA和Scale-up等互联技术，研发高速通信库及相关工具； 3）探索通信与计算的协同优化，设计通信算子与计算算子的融合方案； 2、性能优化与问题解决： 1）分析并优化AI集群中单机内/多机间的集合通信性能（如AllReduce、All2All等），突破软硬件性能瓶颈； 2）解决分布式训练/推理场景中的通信问题，适配复杂应用场景需求； 3）利用Triton等工具开发高性能通信计算融合算子，优化端到端通信延迟； 3、技术协作与生态建设： 1）与训练、推理、自研软硬件等团队协作，优化AI模型通信效率，支撑整体系统性能提升； 2）洞察集合通信技术趋势，推动自研通信库的架构演进与生态适配。职位要求： 1、本科及以上，计算机、电子工程相关专业； 2、扎实的分布式系统知识，熟悉大规模AI集群架构、网络通信原理及RDMA技术； 3、熟悉常见集合通信算法（如Ring、Tree、Halving-Doubling），了解集合通信库（NCCL等）实现原理； 4、具备复杂问题分析能力，能独立完成性能调优与故障排查。
高性能集合通信库工程师-网络
[北京·海淀区] 1天前发布

20k-40k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、核心研发工作： 1）负责集合通信库（CCL）设计、开发与优化，支持多卡/多机场景下的高性能通信； 2）基于RDMA和Scale-up等互联技术，研发高速通信库及相关工具； 3）探索通信与计算的协同优化，设计通信算子与计算算子的融合方案； 2、性能优化与问题解决： 1）分析并优化AI集群中单机内/多机间的集合通信性能（如AllReduce、All2All等），突破软硬件性能瓶颈； 2）解决分布式训练/推理场景中的通信问题，适配复杂应用场景需求； 3）利用Triton等工具开发高性能通信计算融合算子，优化端到端通信延迟； 3、技术协作与生态建设： 1）与训练、推理、自研软硬件等团队协作，优化AI模型通信效率，支撑整体系统性能提升； 2）洞察集合通信技术趋势，推动自研通信库的架构演进与生态适配。职位要求： 1、本科及以上，计算机、电子工程相关专业； 2、扎实的分布式系统知识，熟悉大规模AI集群架构、网络通信原理及RDMA技术； 3、熟悉常见集合通信算法（如Ring、Tree、Halving-Doubling），了解集合通信库（NCCL等）实现原理； 4、具备复杂问题分析能力，能独立完成性能调优与故障排查。
实习生-计算机-人工智能
[北京·公主坟] 10:44发布

2k-3k 经验不限 / 本科

融汇

金融 / 不需要融资 / 50-150人

岗位职责： 1.参与公司AI Agent/Flow项目的开发与实施，协助完成客户场景的搭建，包括但不限于智能问答、信息抽取、内容审核、自动写作等任务； 2.在高级工程师指导下，完成数据清洗、模型微调、效果评测及基础模块开发； 3.协助优化现有AI流程，提升任务执行的准确性和效率； 4.配合客户现场需求，参与项目交付，出差支持客户部署、调试及培训（出差频率视项目需求）； 5.配合团队完成技术文档编写、测试及客户需求对接；岗位要求： 1.学历专业：计算机、软件工程、人工智能等相关专业本科及以上学历； 2.技术能力： ∙熟悉Python，了解基础数据结构与算法； ∙接触过NLP基础任务（如文本分类、实体识别、文本生成等），有相关课程或项目经验； ∙了解至少一种深度学习框架（PyTorch/TensorFlow）； ∙对Agent/Flow架构或大模型应用（如LLaMA/GPT）有基础认知者优先； 3.工具使用： ∙能使用Git进行协作开发； ∙熟悉Linux基础命令及SQL/NoSQL数据库操作； 4.软性要求： ∙学习能力强，对AI技术有热情，愿意深入行业场景； ∙良好的沟通能力和团队协作意识，能适应快节奏项目交付。加分项： ∙有开源项目贡献或Kaggle/天池等竞赛经历； ∙熟悉Prompt Engineering或简单SFT微调经验； ∙能使用n8n/coze/dify 等workflow/Agent 工具完成简单场景和需求； ∙熟练使用 cursor/trae 等编程工具； ∙了解ToB项目流程，具备基础需求分析能力。附加信息：工作时间：周末双休上下班时间：09:00-18:00
11817Y-高级云计算工程师
[深圳·南山区] 1天前发布

15k-25k 经验5-10年 / 本科

平安科技

金融 / 上市公司 / 2000人以上

工作职责 1、负责服务器存储硬件和操作系统通道软件系统的新技术及架构研究、路标规划及引入管理； 2、负责服务器和操作系统的测试与调优，提高服务器和通道软件平台的的稳定性及性能； 3、负责分析、定位及解决服务器运行中出现的各种硬件问题； 4、制定相应的技术的标准及规范； 5、持续跟踪业界领导厂商、技术发展趋势，输出必要的技术分析报告。任职要求 1.本科以上学历，计算机或相近专业，5年以上云计算相关工作经验； 2、精通服务器硬件和操作系统技术和主流云产品，精通云产品底层硬件架构、软件功能硬件化解决方案； 3、熟悉服务器硬件系统的测试与调优、服务器硬件故障分析方法及解决方案； 4、熟悉与PC服务器关联密切的网络、存储及IDC等技术；了解云平台KVM、Docker、Ceph、Hadoop等主流应用的技术方案； 5、对行业发展趋势有敏锐的洞察力及创新意识，对新技术研究有深入的好奇心，对服务器新产品、新技术有跟踪研究能力； 6、具备互联网公司部件研究经验、服务器底层硬件研发及定制化开发经验优先考虑。
高性能计算研发工程师
[杭州·西湖区] 2025-03-15

35k-60k 经验3-5年 / 硕士

阿里云

电商,企业服务 / 上市公司 / 2000人以上

岗位职责:（部分匹配即可） 1、针对大模型推理、训练等场景，优化和扩展vLLM、SGLang等框架的核心模块，提升计算效率与资源利用率； 2、能够使用Profiler手段，分析训练瓶颈，使用分布式策略调优、算子优化等手段来提升训练性能； 3、提升分布式推理下模型并行(ModelParalleism)、数据并行(Data Paralelism)等场景下的性能； 4、支撑异构AI芯片上的调度框架设计与优化，提升系统的实时性、吞吐率、算力利用率等指标； 5、针对不同端侧设备的硬件特性（CPU、GPU、NPU 等）进行镜像和训推框架适配，针对特定硬件架构和推理引擎进行性能优化； 6、深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等)，设计并实现高性能算子与算法； 7、探索前沿技术方向(如混合专家模型MoE、强化学习算法等)，推动AI工程化落地的效率提升。岗位要求：（部分满足即可） 1、熟练GPU的高性能计算优化技术，深入理解计算机体系结构，熟悉并行计算优化、访存优化等; 2、熟悉TensorRT-LLM、LMDeploy、vLLM、SGLang等大模型推理框架，有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等)； 3、扎实的高性能计算基础，熟悉并行计算、内存优化、通信优化等技术； 4、至少熟练使用C++/Python/Golang中一种，具备良好的算法设计与代码实现能力； 5、熟悉Pytorch，Deepspeed等主流分布式框架的使用和原理，熟练掌握TensorFlow、PyTorch等深度学习框架； 6、了解深度学习算法基本原理，熟悉深度学习训练框架及其模型文件的解析； 7、了解通信架构原理、有分布式优化和通信优化经历者优先； 8、了解深度学习模型的量化压缩、推理加速等优化技术； 9、了解通信架构原理、有分布式优化和通信优化经历者优先。
2024百度校招--北京-高性能计算研发工程师
[北京·西北旺] 2024-02-28

25k-40k 经验在校/应届 / 本科

百度

工具 / 上市公司 / 2000人以上

职责 -负责深度学习推理引擎的优化工作，主要针对GPU、CPU以及自研语音芯片 -负责深度学习算法在多终端工程优化和落地 -负责深度学习模型训练框架的高性能计算优化工作要求 -精通C/C++编程，编程习惯和功底扎实优秀 -对深度学习算法有一定了解，具备将复杂问题进行数学建模的意识和能力 -对高性能计算\分布式计算\异构计算\编译系统等有了解，有过mpi、gcc、gpu等开发经验加分 -了解多线程加速，DSP相关移植，单指令多数据加速，进程间通信，有过DSP的指令集以及加速方法开发经验的加分； -沟通能力和团队合作意识强，热爱挑战，踏实勤奋
高性能计算工程师
[深圳·大冲] 2023-09-23

30k-60k·14薪经验不限 / 硕士

其域创新

IT技术服务｜咨询,人工智能服务 / 天使轮 / 50-150人

工作职责： 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现，例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术，致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发，大规模矩阵求解，优化问题等。职位要求： 1. 计算机、电子、通信专业，硕士及以上学历。 2. 精通C++语言，具有3年及以上的linux环境下C/C++多线程和多进程开发经验，熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构，了解常见处理器（X86、ARM等）、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验，通过对Linux内核的优化，开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强，善于学习，有较强的自我驱动，具有独立分析并解决问题的能力。
博士后专项-高性能计算博士后
[北京·西北旺] 2023-08-31

35k-45k·13薪经验不限 / 博士

网易

移动互联网,教育 / 上市公司 / 500-2000人

高性能计算博士后研究方向： 1、开展高性能计算和AI交差课题相关研究； 2、大规模分布式训练性能优化，如高质量高性能的优化器； 3、AI神经网络研究，设计低计算量高质量的神经网络； 4、鼓励发表高水平研究成果。职位要求： 1、年龄在35周岁以下，获得博士学位不超过三年（含应届），计算机及其他相关理工类专业；； 2、熟悉ARM64、X86、GPU、NPU体系结构； 3、熟悉并行编程框架(MPI/OpenMP/CUDA/OpenCL等)，有高性能计算开发、调优、算法设计开发经验者优先； 4、熟悉PyTorch、TensorFlow等框架，对训练框架做过深度优化者优先； 5、有较强的独立科研能力与团队合作能力，以**作者在相关领域发表过高水平论文。
高性能计算工程师（AIGC方向）
[深圳·西丽] 2023-06-26

35k-65k·16薪经验不限 / 本科

虎牙科技

社交,游戏 / 上市公司 / 2000人以上

【岗位职责】 1.参与深度学习推理引擎持续迭代优化，编译优化和工程化 2.负责各种图像处理算法、数学运算在计算设备上的高性能实现 3.分析算法落地的性能瓶颈，设计合理且高效的优化方案，推动算法落地【任职需求】 1.精通c/c++，精通算法与数据结构 2.熟悉计算机体系结构，具备良好的并行计算基础 3.熟悉至少一种深度学习推理框架如TensorRT/TVM/TF（不限于），熟悉计算加速库如BLAS、Eigen等 4.熟悉计算图优化，及量化、裁剪、蒸馏等模型优化的优先加分项有并行加速经验及熟悉Cuda者优先有高性能计算性能指标超越同类竞标对象优化经验优先有Transformer架构模型推理优化经验者优先 base地：广州/深圳
高性能计算工程师
[深圳·科技园] 2023-05-11

25k-50k 经验3-5年 / 本科

其域创新

IT技术服务｜咨询,人工智能服务 / 天使轮 / 50-150人

工作职责： 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现，例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术，致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发，大规模矩阵求解，优化问题等。职位要求： 1. 计算机、电子、通信专业，硕士及以上学历。 2. 精通C++语言，具有3年及以上的linux环境下C/C++多线程和多进程开发经验，熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构，了解常见处理器（X86、ARM等）、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验，通过对Linux内核的优化，开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强，善于学习，有较强的自我驱动，具有独立分析并解决问题的能力。
高性能计算工程师
[广州·番禺区] 2023-03-27

30k-60k·16薪经验5-10年 / 本科

虎牙科技

社交,游戏 / 上市公司 / 2000人以上

岗位职责 1.参与深度学习推理引擎持续迭代优化，编译优化和工程化 2.负责各种图像处理算法、数学运算在不同计算设备上的高性能实现 3.分析算法落地的性能瓶颈，设计合理且高效的优化方案，推动算法落地任职需求 1.精通c/c++，精通算法与数据结构 2.熟悉计算机体系结构，具备良好的并行计算基础 3.熟悉至少一种深度学习推理框架或高性能计算库：NCNN、MNN、TNN、TensorRT、TFLite、BLAS、Eigen等 4.熟悉模型定点量化、稀疏化、裁剪、知识蒸馏、NAS等模型优化的优先加分项 1.有NEON、SSE、AVX、GPU、NPU并行加速经验者优先 2.有高性能计算性能指标超越同类竞标对象优化经验优先 3.有深度学习编译器开发经验优先：TVM、XLA等
分布式高性能计算研究员（工作地点杭州）
[上海·黄浦区] 2022-11-03

14k-20k 经验在校/应届 / 硕士

之江实验室

智能硬件 / 不需要融资 / 2000人以上

工作地点杭州之江实验室新园区职责描述： 1. 大规模分布式深度学习模型训练平台搭建及优化； 2. 分布式深度学习训练算法设计及实现，包括large batchsize generalization, 分布式梯度融合算法实现及优化； 3. 高性能计算集群任务调度系统，MPI集群通信优化， RDMA通信优化；任职要求： 1. 有良好的计算机基础，计算机或相关专业本科以上学历，良好的英语资料阅读能力； 2. 熟悉MPI，NCCL, RDMA优化者优先； 3. 有高并发、高可用分布式系统优化经验者优先，有分布式机器学习系统优化经验者优先，有高性能存储系统优化经验者优先； 4. 有深度学习相关经验，有RNN，CNN模型训练经验，熟悉常用的深度学习软件（如Tensorflow，pyTorch等）者优先； 5. 在相关方向知名国际会议发表过论文者优先，参加过深度学习相关比赛经验者优先；
高性能计算研发工程师（工作地点杭州）
[广州·大沙] 2022-11-03

14k-20k 经验在校/应届 / 硕士

之江实验室

智能硬件 / 不需要融资 / 2000人以上

工作地点杭州之江实验室新园区工作职责： 1. 参与高性能计算平台的搭建、开发和优化。 2. 参与HPC建设的相关技术研究、设计和实现，例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术，致力于GPU或其他异构硬件的高性能系统开发。职位要求： 1. 计算机、电子、通信专业，硕士及以上学历。 2. 精通C++语言，具有3年及以上的linux环境下C/C++多线程和多进程开发经验，熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构，了解常见处理器（X86、ARM等）、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验，通过对Linux内核的优化，开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验，能够基于相关GPU框架（Tensorflow、Pytorch）进行性能或通信上的优化，以提升相关系统在海量金融数据（TB级）下的高速传输和计算。 6. 具有优秀的团队沟通和协作能力、责任心强，善于学习，有较强的自我驱动，具有独立分析并解决问题的能力。
高性能计算工程师
[北京·燕莎] 2025-07-12

5k-10k 经验不限 / 本科

大寒智能

企业服务,人工智能,金融 / 不需要融资 / 少于15人

岗位职责： linux后台程序高性能开发。领域为金融市场交易。要求： 1）精通c++, 深入理解linux系统原理； 2) 具备性能优化实战经验 3) 熟悉多线程编程 4) 高性能计算所背景优先。
高性能计算工程师
[成都·郫都区] 2023-09-20

10k-20k 经验不限 / 硕士

天玑算

教育,企业服务,工具 / 未融资 / 50-150人

岗位职责】 1. 具备一定的计算经验，有过Gaussian、VASP、MS、gromacs、comsol等计算化学或者有限元模拟软件的使用经验； 2. 对于计算知识具有一定的了解和储备，了解基本的计算分类，计算流程，注意事项，常见问题等； 3. 自己有过计算项目发表的文章，可以是自己的，也可以是和他人合作的； 4. 对于科研前沿敏感，能较快速地了解科研热门； 5. 具有较好的英文基础，能够快速阅读英文文献； 6. 具有较好的沟通能力、解决问题的能力、学习和总结能力，以及较好的抗压能力，硕士学历。【岗位条件】 1.计算化学方向硕士及以上学历，或者生化环材专业等相关专业但有较丰富的计算经验的硕士及以上学历。 2.发表过不低于1篇SCI文章，有TOP文章优先。参与过多个模拟计算项目。 3.擅长VASP，MS，Gaussian，gromacs，Lammps，Amber，COMSOL等其中至少2款软件的使用，并能够触类旁通地了解其他软件的优缺点。 4.熟练使用超算，服务器，能够进行熟练的脚本编辑及服务器维护。 5. 具有较强的基本化学知识基础或者较强的机械、工艺等相关知识。 6. 具备较强的自我驱动的学习能力。