-
职位职责: 1、核心研发工作: 1)负责集合通信库(CCL)设计、开发与优化,支持多卡/多机场景下的高性能通信; 2)基于RDMA和Scale-up等互联技术,研发高速通信库及相关工具; 3)探索通信与计算的协同优化,设计通信算子与计算算子的融合方案; 2、性能优化与问题解决: 1)分析并优化AI集群中单机内/多机间的集合通信性能(如AllReduce、All2All等),突破软硬件性能瓶颈; 2)解决分布式训练/推理场景中的通信问题,适配复杂应用场景需求; 3)利用Triton等工具开发高性能通信计算融合算子,优化端到端通信延迟; 3、技术协作与生态建设: 1)与训练、推理、自研软硬件等团队协作,优化AI模型通信效率,支撑整体系统性能提升; 2)洞察集合通信技术趋势,推动自研通信库的架构演进与生态适配。 职位要求: 1、本科及以上,计算机、电子工程相关专业; 2、扎实的分布式系统知识,熟悉大规模AI集群架构、网络通信原理及RDMA技术; 3、熟悉常见集合通信算法(如Ring、Tree、Halving-Doubling),了解集合通信库(NCCL等)实现原理; 4、具备复杂问题分析能力,能独立完成性能调优与故障排查。
-
职位职责: 1、核心研发工作: 1)负责集合通信库(CCL)设计、开发与优化,支持多卡/多机场景下的高性能通信; 2)基于RDMA和Scale-up等互联技术,研发高速通信库及相关工具; 3)探索通信与计算的协同优化,设计通信算子与计算算子的融合方案; 2、性能优化与问题解决: 1)分析并优化AI集群中单机内/多机间的集合通信性能(如AllReduce、All2All等),突破软硬件性能瓶颈; 2)解决分布式训练/推理场景中的通信问题,适配复杂应用场景需求; 3)利用Triton等工具开发高性能通信计算融合算子,优化端到端通信延迟; 3、技术协作与生态建设: 1)与训练、推理、自研软硬件等团队协作,优化AI模型通信效率,支撑整体系统性能提升; 2)洞察集合通信技术趋势,推动自研通信库的架构演进与生态适配。 职位要求: 1、本科及以上,计算机、电子工程相关专业; 2、扎实的分布式系统知识,熟悉大规模AI集群架构、网络通信原理及RDMA技术; 3、熟悉常见集合通信算法(如Ring、Tree、Halving-Doubling),了解集合通信库(NCCL等)实现原理; 4、具备复杂问题分析能力,能独立完成性能调优与故障排查。
-
工作职责: 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发,大规模矩阵求解,优化问题等。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。 具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
-
工作职责: 1. 参与公司高性能计算算法平台的搭建、开发和优化。 2. 参与公司HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 4. 参与公司高性能分布式算法库的开发,大规模矩阵求解,优化问题等。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。 具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验优先。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
-
岗位职责 1.参与深度学习推理引擎持续迭代优化,编译优化和工程化 2.负责各种图像处理算法、数学运算在不同计算设备上的高性能实现 3.分析算法落地的性能瓶颈,设计合理且高效的优化方案,推动算法落地 任职需求 1.精通c/c++,精通算法与数据结构 2.熟悉计算机体系结构,具备良好的并行计算基础 3.熟悉至少一种深度学习推理框架或高性能计算库:NCNN、MNN、TNN、TensorRT、TFLite、BLAS、Eigen等 4.熟悉模型定点量化、稀疏化、裁剪、知识蒸馏、NAS等模型优化的优先 加分项 1.有NEON、SSE、AVX、GPU、NPU并行加速经验者优先 2.有高性能计算性能指标超越同类竞标对象优化经验优先 3.有深度学习编译器开发经验优先:TVM、XLA等
-
岗位职责: linux后台程序高性能开发。领域为金融市场交易。 要求: 1)精通c++, 深入理解linux系统原理; 2) 具备性能优化实战经验 3) 熟悉多线程编程 4) 高性能计算所背景优先。
-
岗位职责】 1. 具备一定的计算经验,有过Gaussian、VASP、MS、gromacs、comsol等计算化学或者有限元模拟软件的使用经验; 2. 对于计算知识具有一定的了解和储备,了解基本的计算分类,计算流程,注意事项,常见问题等; 3. 自己有过计算项目发表的文章,可以是自己的,也可以是和他人合作的; 4. 对于科研前沿敏感,能较快速地了解科研热门; 5. 具有较好的英文基础,能够快速阅读英文文献; 6. 具有较好的沟通能力、解决问题的能力、学习和总结能力,以及较好的抗压能力,硕士学历。 【岗位条件】 1.计算化学方向硕士及以上学历,或者生化环材专业等相关专业但有较丰富的计算经验的硕士及以上学历。 2.发表过不低于1篇SCI文章,有TOP文章优先。参与过多个模拟计算项目。 3.擅长VASP,MS,Gaussian,gromacs,Lammps,Amber,COMSOL等其中至少2款软件的使用,并能够触类旁通地了解其他软件的优缺点。 4.熟练使用超算,服务器,能够进行熟练的脚本编辑及服务器维护。 5. 具有较强的基本化学知识基础或者较强的机械、工艺等相关知识。 6. 具备较强的自我驱动的学习能力。
-
岗位职责:(部分匹配即可) 1、针对大模型推理、训练等场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 2、能够使用Profiler手段,分析训练瓶颈,使用分布式策略调优、算子优化等手段来提升训练性能; 3、提升分布式推理下模型并行(ModelParalleism)、数据并行(Data Paralelism)等场景下的性能; 4、支撑异构AI芯片上的调度框架设计与优化,提升系统的实时性、吞吐率、算力利用率等指标; 5、针对不同端侧设备的硬件特性(CPU、GPU、NPU 等)进行镜像和训推框架适配,针对特定硬件架构和推理引擎进行性能优化; 6、深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 7、探索前沿技术方向(如混合专家模型MoE、强化学习算法等),推动AI工程化落地的效率提升。 岗位要求:(部分满足即可) 1、熟练GPU的高性能计算优化技术,深入理解计算机体系结构,熟悉并行计算优化、访存优化等; 2、熟悉TensorRT-LLM、LMDeploy、vLLM、SGLang等大模型推理框架,有实际性能调优经验(如KV Cache优化、动态批处理、Attention算子定制等); 3、扎实的高性能计算基础,熟悉并行计算、内存优化、通信优化等技术; 4、至少熟练使用C++/Python/Golang中一种,具备良好的算法设计与代码实现能力; 5、熟悉Pytorch,Deepspeed等主流分布式框架的使用和原理,熟练掌握TensorFlow、PyTorch等深度学习框架; 6、了解深度学习算法基本原理,熟悉深度学习训练框架及其模型文件的解析; 7、了解通信架构原理、有分布式优化和通信优化经历者优先; 8、了解深度学习模型的量化压缩、推理加速等优化技术; 9、了解通信架构原理、有分布式优化和通信优化经历者优先。
-
职责 -负责深度学习推理引擎的优化工作,主要针对GPU、CPU以及自研语音芯片 -负责深度学习算法在多终端工程优化和落地 -负责深度学习模型训练框架的高性能计算优化工作 要求 -精通C/C++编程,编程习惯和功底扎实优秀 -对深度学习算法有一定了解,具备将复杂问题进行数学建模的意识和能力 -对高性能计算\分布式计算\异构计算\编译系统等有了解,有过mpi、gcc、gpu等开发经验加分 -了解多线程加速,DSP相关移植,单指令多数据加速,进程间通信,有过DSP的指令集以及加速方法开发经验的加分; -沟通能力和团队合作意识强,热爱挑战,踏实勤奋
-
【岗位职责】 1.参与深度学习推理引擎持续迭代优化,编译优化和工程化 2.负责各种图像处理算法、数学运算在计算设备上的高性能实现 3.分析算法落地的性能瓶颈,设计合理且高效的优化方案,推动算法落地 【任职需求】 1.精通c/c++,精通算法与数据结构 2.熟悉计算机体系结构,具备良好的并行计算基础 3.熟悉至少一种深度学习推理框架如TensorRT/TVM/TF(不限于),熟悉计算加速库如BLAS、Eigen等 4.熟悉计算图优化,及量化、裁剪、蒸馏等模型优化的优先 加分项 有并行加速经验及熟悉Cuda者优先 有高性能计算性能指标超越同类竞标对象优化经验优先 有Transformer架构模型推理优化经验者优先 base地:广州/深圳
-
工作地点杭州之江实验室新园区 工作职责: 1. 参与高性能计算平台的搭建、开发和优化。 2. 参与HPC建设的相关技术研究、设计和实现,例如并行计算、低延迟网络、并行文件系统等。 3. 研究和开发深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发。 职位要求: 1. 计算机、电子、通信专业,硕士及以上学历。 2. 精通C++语言,具有3年及以上的linux环境下C/C++多线程和多进程开发经验, 熟练掌握Linux环境下C++网络编程技术。具有linux环境下丰富的代码调试经验。 3. 熟练掌握计算机系统相关原理和结构,了解常见处理器(X86、ARM等)、缓存、传输总线、存储介质的基础知识。 4. 具有OpenMP、MPI、RDMA等高性能计算相关技术的开发经验,通过对Linux内核的优化,开发出基于CPU的高性能、低延迟抖动系统。 5. 具有多年的cuda并行计算开发经验,能够基于相关GPU框架(Tensorflow、Pytorch)进行性能或通信上的优化,以提升相关系统在海量金融数据(TB级)下的高速传输和计算。 6. 具有优秀的团队沟通和协作能力、责任心强,善于学习,有较强的自我驱动,具有独立分析并解决问题的能力。
-
工作地点杭州之江实验室新园区 岗位职责: 深度学习类算法的软硬件加速方案设计及实现 任职要求: 1.硕士及以上学历,有良好的编程基础,扎实的数据结构和算法基础; 2. 熟悉至少一种深度学习框架,并具备丰富的深度学习算法GPU加速实战经验; 3. 在高性能计算、分布式机器学习等相关重要学术刊物或会议上发表过学术论文者优先; 4. 具备良好的沟通表达能力及团队合作意识。
-
工作职责 1、负责服务器存储硬件和操作系统通道软件系统的新技术及架构研究、路标规划及引入管理; 2、负责服务器和操作系统的测试与调优,提高服务器和通道软件平台的的稳定性及性能; 3、负责分析、定位及解决服务器运行中出现的各种硬件问题; 4、制定相应的技术的标准及规范; 5、持续跟踪业界领导厂商、技术发展趋势,输出必要的技术分析报告。 任职要求 1.本科以上学历,计算机或相近专业,5年以上云计算相关工作经验; 2、精通服务器硬件和操作系统技术和主流云产品,精通云产品底层硬件架构、软件功能硬件化解决方案; 3、熟悉服务器硬件系统的测试与调优、服务器硬件故障分析方法及解决方案; 4、熟悉与PC服务器关联密切的网络、存储及IDC等技术;了解云平台KVM、Docker、Ceph、Hadoop等主流应用的技术方案; 5、对行业发展趋势有敏锐的洞察力及创新意识,对新技术研究有深入的好奇心,对服务器新产品、新技术有跟踪研究能力; 6、具备互联网公司部件研究经验、服务器底层硬件研发及定制化开发经验优先考虑。
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化


