建设AI开发管理平台
不低于3年智算领域的研发经历
• 【网络方向】知识技能:
• 1. 熟悉GPU或相关AI加速芯片,有实际的开发和优化经验。
• 2. 熟悉高性能传输协议、RDMA、智能网卡等软硬件结合技术,对数据中心网络协议设计/拥塞控制/集合通信库/集群调优有相关经验。
• 3. 熟悉高性能网络端侧和网侧监控运维技术,结合训练框架等提供故障诊断等运维能力。
• 4. 熟悉主流深度学习框架(例如PyTorch),了解多种并行技术原理,在模型训练或推理性能优化方面有实操经验。
• 5. 了解主流大模型的结构与执行细节,了解相关的推理性能优化技术。
• 【计算方向】知识技能:
• 1. 熟悉k8s资源供给/运维管理等基本原理,有实际的开发经验。
• 2. 熟悉主流深度学习框架,机器学习作业平台(Azure OpenAI Studio,阿里云Pai等),了解机器学习作业调度基本原理。
• 3. 熟悉Go和Python编程语言,具备良好的模块化设计能力和面向对象编程思想,熟悉前后端分离的web服务开发模式,能够设计和实现高效的接口,具备接口文档编写能力,并熟悉API测试工具如Postman。
• 4. 了解裸金属服务器自动化管理平台产品化能力,有OpenStack等裸金属运维管理产品相关经验者优先。
• 5. 有操作系统,网络等软硬件结合技术相关经验者优先。
• 【存储方向】知识技能:
• 1. 具备扎实的代码工程能力,熟练掌握一种或多种编程语言 (C、C++、Python、JAVA、Go)
• 2. 熟悉主流高性能并行文件系统 GPFS,Lustre,有相关开发经验者优先。
• 3. 熟悉主流深度学习框架(例如PyTorch),并对底层实现有一定了解,在模型训练或推理性能优化方面有实操经验。
• 4.了解主流大模型的结构与执行细节,了解相关的推理性能优化技术。
• 具备模块/组件级别独立研发能力,对于智算领域(计算/存储/网络/安全)任一方向有实际产品研发经历
• 对于云计算技术很熟悉,具备跨产品分析解决问题的能力
拉勾安全提示