-
职位职责: 1、参与面向企业服务的大规模分布式存储产品的设计和开发,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可用性、可扩展性、可维护性等; 3、深入理解业务场景的存储需求,针对性的为不同业务场景提供最合适的存储方案。 职位要求: 1、熟悉分布式存储系统的实现原理,具有相关工作经验; 2、熟悉C/C++/Go/Python中至少一种,对工程质量有很高的自我要求; 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解; 4、熟悉对象存储、块存储、文件存储中的一种或多种者优先; 5、对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
-
职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系,跟踪和探索面向大模型的分布式优化技术新趋势; 2. 负责组织进行软件的设计和开发,对多GPU(同一节点和跨网络多节点)通信性能优化; 职位要求 1. 研究生及以上学历,计算机/电子相关专业优先,5年(博士3年)以上分布式系统优化经验; 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架,具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库(NCCL,UCX, etc.)和经验者优先; 3. 具备芯片互联和网络传输编程相关知识,例如RDMA,PCIE Peer2Peer, GPU Direct等经验者优先; 4. 熟练掌握深度学习分布式优化方法,有大模型训练和推理优化经验者优先; 5. 统筹协调能力强,有大型系统开发团队管理经验优先。
-
职位描述 1. 负责大模型分布式系统和多GPU优化系统研发,探索面向大模型的分布式优化新技术; 2. 负责分布式系统软件的设计和开发,提升多GPU(同一节点和跨网络多节点)高性能网络通信性能; 职位要求 1、本科及以上学历,计算机/电子相关专业优先,至少2年分布式、通信系统优化经验; 2、熟练掌握C、C++、Go等一种或多种编程语言,熟悉计算机体系架构、分布式并行计算和异构计算框架; 3、熟悉OpenMPI, OpenSHEM, MPICH,NCCL,UCX等一种或多种分布式通信软件者优先; 4、了解RDMA,PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先; 5、了解常见的深度学习分布式优化方法者优先;
-
岗位职责: 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作; 2、实施项目成本控制; 3、配合技术部门完成项目技术方案设计,与客户进行前期沟通工作; 4、独立完成现场与项目方相关部门、监理的协调工作;严格实施公司关于现场管理的相关规定,做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理 任职要求: 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺,能独立进行现场施工操作、指导; 2、能够对工前、过程、验收及现场进行有效的组织和实施,并可进行技术指导;3、 能够独立进行工程项目的管理和实施,有较强的现场组织、沟通和协调能力;4、 责任心强,有团队合作精神; 5、 具备相关项目的管理经验,有地面电站、渔光互补电站项目管理经验者优先;有三年以上相关工作经验或相关执业资格证书(一建、二建)者优先。
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
云存储/分布式存储研发工程师 岗位职责: 1、负责分布式存储平台的研发建设工作,包括对象存储/块存储/文件存储等系统的开发、优化; 2、持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求; 3、负责部分运维任务,高效定位,分析和解决线上问题; 岗位要求: 1、重点本科及以上学历,计算机相关专业; 2、2年及以上云存储相关工作经验; 3、熟练掌握GO/JAVA等语言进行开发(至少熟练掌握一种); 4、有扎实的算法基础,能灵活应用各种常见的数据结构; 5、熟悉操作系统原理、Linux IO性能调优方法; 6、熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7、熟悉一业界主流分布式存储产品,如AWS-S3、CEPH,HDFS,HBASE等; 8、有对象存储,块存储,NOSQL存储或其他大规模
-
plan1956-大规模分布式机器学习系统工程师
[北京·北下关] 2023-07-1770k-80k 经验在校/应届 / 硕士人工智能服务,IT技术服务|咨询 / D轮及以上 / 500-2000人工作职责: 1.设计并实现创新的机器学习解决方案,并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构,深入主流的机器学习框架,对框架进行调整、改进和优化。 3.研究核心技术突破点,在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责,分析并深入发现系统风险点,提高系统服务在各种风险下的容错能力。 任职要求: 1.有比较扎实的计算机理论基础,熟练使用C/C++编程,对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力,有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力,良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱,并对新技术持有敏感性并愿意致力于新技术的探索和研究,对解决具有挑战性问题充满激情。 加分项: 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种,社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验,如CUDA,OpenCL,OpenMP,MPI等,并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验,例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解,并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态,在社区有过相关代码贡献者优先。 工作地点:北京、上海、深圳、新加坡; -
工作职责 1.参与主流机器学习框架与摩尔线程软硬件栈的对接,模型优化和部署; 2.参与机器学习单GPU以及分布式训练技术的研究与实现,如各种并行与异构计算技术的设计、开发以及与性能优化; 3.参与研究并实现适合摩尔线程自研GPU的模型优化和压缩方法。 任职资格 1.熟悉Linux开发环境,精通C++和Python,具备良好扎实的算法基础、良好的编程风格和系统设计能力; 2.深入理解典型的深度学习算法(如CV和NLP模型),主流深度框架(如TensorFlow、PyTorch、MxNet、Caffe、PaddlePaddle等)开发或优化经验; 3.或有深度学习编译器(如XLA、TVM、Glow、NGraph)等软件栈的开发经验; 4.精通分布式训练技术,有参数服务器、多维并行、显存交换等技术的深入研究与开发者可优先考虑; 5.有机器学习模型性能调优和模型压缩(量化、剪枝、蒸馏、NAS等)经验者可优先考虑; 6.精通并行计算通信库(如MPI),有丰富的CUDA并行编程和典型机器学习算子开发经验者可优先考虑; 7.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力。
-
工作职责 1.参与主流机器学习框架与摩尔线程软硬件栈的对接,模型优化和部署; 2.参与机器学习单GPU以及分布式训练技术的研究与实现,如各种并行与异构计算技术的设计、开发以及与性能优化; 3.参与研究并实现适合摩尔线程自研GPU的模型优化和压缩方法。 任职资格 1.熟悉Linux开发环境,精通C++和Python,具备良好扎实的算法基础、良好的编程风格和系统设计能力; 2.深入理解典型的深度学习算法(如CV和NLP模型),主流深度框架(如TensorFlow、PyTorch、MxNet、Caffe、PaddlePaddle等)开发或优化经验; 3.或有深度学习编译器(如XLA、TVM、Glow、NGraph)等软件栈的开发经验; 4.精通分布式训练技术,有参数服务器、多维并行、显存交换等技术的深入研究与开发者可优先考虑; 5.有机器学习模型性能调优和模型压缩(量化、剪枝、蒸馏、NAS等)经验者可优先考虑; 6.精通并行计算通信库(如MPI),有丰富的CUDA并行编程和典型机器学习算子开发经验者可优先考虑; 7.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力。
-
岗位职责: 1. 参与自研分布式文件存储产品架构设计 2. 负责自研分布式文件存储产品特性功能实现以及性能优化 任职要求: 1. *****本科及以上学历,计算机、通信、电子等相关专业 2. 扎实的Linux C/C++编程能力,良好的编码习惯,精通数据结构、算法和常用编程模型 3. 2年及以上的文件存储产品领域开发经验,有文件存储架构设计经验者优先 4. 熟悉分布式文件元数据架构和原理,熟悉文件存储高级特性实现原理,如配额,快照,QoS,多租户,文件/对象无损互通 5. 熟悉GlusterFS/Lustre/Ceph等分布式文件存储系统的任意一种优先 6. 熟悉NFS/SMB等文件协议者优先 7. 具有较强的英文阅读能力
-
【岗位职责】 1、负责分布式系统核心产品关键技术的研究,确保产品领先业界竞争力。 2、负责新一代分布式All-Flash存储引擎设计开发,关键技术点突破,可靠性设计,全栈性能优化,提升产品竞争力。 3、负责AI分布式文件系统设计开发,深度探索剖析AI业务场景瓶颈,基于DevOps流程端到端交付特性,参与项目的全生命周期管理。 4、负责多并发任务调度系统架构设计和开发,优化openstack卷管理调度性能问题,对接瑶光架构技术开发项目,实现更优的性能云资源服务。 【岗位要求】 1、***本科及以上学历,有大规模系统开发经验优先。 2、掌握c/c++/java/python语言的一种或多种,熟悉linux系统。 3、熟悉分布式存储/云计算/虚拟化等关键技术,具有实际项目经验者优先。 4、熟悉openstack开源项目,对数据中心资源调度有研究背景优先。 5、对新技术充满求知欲,乐于团队合作和技术分享。
-
岗位职责 1.从事分布式大数据/文件/对象存储系统的测试和开发; 2.实现公有云/私有云分布式文件/对象/块存储服务的高性能、高可靠性、高可用目标。 岗位要求 1.掌握C/C++/Java/go/Python/JS等一种或多种编程语言,熟悉Linux相关知识,对基本数据结构和算法有一定的了解; 2.有存储、分布式、文件系统、容器领域、Linux内核、AI以及大数据开发经验者优先; 3.具备良好的解决问题能力,逻辑思维能力,善于沟通与合作; 4.干工作认真负责,能承受一定工作,具备良好的团队协作与沟通交流意识。
-
分布式数据平台开发工程师
[杭州·萧山区] 2023-01-1220k-40k·15薪 经验在校/应届 / 硕士软件服务|咨询,数据服务|咨询,IT技术服务|咨询 / 未融资 / 150-500人岗位职责: 1、设计并实施灵活可扩展的支持数据建模、数据治理、数据质量、数据分析和优化的支持企业和产业数字化的数据架构; 2、设计并实施基于支持企业和产业数字化的数据架构并灵活集成统计、运筹和机器学习算法的数据平台; 2、负责数据平台的研发和迭代升级,持续提升平台稳定性,优化改进分布式存储、计算系统性能; 4、推动新型分布式高性能数据存储、计算、传输和访问技术在企业和产业数字化的落地应用。 任职要求: 1、硕士及以上学历,计算机基础扎实。熟悉计算机网络、Linux操作系统、分布式存储、算法和系统相关知识; 2、熟练掌握java、Scala、Go、C++编程语言的一种或多种,具备良好Coding技能和优雅的代码规范; 3、有过Apache开源生态分布式系统经验者优先,学习了解过Spark/Flink/Presto/Impala/Hadoop/HBase/Cassandra/GraphDB一种或多种引擎,有源码阅读或修改者优先; 4、强烈的上进心和求知欲,较强的学习能力和沟通能力,具备良好的团队合作精神。 加分项: 1、计算机领域相关的编程大赛获奖、专业期刊发表文章或者有发明专利等; 2、具备数据云平台、计算存储平台、可视化开发平台经验; 3、具备专业领域的计算机知识和技能: Alluxio/Hive/Hbase/RocksDB/Kafka/JanusGraph/GraphQL等。 4、对知识图谱、数据搜索、分布式算法、关系型数据库内核和优化、非关系型数据库内核和优化、云计算等技术有一定研究者优先。 -
岗位职责 1. 负责⾼性能分布式图数据库(Graph Database)内核的设计与研发 2. 对分布式存储引擎、分布式查询引擎进⾏迭代,优化万亿级规模图数据的存储和查询性能 3. 追踪图数据库前沿技术,在实际场景中灵活运⽤并实现创新 岗位要求 1. 本科及以上学历,计算机相关专业,专业基础扎实,学习能⼒强 2. 精通Java编程语⾔,精通JVM性能调优 3. 精通数据库原理,熟悉分布式数据库体系结构 4. 熟悉Linux操作系统,对系统性能、存储、⽹络、多线程等⽅⾯有较深理解 5. 了解图数据库和图算法,有图场景相关开发经验者优先 6.需通过两轮笔试,2-3轮面试