-
职位职责: 1、参与面向企业服务的大规模分布式文件存储产品的设计和开发,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可扩展性、可维护性等; 3、深入理解业务场景的存储需求,针对性的为不同业务场景提供最合适的存储方案。 职位要求: 1、熟悉分布式存储系统的实现原理,具有计算机相关工作经验; 2、熟悉Go/Python/C/C++中至少一种,对工程质量有很高的自我要求; 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解; 4、熟悉文件存储、块存储、对象存储中的一种或多种者优先; 5、对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
-
云存储/分布式存储研发工程师 岗位职责: 1、负责分布式存储平台的研发建设工作,包括对象存储/块存储/文件存储等系统的开发、优化; 2、持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求; 3、负责部分运维任务,高效定位,分析和解决线上问题; 岗位要求: 1、重点本科及以上学历,计算机相关专业; 2、2年及以上云存储相关工作经验; 3、熟练掌握GO/JAVA等语言进行开发(至少熟练掌握一种); 4、有扎实的算法基础,能灵活应用各种常见的数据结构; 5、熟悉操作系统原理、Linux IO性能调优方法; 6、熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7、熟悉一业界主流分布式存储产品,如AWS-S3、CEPH,HDFS,HBASE等; 8、有对象存储,块存储,NOSQL存储或其他大规模
-
plan1956-大规模分布式机器学习系统工程师
[北京·北下关] 2023-07-1770k-80k 经验在校/应届 / 硕士人工智能服务,IT技术服务|咨询 / D轮及以上 / 500-2000人工作职责: 1.设计并实现创新的机器学习解决方案,并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构,深入主流的机器学习框架,对框架进行调整、改进和优化。 3.研究核心技术突破点,在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责,分析并深入发现系统风险点,提高系统服务在各种风险下的容错能力。 任职要求: 1.有比较扎实的计算机理论基础,熟练使用C/C++编程,对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力,有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力,良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱,并对新技术持有敏感性并愿意致力于新技术的探索和研究,对解决具有挑战性问题充满激情。 加分项: 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种,社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验,如CUDA,OpenCL,OpenMP,MPI等,并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验,例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解,并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态,在社区有过相关代码贡献者优先。 工作地点:北京、上海、深圳、新加坡; -
AI领航员:分布式存储系统开发工程师
[北京·海淀区] 2022-12-2920k-40k·15薪 经验在校/应届 / 本科人工智能服务,IT技术服务|咨询 / 上市公司 / 2000人以上岗位职责: 参与AI IaaS新一代存储系统的开发。 任职要求: 1、计算机或相关专业,本科及以上学历,熟悉计算机体系结构, 理解硬件的工作原理; 2、有扎实的 C/C++ 或者 Rust 编程功底 3、熟悉多进程、线程和异步编程,算法与数据结构知识扎实; 4、有良好的学习和团队协作能力,热爱编程,乐于接受挑战 5、对编写高性能和高可靠的系统软件有狂热精神和偏执的追求 -
岗位职责: 1、深刻理解存储行业,梳理产品定位和核心信息,关注市场竞争态势,负责分布式存储产品规划。 2、负责构建并持续优化大规模分布式存储系统,包括整体架构设计、核心组件选型、基础架构搭建、高性能设计等。 3、负责主导分布式存储产品技术方案设计,保持产品竞争力和技术前沿性。 4、负责云存储产品架构设计及优化,牵头云存储产品技术演进,支撑云存储产品能力提升。 任职要求: 技能需求: 1、本科及以上学历,10年及以上存储相关工作经验,5年及以上分布式存储系统架构工作经验。 2、具备大规模分布式系统(如存储、搜索引擎、数据库、NoSQL、CDN、容器、分布式计算等)开发实践经验。 3、具备行业洞察能力,能够通过行业发展总结行业关键进展和需求,对多个行业如金融,政府,互联网等的客户特征,决策流程等有一定认知。 4、具备良好的逻辑思维及沟通能力,自驱、主动、有团队合作意识。 5、曾在阿里云、腾讯云、华为云、AWS、百度云、金山云、火山引擎从事分布式存储相关工作者优先。
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
-
岗位职责: 1. 参与自研分布式文件存储产品架构设计 2. 负责自研分布式文件存储产品特性功能实现以及性能优化 任职要求: 1. *****本科及以上学历,计算机、通信、电子等相关专业 2. 扎实的Linux C/C++编程能力,良好的编码习惯,精通数据结构、算法和常用编程模型 3. 2年及以上的文件存储产品领域开发经验,有文件存储架构设计经验者优先 4. 熟悉分布式文件元数据架构和原理,熟悉文件存储高级特性实现原理,如配额,快照,QoS,多租户,文件/对象无损互通 5. 熟悉GlusterFS/Lustre/Ceph等分布式文件存储系统的任意一种优先 6. 熟悉NFS/SMB等文件协议者优先 7. 具有较强的英文阅读能力
-
【岗位职责】 1、负责分布式系统核心产品关键技术的研究,确保产品领先业界竞争力。 2、负责新一代分布式All-Flash存储引擎设计开发,关键技术点突破,可靠性设计,全栈性能优化,提升产品竞争力。 3、负责AI分布式文件系统设计开发,深度探索剖析AI业务场景瓶颈,基于DevOps流程端到端交付特性,参与项目的全生命周期管理。 4、负责多并发任务调度系统架构设计和开发,优化openstack卷管理调度性能问题,对接瑶光架构技术开发项目,实现更优的性能云资源服务。 【岗位要求】 1、***本科及以上学历,有大规模系统开发经验优先。 2、掌握c/c++/java/python语言的一种或多种,熟悉linux系统。 3、熟悉分布式存储/云计算/虚拟化等关键技术,具有实际项目经验者优先。 4、熟悉openstack开源项目,对数据中心资源调度有研究背景优先。 5、对新技术充满求知欲,乐于团队合作和技术分享。
-
岗位职责 1.从事分布式大数据/文件/对象存储系统的测试和开发; 2.实现公有云/私有云分布式文件/对象/块存储服务的高性能、高可靠性、高可用目标。 岗位要求 1.掌握C/C++/Java/go/Python/JS等一种或多种编程语言,熟悉Linux相关知识,对基本数据结构和算法有一定的了解; 2.有存储、分布式、文件系统、容器领域、Linux内核、AI以及大数据开发经验者优先; 3.具备良好的解决问题能力,逻辑思维能力,善于沟通与合作; 4.干工作认真负责,能承受一定工作,具备良好的团队协作与沟通交流意识。
-
工作地点杭州之江实验室新园区 职责描述: 1. 大规模分布式深度学习模型训练平台搭建及优化; 2. 分布式深度学习训练算法设计及实现,包括large batchsize generalization, 分布式梯度融合算法实现及优化; 3. 高性能计算集群任务调度系统,MPI集群通信优化, RDMA通信优化; 任职要求: 1. 有良好的计算机基础,计算机或相关专业本科以上学历,良好的英语资料阅读能力; 2. 熟悉MPI,NCCL, RDMA优化者优先; 3. 有高并发、高可用分布式系统优化经验者优先,有分布式机器学习系统优化经验者优先,有高性能存储系统优化经验者优先; 4. 有深度学习相关经验,有RNN,CNN模型训练经验,熟悉常用的深度学习软件(如Tensorflow,pyTorch等)者优先; 5. 在相关方向知名国际会议发表过论文者优先,参加过深度学习相关比赛经验者优先;
-
区块链应用开发工程师 Innovation Engineer (Blockchain) -工作职责: 1. 负责Web3及区块链应用系统的设计、开发、测试和演进 2. 设计高性能、高可靠服务;建立快速、稳定、安全的后端代码 3. 研究区块链和Web3前沿技术 4. 保证工程质量和开发交付效率 -岗位要求: 1. 计算机相关专业本科以上学历 2. 两年以上大规模系统软件开发经验(如数据库系统、存储系统、或其它分布式中间件系统等) 3. 熟练掌握GO、C++、RUST等一门或多门编程语言 4. 具有微服务框架、云原生、RPC框架、API网关、数据层、性能优化等相关技术经验者优先 5. 英文读写熟练,口语能简单交流,参加日常的海外会议
-
职位描述: 作为Alluxio的分布式系统工程师,你将负责构建Alluxio(原名为Tachyon)系统。这项工作解决了分布式系统中最具挑战性的问题,包括在大规模云环境中构建缓存策略,优化并发和锁定机制,构建高可用性分布式系统。 职位要求: 1.计算机科学,或者相关专业,本科及以上学历,硕士或者博士优先; 2.具有一种或多种通用编程语言的软件开发经验,包括但不限于Java、C++和Go; 3.熟悉分布式系统原理、RPC以及消息中间件原理。具备大规模后台开发经验; 4.熟悉常用的数据结构与算法,对设计模式、软件工程等有较深入的理解; 5.具备良好的学习能力和分析解决问题的能力,具备激情,和良好的沟通能力,高度责任心和团队合作精神; 加分项: 1.良好的英语听说读写能力; 2.有参与开源社区开发经验: 3.有Alluxio,HDFS,Spark,Presto,Impala,Ceph,Kubernetes等分布式系统开发或深度使用经验; 4.熟悉Java语言和面向对象设计开发,熟悉多线程程序开发,对多线程技术、异步、并发有较深入理解。
-
关于我们 加入阿里云飞天企业版团队,您将参与构建面向云原生、DevOps、IoT、AIOps、时序存储与安全分析的企业级大数据服务,并参与面向 AI 的智能化能力落地。在国内最大规模的云平台上,解决真实且复杂的工程问题,成长与影响力并重。 参与企业级大数据产品的核心分布式架构设计与性能优化; 推动微服务平滑拆分与弹性扩缩容,提升系统自愈能力与可观测性; 深度结合安全、容灾与自动化运维,保障企业级服务的合规与可靠性; 有机会将前沿云计算与 AI 能力快速落地,参与产品长期演进规划。 ========= 负责飞天企业版大数据类产品的分布式系统开发与架构演进,推动微服务化与弹性扩缩容方案落地。 优化系统性能与资源使用(内存/CPU),设计退避、限流、熔断等容错与自愈机制。 主导或参与底层库与中间件的调优、代码重构与可测试性改进,提升系统可维护性。 构建与完善漏洞自动化修复、容灾恢复流程,支持企业级特殊服务/数据场景。 与产品、运维、测试等团队协同,推动线上演进、容量规划与可靠性保障。 岗位要求 熟练掌握 C++/Python/Go/Java 中至少一种,具备良好的编码规范与单元测试习惯;熟悉代码重构与常用设计模式。 三年以上分布式系统开发经验,有公有云/私有云相关项目经验优先。 了解编程语言演进与 Core Guidelines(如 C++ Core Guidelines)者优先。 熟悉 Folly、Abseil、ElasticSearch、ClickHouse、Kafka 等大数据基础开源组件,能阅读源码并有社区贡献或提交者优先。 熟悉 Kubernetes 等容器编排/分布式管控系统;使用过 Azure Stack、AWS Outposts 等专有云/混合云解决方案者更佳。 学习能力强,对云计算前沿技术充满热情,能将新技术快速工程化并在产品迭代中做出合理权衡与规划。
-
大规模高并发管控系统开发专家/高级专家
[北京·望京] 2025-03-0325k-50k·16薪 经验5-10年 / 本科电商 / 上市公司 / 2000人以上DNS服务是互联网技术服务的空气和水,没有它互联网将停止运转。阿里DNS团队隶属阿里巴巴云智能事业群,是亚洲最大的DNS厂商,每天访问量超过7000亿,全球数十个机房,数千台机器的部署规模,基于云计算丰富的上下游场景,依托IT资源强大的交付生态圈,团队一直在拓展应用寻址和调度服务边界,并致力于新技术场景下的下一次标识寻址服务的探索。 在这里,您将学习和创建全球最大的网络接入服务; 在这里,您将亲历技术是如何解决客户问题并给世界带来美好; 在这里,您将和世界**同行一起碰撞应用接入和运转的方式; 2020,标识寻址和调度服务正处于机遇期,我们在北京/杭州期待您的加入; 职位描述 1、开发并维护标识寻址调度数据管控系统,管理规模化分布在全球的集群服务; 2、为业务中台服务,在全球超大规模场景下,保障其HA,在严格的数据一致性要求下,对数据分发的性能及数据一致性负责; 3、参与管控架构的技术演进,稳定的兼容各类商业化场景技术要求; 能力要求 1、5年以上分布式、高并发、高负载、高可用性系统设计和维护的实施经验; 2、熟悉Python,缓存技术、消息系统等关键中间件技术,经历过平台型技术重构和演进者优先; 3、对至少一种关系型如MySQL有丰富的使用经验,熟悉TCP/IP网络和Linux;


