• 内容资讯,短视频 / D轮及以上 / 2000人以上
    职位职责: 1、参与面向企业服务的大规模分布式文件存储产品的设计和开发,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可扩展性、可维护性等; 3、深入理解业务场景的存储需求,针对性的为不同业务场景提供最合适的存储方案。 职位要求: 1、熟悉分布式存储系统的实现原理,具有计算机相关工作经验; 2、熟悉Go/Python/C/C++中至少一种,对工程质量有很高的自我要求; 3、对分布式存储的一致性、可靠性、高性能、成本优化等方向有深入理解; 4、熟悉文件存储、块存储、对象存储中的一种或多种者优先; 5、对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的分析问题和解决问题的能力优先。
  • 15k-30k 经验3-5年 / 本科
    企业服务,数据服务 / 上市公司 / 500-2000人
    职位描述: 1、基础组件、基础设施的二次开发、L2支撑、交付; 2、围绕大数据组件服务平台开发,围绕组件进行串联部署、功能组合/抽象,给上层数据开发人员提供组件级平台服务 3、对Hadoop、Hbase、Hive、Flink等组件/系统进行持续研究、开发和交付,满足部署、集成、扩展、监控、高可用等生产需求; 4、根据理论与技术研究、产品对标和相关需求,持续产品规划与迭代; 5、根据现场信息搜集,分析、定位和解决现场问题,承担L3支撑 职位要求: 1、计算机相关专业,本科及以上学历; 2、3年及以上hadoop生态的基础设施开发经验,熟悉国内主流大数据平台; 3、熟练掌握Java,熟悉Linux开发环境及常用工具; 4、以下优先: (1)985/211(必备条件,不符合请勿投递,谢谢) (2)深入阅读过相关组件内核源代码 (3)深入理解分布式资源调度系统技术及原理 (4)深入理解linux系统能够独立排查及解决操作系统层问题 (5)有数据仓库经验者 (6)有运维经历者 (7)有C/C++开发经验 (8)有论文阅读、理论研究爱好与能力
  • 人工智能服务,IT技术服务|咨询 / D轮及以上 / 500-2000人
    工作职责: 1.设计并实现创新的机器学习解决方案,并将其应用到大规模分布式机器学习系统中。 2.适配最新的机器学习算法与架构,深入主流的机器学习框架,对框架进行调整、改进和优化。 3.研究核心技术突破点,在模型并行、数据-计算结合等方面打造机器学习系统性能与易用性优势。 4.对服务整体稳定性负责,分析并深入发现系统风险点,提高系统服务在各种风险下的容错能力。 任职要求: 1.有比较扎实的计算机理论基础,熟练使用C/C++编程,对数据结构和算法有较为深刻的理解。 2.具有快速学习的能力,有灵活应用开源项目的经验。 3.具备英文文档阅读分析能力,良好的沟通能力和团队协作能力。 4.对技术有执着的追求和热爱,并对新技术持有敏感性并愿意致力于新技术的探索和研究,对解决具有挑战性问题充满激情。 加分项: 1.深入了解业界主流机器学习框架如Pytorch/Tensorflow/Mxnet等中至少一种,社区核心贡献者优先。 2.在异构计算或并行计算系统开发方面有丰富经验,如CUDA,OpenCL,OpenMP,MPI等,并能有效利用这些技术进行高效计算优化。 3.有成熟的大规模分布式机器学习系统设计与实施经验,例如对Megatron-Deepspeed、Colossal-ai等有深入理解和实践。 4.在OSDI/SOSP等**会议或期刊上发表过相关领域的论文。 5.对分布式系统中的容错、一致性、并发性和安全性等问题有深入的理解,并能应用如ZooKeeper、Etcd等工具进行处理。 6.深入了解 YARN、Kubernetes、Hadoop、Spark、Flink、Horovod等系统和生态,在社区有过相关代码贡献者优先。 工作地点:北京、上海、深圳、新加坡;
  • 8k-10k 经验1-3年 / 本科
    移动互联网,金融 / 不需要融资 / 150-500人
    工作内容: 1.负责hadoop基础技术规划,编制相关规范文档; 2.负责Hadoop数据应用相关的数据存储、查询、计算、元数据管理的架构设计与实现; 3.负责hadoop的实际规划建设,包括环境与框架的规划搭建及部分核心编码工作; 4.负责hadoop相关技术发展方向的预研; 5.独立负责具体功能开发与实现、性能优化,保证系统健壮稳定及临时性数据处理工作的支持; 6.负责数据应用相关的数据存储、查询、计算、元数据管理等方面的架构设计。 岗位要求: 1.1年以上大数据开发经验,熟悉分布式的设计与应用。 2.熟悉hadoop大数据平台框架,包括不限于hadoop、hive、hbase等大数据生态平台组件的部署升级与调优。 3.熟悉hadoop、spark、flink、hbease、es等相关计算机存储框架的底层理论,并能应用至实际开发当中。 4.熟悉至少一款ETL工具,例如kettle、logstash等。 5.熟悉关系型及非关系型数据库的使用及优化,包括但不限于Oracle、PG、hive、clickhouse等。 6.熟悉各类大数据处理组件,sqoop、flume、kafka、azkaban等。 7.根据计划完成模块的编码开发工作,保证开发质量。 8.有良好的沟通能力,积极为项目建设提供建设性意见。 9.本科及以上学历,计算机相关专业,有银行工作、财务会计、管理会计业务经验优先。
  • 20k-40k·15薪 经验在校/应届 / 硕士
    软件服务|咨询,数据服务|咨询,IT技术服务|咨询 / 未融资 / 150-500人
    岗位职责: 1、设计并实施灵活可扩展的支持数据建模、数据治理、数据质量、数据分析和优化的支持企业和产业数字化的数据架构; 2、设计并实施基于支持企业和产业数字化的数据架构并灵活集成统计、运筹和机器学习算法的数据平台; 2、负责数据平台的研发和迭代升级,持续提升平台稳定性,优化改进分布式存储、计算系统性能; 4、推动新型分布式高性能数据存储、计算、传输和访问技术在企业和产业数字化的落地应用。 任职要求: 1、硕士及以上学历,计算机基础扎实。熟悉计算机网络、Linux操作系统、分布式存储、算法和系统相关知识; 2、熟练掌握java、Scala、Go、C++编程语言的一种或多种,具备良好Coding技能和优雅的代码规范; 3、有过Apache开源生态分布式系统经验者优先,学习了解过Spark/Flink/Presto/Impala/Hadoop/HBase/Cassandra/GraphDB一种或多种引擎,有源码阅读或修改者优先; 4、强烈的上进心和求知欲,较强的学习能力和沟通能力,具备良好的团队合作精神。 加分项: 1、计算机领域相关的编程大赛获奖、专业期刊发表文章或者有发明专利等; 2、具备数据云平台、计算存储平台、可视化开发平台经验; 3、具备专业领域的计算机知识和技能: Alluxio/Hive/Hbase/RocksDB/Kafka/JanusGraph/GraphQL等。 4、对知识图谱、数据搜索、分布式算法、关系型数据库内核和优化、非关系型数据库内核和优化、云计算等技术有一定研究者优先。
  • 电商,企业服务 / 上市公司 / 2000人以上
    关于我们 加入阿里云飞天企业版团队,您将参与构建面向云原生、DevOps、IoT、AIOps、时序存储与安全分析的企业级大数据服务,并参与面向 AI 的智能化能力落地。在国内最大规模的云平台上,解决真实且复杂的工程问题,成长与影响力并重。 参与企业级大数据产品的核心分布式架构设计与性能优化; 推动微服务平滑拆分与弹性扩缩容,提升系统自愈能力与可观测性; 深度结合安全、容灾与自动化运维,保障企业级服务的合规与可靠性; 有机会将前沿云计算与 AI 能力快速落地,参与产品长期演进规划。 ========= 负责飞天企业版大数据类产品的分布式系统开发与架构演进,推动微服务化与弹性扩缩容方案落地。 优化系统性能与资源使用(内存/CPU),设计退避、限流、熔断等容错与自愈机制。 主导或参与底层库与中间件的调优、代码重构与可测试性改进,提升系统可维护性。 构建与完善漏洞自动化修复、容灾恢复流程,支持企业级特殊服务/数据场景。 与产品、运维、测试等团队协同,推动线上演进、容量规划与可靠性保障。 岗位要求 熟练掌握 C++/Python/Go/Java 中至少一种,具备良好的编码规范与单元测试习惯;熟悉代码重构与常用设计模式。 三年以上分布式系统开发经验,有公有云/私有云相关项目经验优先。 了解编程语言演进与 Core Guidelines(如 C++ Core Guidelines)者优先。 熟悉 Folly、Abseil、ElasticSearch、ClickHouse、Kafka 等大数据基础开源组件,能阅读源码并有社区贡献或提交者优先。 熟悉 Kubernetes 等容器编排/分布式管控系统;使用过 Azure Stack、AWS Outposts 等专有云/混合云解决方案者更佳。 学习能力强,对云计算前沿技术充满热情,能将新技术快速工程化并在产品迭代中做出合理权衡与规划。
  • 13k-16k 经验1-3年 / 本科
    其他 / 未融资 / 15-50人
    岗位职责: 1.支持Hadoop集群底座的运维故障分析、解决、性能优化;大数据集相关组件主要包括:Yarn、HDFS、ZooKeeper、Storm、Kafka、Hbase、Hive、Spark、Kerberos、Spark、Flink、Flume、MySQL等组件运维; 2.开发数据采集、清洗、分析、挖掘及可视化功能,需熟悉ES、milvus、pgsql等。 3.熟悉国产数据库,包括doris等; 4.配合开展HDFS存储、Hive元数据治理优化,建立并完善存储治理方案; 5.配合开展Hive、Spark作业优化,对业务侧提出优化建议。如:作业小文件问题、数据倾斜治理方案等; 6.提出集群优化建设方案,配合建设和优化大规模分布式集群的自动化运维、监控等工具和管理平台。 任职要求: 1.***本科及以上学历,通信/计算机等相关专业,具有良好的学习能力、沟通能力、团队合作能力及一定的抗压能力; 2.熟悉Hadoop、Hive、Hbase、Spark等开源项目,理解组件架构及原理; 3.对大数据运维开发有浓厚兴趣,熟悉Apache Hadoop部署、性能调优; 4.能阅读/理解Hadoop等相关开源组件源码; 5.对HQL、SparkSQL等有较深入的研究,能解决实际业务性能问题; 6.熟练掌握LDAP、Kerberos等安全认证体系; 7.熟练掌握Linux命令与工具进行问题定位,熟悉常规的互联网技术架构; 8.具备一定的Java开发能力; 9.有信控平台开发经验者优先录取。
  • 13k-16k 经验3-5年 / 本科
    其他 / 未融资 / 15-50人
    岗位职责: 1.支持Hadoop集群底座的运维故障分析、解决、性能优化;大数据集相关组件主要包括:Yarn、HDFS、ZooKeeper、Storm、Kafka、Hbase、Hive、Spark、Kerberos、Spark、Flink、Flume、MySQL等组件运维; 2.开发数据采集、清洗、分析、挖掘及可视化功能,需熟悉ES、milvus、pgsql等。 3.熟悉国产数据库,包括doris等; 4.配合开展HDFS存储、Hive元数据治理优化,建立并完善存储治理方案; 5.配合开展Hive、Spark作业优化,对业务侧提出优化建议。如:作业小文件问题、数据倾斜治理方案等; 6.提出集群优化建设方案,配合建设和优化大规模分布式集群的自动化运维、监控等工具和管理平台。 任职要求: 1.本科及以上学历,通信/计算机等相关专业,具有良好的学习能力、沟通能力、团队合作能力及一定的抗压能力; 2.熟悉Hadoop、Hive、Hbase、Spark等开源项目,理解组件架构及原理; 3.对大数据运维开发有浓厚兴趣,熟悉Apache Hadoop部署、性能调优; 4.能阅读/理解Hadoop等相关开源组件源码; 5.对HQL、SparkSQL等有较深入的研究,能解决实际业务性能问题; 6.熟练掌握LDAP、Kerberos等安全认证体系; 7.熟练掌握Linux命令与工具进行问题定位,熟悉常规的互联网技术架构; 8.具备一定的Java开发能力; 9.有信控平台开发经验者优先录取。
  • 18k-35k 经验3-5年 / 硕士
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责带领团队建设大模型分布式系统研发体系和多GPU优化技术体系,跟踪和探索面向大模型的分布式优化技术新趋势; 2. 负责组织进行软件的设计和开发,对多GPU(同一节点和跨网络多节点)通信性能优化; 职位要求 1. 研究生及以上学历,计算机/电子相关专业优先,5年(博士3年)以上分布式系统优化经验; 2. 熟悉计算机体系架构、分布式并行计算和异构计算框架,具备OpenMPI, OpenSHEM, MPICH 等相关知识及支持库(NCCL,UCX, etc.)和经验者优先; 3. 具备芯片互联和网络传输编程相关知识,例如RDMA,PCIE Peer2Peer, GPU Direct等经验者优先; 4. 熟练掌握深度学习分布式优化方法,有大模型训练和推理优化经验者优先; 5. 统筹协调能力强,有大型系统开发团队管理经验优先。
  • 15k-30k 经验1-3年 / 本科
    企业服务,人工智能,通讯电子 / 天使轮 / 50-150人
    职位描述 1. 负责大模型分布式系统和多GPU优化系统研发,探索面向大模型的分布式优化新技术; 2. 负责分布式系统软件的设计和开发,提升多GPU(同一节点和跨网络多节点)高性能网络通信性能; 职位要求 1、本科及以上学历,计算机/电子相关专业优先,至少2年分布式、通信系统优化经验; 2、熟练掌握C、C++、Go等一种或多种编程语言,熟悉计算机体系架构、分布式并行计算和异构计算框架; 3、熟悉OpenMPI, OpenSHEM, MPICH,NCCL,UCX等一种或多种分布式通信软件者优先; 4、了解RDMA,PCIE Peer2Peer, GPU Direct等芯片互联和网络传输编程相关知识者优先; 5、了解常见的深度学习分布式优化方法者优先;
  • 10k-20k 经验1-3年 / 大专
    其他 / 未融资 / 50-150人
    岗位职责: 1、负责管理分布式光伏电站项目建设以及相关的沟通协调工作, 能独立完成或指导技术支持完成项目现场施工勘察直至竣工管理的工作; 2、实施项目成本控制; 3、配合技术部门完成项目技术方案设计,与客户进行前期沟通工作; 4、独立完成现场与项目方相关部门、监理的协调工作;严格实施公司关于现场管理的相关规定,做好项目范围、工程量、材料、施工计划、工期、施工质量、施工安全、人员组织等的管理 任职要求: 1、熟悉强弱电等设备的安装、调试、维护、操作等相关标准规范及施工工艺,能独立进行现场施工操作、指导; 2、能够对工前、过程、验收及现场进行有效的组织和实施,并可进行技术指导;3、 能够独立进行工程项目的管理和实施,有较强的现场组织、沟通和协调能力;4、 责任心强,有团队合作精神; 5、 具备相关项目的管理经验,有地面电站、渔光互补电站项目管理经验者优先;有三年以上相关工作经验或相关执业资格证书(一建、二建)者优先。
  • 13k-16k 经验3-5年 / 本科
    IT技术服务|咨询 / 上市公司 / 2000人以上
    1.熟悉Hadoop,有过大数据开发经验 2.熟悉大数据开源技术,对Spark,flink,Hive, Hdfs等分布式计算存储引擎有实战经验 3.**本科,双证齐全
  • 40k-70k·16薪 经验不限 / 本科
    消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 消费生活 / D轮及以上 / 500-2000人
    1.负责机器学习分布式训练方向的工作,系统开发、高性能优化 2.熟悉分布式训练框架,熟悉数据并行、模型并行、流水线并行等常见并行策略 3.有大规模分布式训练性能优化的相关经验,支持过多机多卡的分布式并行任务训练和性能调优 4.熟悉cuda编程,网络吞吐性能优化,可对神经网络特定layer进行深层优化
  • 24k-45k 经验3-5年 / 本科
    移动互联网,广告营销 / 上市公司 / 2000人以上
    云存储/分布式存储研发工程师 岗位职责: 1、负责分布式存储平台的研发建设工作,包括对象存储/块存储/文件存储等系统的开发、优化; 2、持续推动公司存储技术栈的优化和演进、支撑业务在存储端的各类需求; 3、负责部分运维任务,高效定位,分析和解决线上问题; 岗位要求: 1、重点本科及以上学历,计算机相关专业; 2、2年及以上云存储相关工作经验; 3、熟练掌握GO/JAVA等语言进行开发(至少熟练掌握一种); 4、有扎实的算法基础,能灵活应用各种常见的数据结构; 5、熟悉操作系统原理、Linux IO性能调优方法; 6、熟悉分布式系统的设计和应用,了解分布式常用技术原理 ; 7、熟悉一业界主流分布式存储产品,如AWS-S3、CEPH,HDFS,HBASE等; 8、有对象存储,块存储,NOSQL存储或其他大规模