• 文娱丨内容 / D轮及以上 / 2000人以上
    职位职责: 1、负责分布式存储产品性能、可靠性、成本能力构建; 2、深入项目了解流程和设计,发现和解决瓶颈点,提出优化方案和落地功能开发,增强规模集群稳定性、弹性可扩展性、以及成本竞争力,端到端解决整系统性能优化; 3、负责公共工具开发,包括性能Trace、可靠性公共框架、性能分析工具等; 职位要求: 1、大学本科及以上学历,计算机相关专业,具备分布式系统至少三年及以上经验; 2、扎实的计算机领域基础知识,熟悉分布式一致性协议,了解常用的开源系统不限于Ceph、Mysql/PG、Redis、Rocksdb、Kafka、ext3、K8S等; 3、熟练使用C/C++/Go/Python/JAVA等任意一种语言,编码能力强,功底扎实,良好编程规范及软件分层设计、抽象、实现、验证等能力; 4、具备丰富的大规模分布式系统可靠性设计经验,包括大规模集群计算、网络、存储、硬盘亚健康可靠性处理,优先考虑; 5、具备高并发分布式系统性能调优经验、熟练使用linux环境下性能调优命令和工具,深入系统优化IO路径和软件栈,降低系统时延提升吞吐量; 6、优秀的沟通协作能力,较强的分析和解决问题能力,具有丰富的项目实战和开发经验。
  • 30k-55k 经验不限 / 不限
    消费生活 / 上市公司 / 2000人以上
    为了更好地提升城市即时配送的效率与体验,2017年,美团启动了无人机配送服务的探索,通过科技创新推动履约工具变革,加快建设空地协同的本地即时配送网络,致力于为用户提供3公里、15分钟的标准配送服务。不止是配送无人机本身, 美团希望建设综合自主飞行无人机、自动化机场及无人机调度系统为一体的城市低空物流网络。通过飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力,适应社区、商场、写字楼等多种场景,让无人机与骑手形**机协同的配送,真正实现“万物到家”。 岗位职责 1.开展软件可靠性分析与设计工作,实施软件失效模式分析、可靠性设计、重要度分级等活动; 2.开展软件可靠性测试工作,实施软件可靠性测试剖面构建、测试用例设计、测试环境构建、测试用例执行、测试数据收集与记录等活动; 3.定义软件故障插入测试用例、执行故障插入测试; 4.负责软件健壮性&鲁棒性评估分析和优化; 5.协助建立软件可靠性评估标准; 6.识别软件薄弱点和潜在问题,提出改进建议; 7.软件可靠性相关方法和工具导入; 8.开展软件代码级可靠性风险分析工作,分析体系结构设计、源代码中的薄弱环节和潜藏缺陷,并提出改进建议。 岗位基本需求 1.本科及以上学历,计算机、自动控制、软件工程、系统工程、通信工程等相关专业; 2.3年以上软件设计开发或测试经验,1年以上软件可靠性设计/分析/测试工作经验; 3.熟悉C、C++语言,了解Python语言编程; 4.熟悉Linux/RTOS等桌面或嵌入式操作系统,掌握Shell脚本语言; 5.熟悉软件FMEA、FTA等可靠性分析方法或相关标准; 6.熟悉软件常见失效模式,如死锁、竞态、内存泄漏等,掌握常见失效模式的避错或容错设计方法; 7.具备航空、航天、汽车领域嵌入式软件开发/测试经验者优先; 8.熟悉UART/CAN/SPI/IIC等驱动程序开发者优先。 具备以下者优先 有高安全可靠性软件开发经验或可靠性设计分析优先。 岗位亮点 开创性的工作,极具挑战的高安全可靠性要求的产品。
  • 13k-17k 经验3-5年 / 本科
    医疗丨健康,其他 / 未融资 / 500-2000人
    职责描述: 工作内容 1) 基于产品需求编写可靠性测试验证方案、测试用例,执行测试,汇总测试记录,编写测试报告; 2) 使用缺陷跟踪矩阵记录可靠性测试过程中发现的缺陷,将缺陷评级并分配,跟踪缺陷状态并及时验证缺陷; 3) 在研发初期或工程样机阶段协助项目组识别可靠性风险点及产品薄弱点,定义出需要进行可靠性验证的位置和部件 4) 按照产品的使用时间和使用频次计算可靠性测试时间或数量,并与研发团队沟通讨论 5) 能够给技术员下发可靠性测试任务,并且定期追踪可靠性测试进度,汇总测试过程中发现的缺陷并上报至项目组 职责描述:日常工作 1) 完成测试主管交付的其他任务 任职要求: 1、3年及以上相关工作经验,具有有源医疗器械可靠性工作经验,若从事过影像类产品,机器人,复杂机械系统优先考虑;具有汽车、工业电子产品的可靠性工作经验 2、本科及以上学历,机械,电子或生物医学专业优先考虑 3、知识技能 1) 熟悉可靠性测试标准,熟悉常用加速模型(ArrheniusModel等); 2)能够基于已有数据进行可靠性估算或经验估算; 3)熟悉MTBF计算流程并且能够根据实测结果推导产品预期寿命; 4) 熟练使用word,excel,ppt等办公软件; 5) 熟练使用测试仪器(万用表,示波器,推力计,测温仪,安规测试仪等)
  • 信息安全,企业服务 / 上市公司 / 2000人以上
    Linux软件开发工程师(可靠性方向) 工作职责:负责建立OS的资源管控、进程管理、故障监控及处置运营机制 工作要求: 1、精通linux系统原理,熟悉内存管理、CPU调度、文件系统中至少一个子系统 2、熟悉Linux C语言编程,有3年以上相关编程经验; 3、熟悉systemd及cgroup工作机制,有相关开发经验优先; 4、熟悉Linux故障检测预警、自愈恢复等可靠性机制,有相关开发经验优先
  • 消费生活 / 上市公司 / 2000人以上
    为了更好地提升城市即时配送的效率与体验,2017年,美团启动了无人机配送服务的探索,通过科技创新推动履约工具变革,加快建设空地协同的本地即时配送网络,致力于为用户提供3公里、15分钟的标准配送服务。不止是配送无人机本身, 美团希望建设综合自主飞行无人机、自动化机场及无人机调度系统为一体的城市低空物流网络。通过飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力,适应社区、商场、写字楼等多种场景,让无人机与骑手形**机协同的配送,真正实现“万物到家”。 岗位职责 1、参与可靠性实验室的搭建,CNAS实验室申请和实验室日常管理工作; 2、负责产品可靠性实验技术咨询和实施,包括实验条件设定、编写实验大纲、实验报告、现场实验安排及实施等,并参与分析解决发现的故障,提升产品可靠性; 3、可熟练操作可靠性实验室各类测试设备,例如振动、冲击实验台,盐雾、IP防护实验箱、材料试验机以及各类环境温箱类设备等; 4、负责指导、培训检测人员,并进行新项目的展开,对实验的过程质量进行控制; 5、负责研究国际/国家/行业可靠性相关标准,开发可靠性测试规范和用例; 6、负责规划、开发可靠性测试工装夹具。 岗位基本需求 1、本科及以上学历,机械、自动化、控制、测控、电气、电子等相关专业; 2、 5年以上专业领域工作经验,具备可靠性实验室设备操作和实验室运营相关能力,熟悉实验室CNAS/CMA质量体系; 3、 有环境实验(如温度、湿度、振动、冲击、盐雾、IP防护等)及可靠性实验(如可靠性研制实验、可靠性验证实验、环境应力筛选等)等相关专业的实操能力,熟悉IEC、GJB、GB/T可靠性试验标准; 4、工作积极,态度端正,性格开朗,善于与人沟通交流,具有团队协作精神; 5、熟练使用办公软件,有较强的报告编写功底,良好的英语阅读及书写能力。 具备以下者优先 具备自主开发实验台架(硬件及控制)或工装夹具经验者优先考虑;有可靠性系统思维,有电子产品科研测试验证项目工作经验更佳; 岗位亮点 美团可靠性实验室,服务整个美团可靠性测试,平台大。
  • 25k-50k·15薪 经验5-10年 / 本科
    信息安全,企业服务 / 上市公司 / 2000人以上
    工作职责: 负责构建OS层面的可靠性评估体系,系统性建立OS的性能测试基线,持续提升OS质量、可靠性及稳定性 工作要求: 1、精通linux系统的可靠性测试手段及工具,有超过5年的可靠性测试经验; 2、精通业界的性能、稳定性测试理论、工具及标准方法; 3、熟悉典型的故障模拟、压力注入以及硬件自动化测试方法优先; 4、有网安类产品或云计算产品的可靠性、性能测试经验优先
  • 20k-40k 经验5-10年 / 本科
    移动互联网,人工智能 / 不需要融资 / 2000人以上
    工作职责: 1、负责建筑机器人及其零部件产品的可靠性测试大纲编制、测试用例的输出、测试过程把控以及测试报告的审核; 2、负责可靠性相关测试项目测试计划的制定,确保实验室高效及时的完成测试任务; 3、对测试数据进行分析,针对产品测试问题提出合理有效的整改方案建议,确保产品符合相关标准和质量要求; 4、参与项目设计方案评审、过节点评审等评审工作,并提出专业意见; 5、负责实验室人员管理,负责对实验室测试人员进行专业培训和指导; 6、领导安排的其他工作。 任职资格: 1.可靠性、机械、电子等相关专业本科及以上学历; 2.有5年以上机电类产品的可靠性研究或测试相关工作经验,能够指导产品的可靠性整改提升和优化设计; 3.精通机械电子产品可靠性相关测试标准,.熟悉主流测试工具的应用,掌握相关的测试方法与理论,了解国际,国内的相关可靠性试验标准及规范,能结合具体产品开展可靠性试验; 4、具备较强的可靠性理论基础,并应用于可靠性测试方法的建立、测试用例的制定当中; 5、熟悉可靠性测试理论,掌握可靠性鉴定试验、增长试验、加速寿命试验及应力筛选等常用可靠性试验方法论; 6、具有较强的协作能力和抗压能力,有较强的产品整改及协调解决问题的能力。
  • 18k-30k 经验在校/应届 / 博士
    人工智能 / 不需要融资 / 500-2000人
    工作地点杭州之江实验室新园区 岗位职责: 1. 负责传感器可靠性评估与试验; 2. 熟悉包括不限于基于半导体工艺、失效理论等; 3. 搭建极限环境模拟实验室; 4. 设计报告编写,相关专利申请与论文发表。 职责要求: 1、博士学历,半导体、封装、物理、自动控制、精密仪器等相关专业; 2、具有较强的数据分析处理基础与能力; 3、科研院所及有相关项目经验者优先; 4、较强的独立分析问题和解决问题能力,善于学习新技术,动手能力强,强烈的责任感和良好的团队合作精神,具备良好的沟通能力。
  • 18k-30k 经验在校/应届 / 博士
    人工智能 / 不需要融资 / 500-2000人
    工作地点杭州之江实验室新园区 岗位职责: 1. 负责传感器可靠性评估与试验; 2. 熟悉包括不限于基于半导体工艺、失效理论等; 3. 搭建极限环境模拟实验室; 4. 设计报告编写,相关专利申请与论文发表。 职责要求: 1、博士学历,半导体、封装、物理、自动控制、精密仪器等相关专业; 2、具有较强的数据分析处理基础与能力; 3、科研院所及有相关项目经验者优先; 4、较强的独立分析问题和解决问题能力,善于学习新技术,动手能力强,强烈的责任感和良好的团队合作精神,具备良好的沟通能力。
  • 13k-25k·13薪 经验不限 / 本科
    企业服务,软件开发 / 上市公司 / 2000人以上
    1.本科及以上,具备5年以上工作经验。 2.具有一定的试验车辆管理经验;有新能源车辆管理经验者优先。 3.熟悉PHEV、电动车工作原理和车辆结构。 4.具备极强的责任意识和自我驱动能力、良好的沟通能力、问题解决能力、团队协作能力。 5.有一定的问题识别能力,具备常见质量问题的分析能力。 6.较强的组织协调、沟通能力,对于问题具强烈的归纳总结能力。 7.熟悉数据采集仪,诊断仪等设备的使用。 8.C 及以上驾照,3年以上驾驶经验。 9.接受一定程度的出差安排。
  • 20k-40k 经验3-5年 / 本科
    工具类产品,软件服务|咨询 / 上市公司 / 2000人以上
    工作职责: • 负责WPS云服务的运维工作,包括故障排查,业务优化、故障预案等相关工作; • 与DEV共同设计产品后端架构,实现分布式与高可用的集群运维,确保集群稳定性运维,制定业务相关的运维技术方案,确保业务高效稳定的运行; • 负责应用监控和报警方案的设计,实现快速发现线上问题并协助定位问题; • 负责设计实现运维相关的自动化工具或平台系统,减少人工干预,实现业务系统自运维需求; • 应用相关技术实现运维成本控制,优化并提升资源利用率,通过技术手段完成高效运维服务支持。 职位要求: • 计算机相关专业,本科及以上学历,至少2年以上的大规模系统运维经验,3年以上运维开发经验; • 有deveops开发经验或有中大型互联网公司运维自动化经验者优先; • 熟悉shell/python/Go; • 熟悉nginx、zabbix、docker、k8s、elk等系统; • 熟悉ansible有二次开发经验优先; • 熟悉linux/uinx,windows操作系统基础原理及常用操作; • 熟悉TCP/IP、HTTP等协议,有良好的网络、数据传输、安全、计算机体系结构方面的知识; • 认同DevOps文化,重视自动化方式处理各种问题,熟悉SRE体系优先; • 具有良好的沟通协调能力、较强的团队合作精神、责任心及优秀的执行能力,有较强的学习和创新能力。
  • 30k-60k 经验5-10年 / 本科
    硬件 / 不需要融资 / 2000人以上
    岗位职责: 1、负责可靠性实验室的规划及运作管理; 2、负责项目维度的可靠性测试及可靠性评估; 3、负责测试技术开发及测试技术提升; 4、负责本地测试人员的能力培养。 任职要求: 1、本科及以上学历; 2、可靠性相关工作经历5年以上,有独立项目工作经验; 3、自主工作能力强,较好的沟通能力。
  • 11k-17k 经验在校/应届 / 本科
    硬件 / 不需要融资 / 500-2000人
    1.机械/电气/电子或自动化相关专业专业本科 2. 思路清晰,具有较强的学习能力,独立动手能力, 3.具备较强的学习能力和良好的沟通能力; 4.有担当,积极主动,具有强烈的责任心和解决问题能力
  • 20k-40k·15薪 经验不限 / 博士
    硬件 / 上市公司 / 2000人以上
    岗位职责: 1、负责饮品类产品平台架构方案技术评审,对新产品的结构设计或电控方案、零部件选型进行指导、评审和把关,确保新产品的设计质量。 2、负责饮品类产品市场不良的品质立项及整改,提升产品可靠性。 3、负责饮品类产品失效案例沉淀和设计规范完善。 任职资格: 1、机械、电气自动化、可靠性设计工程等相关专业,博士以上学历 2、熟悉可靠性技术,对可靠性设计、可靠性试验、失效分析与可靠性改进技术等有深入理解; 3、熟悉可靠性体系和流程,有可靠性相关工作经验者优先考虑; 4. 主动积极,有良好的沟通能力。
  • 30k-60k·14薪 经验不限 / 本科
    内容社区,游戏 / B轮 / 150-500人
    工作职责: 工作内容涵盖以下方面: 容量规划与实施 (L0) 评估业务对容量的需求,并保证业务增长时,不因容量限制,导致服务下降 节点 CPU/Memory/Disk/Network 数据库容量、QPS、连接池等资源,以及其他被使用的服务的容量 (SLB 等等) (L1) 实施自动扩缩容方案,应对流量突增场景 (L2) 优化资源使用,节约成本 合理使用恰当资源解决相应的需求,比如结合业务特点使用不同类型的机器、数据库服务等 实施智能方案 (比如扩缩容、动态调配等) 在不影响业务的前提下,降低成本 新增新的机房 (L0) 新增机房 或 k8s 系统部署 业务系统适应能多机房或多集群部署是研发需要一开始考虑的事情 (L1) 持续改进工具与方法,将 Infrastructure 代码化 协助研发上线服务 (L0) 协助研发编写 Kubernetes 部署配置上线服务 不包含打包镜像、启动参数等业务配置调整,以及日常版本发布 (L1) 协助研发实施服务级高可用方案 比如优雅服务停止、多区域高可用 (L2) 输出解决方案(改进工具、流程以及培训等等),让研发自助完成 SRE 只关心业务类型 (无状态、有状态,请求什么数据库服务等等)、资源消耗,高可用以及扩缩容配置等 实施高可用方案 (L0) 节点宕机不影响服务 对于 HTTP / GRPC 这类协议层可以请求重试的业务 0 影响 TCP 长连接应只影响该节点持有的连接 (L1) 可用区故障不影响服务 (L2) 依赖的服务故障不影响服务或故障可控,减少单点故障 比如,HK 与 BJ 机房高速通道丢包 (L3) 数据中心故障转移与高可用 注:若是因业务本身无法做到高可用,需要研发改进 建立可观测和可追踪的的线上系统,提高故障排查能力 (L0) 借助现有的观测工具 (阿里云监控、日志分析系统,以及 Prometheus / Grafana) 建立监控、告警系统 (L1) 编写规则或程序,对流量、QPS、延迟、故障率、资源使用率进行监控、评估、优化 (L2) 实施 Service Mesh、HTTP 链路追踪等方案 Oncall 与系统改进 (L0) 能处理常规故障告警,比如容量不够、资源配额不够,并发现是非基础架构的问题,联系研发处理 (L1) 将基础架构问题通过高可用或自动故障转移方案避免 (L2) 实施方便的服务回滚、降级方案。在非基础架构的问题时,能通过回滚、降级临时解决问题 注: SRE 承担的报警不包含业务逻辑内的监控 值班应是排班制,不能成为负担。当前人员不够时,需要研发人员共同承担 oncall 职责 安全 (L0) 整理并审核线上安全配置 任职资格: 要求 有系统的解决问题的方法,责任心强并能自我驱动不断学习 熟悉 Linux 系统和性能观测、调优方法 熟悉 SLO 和 SLI 以规范的方式量化故障和可用性 熟悉 Kubernetes 并擅长编写程序自动化完成事情 熟悉 ansible、terraform 等对 Infrastructure 自动化配置、管理工具 至少有一门通用编程语言经验,比如 C++、Python、Go 评估 熟悉 Linux 工具集和性能观测、调优方法 (初级) 有 Linux 实际使用经验,会基础运维操作,并能编写简单的 Shell 脚本 会观测机器和进程 CPU、内存、网络、磁盘的使用情况,发现瓶颈或故障点 (中级) 了解 Linux 系统配置 (sysctl) 了解 Linux 进程资源限制 (process resource limits) 了解 Linux namespace/cgroup/capabilities 会使用工具对磁盘、网络进行性能测试 注:不需要对各种场景下配置多么熟悉,而是需要知道如何排查和解决相关问题 (高级) 了解如何对进程进行 trace 和 profile,发现问题或瓶颈 了解如何对 Linux 网络进行分析、测量,发现问题或瓶颈 了解如何对 Linux 内核日志进行分析,发现问题或瓶颈 Kubernetes 熟悉程度 (初级) 对官方教程中的基础事情能独自完成 https://kubernetes.io/docs/tutorials/ 至少对以下资源有实际使用 pod deployment/statefulset/daemonset service ingress (中级) 熟悉 Kubernetes 架构、Pod、Workload、网络、存储、配置、调度等,并有实际使用经验 参见 https://kubernetes.io/docs/concepts/ 或通过了 Kubernetes 管理员认证 (CKA) (高级) 对 Kubernetes 实现有所了解,并知道如何编写程序对 Kubernetes 进行扩展 有参与了 Kubernetes 或 Istio 等云原生项目研发工作 编程语言掌握、个人素质、解决方法的能力、沟通技巧,优先于对 Kubernetes 掌握,因为 Kubernetes 相对比较容易学习。但若是需要找来做 Kubernetes 开发或 Service Mesh 深入研究时 (能独占调研方案并有必要时进行修复 bug 或编写扩展),要求就高一点。