-
岗位职责: 1. 大数据平台组件运维及优化,进行必要的二次开发; 2. 数据湖、数据仓库技术研究及落地; 3. 实时、离线数据产品设计及开发。 任职要求: 1. 本科及以上学历,计算机及相关专业; 2. 3-5年Java/Scala开发经验,熟悉多线程编程; 3. 熟悉大数据生态相关技术,有二次开发经验者优先; 4. 熟悉实时及离线数仓架构及开发流程,有Phoenix/StarRocks使用经验优先; 5. 熟悉常见设计模式,熟悉如Spring/SpringMVC/Mybatis等主流框架; 6. 有较强的学习能力与逻辑思维能力,良好的团队合作精神。
-
工作内容 职位描述: 1. 参与数据仓库规划、架构及研发,包括离线、实时的数据模型规划,建设PB级的数据集市和数据平台。 2. 负责数据模型的规划、架构、开发以及海量数据下的性能调优,复杂业务场景下的需求交付。 3. 参与平台数据治理相关工作,负责数据质量、数据一致性及稳定性保障等建设。 4. 深入业务,与业务团队紧密合作,理解并合理抽象业务需求,发掘数据价值,以数据驱动业务不断发展。 5. 关注行业技术趋势,引入新技术和工具,持续优化大数据处理流程与性能,提升业务的数据处理效率和价值产出。 岗位要求 任职要求: 1. 本科及以上学历,计算机、软件工程、数据分析或相关专业出身,2-5年大数据开发经验。 2. 掌握Java, Python等至少一门语言,熟悉常用数据结构与算法。 3. 熟悉大数据生态技术栈,具备较丰富的Hadoop,Hive,Spark,Flink等开发经验。 4. 精通数据仓库理论体系,对分层设计、维度建模等有深刻的认识和实战经验,熟悉不同建模方法的优劣。 5. 积极主动贴近业务,有良好的沟通协调能力,数据敏感度高,能够快速理解业务模型及数据模型,从业务角度出发分析和解决数据问题。 6. 具备优秀的问题解决能力和团队协作精神,对大数据技术充满兴趣,学习能力和自我驱动力强 7. 有数据中台建设经验优先。有数据分析能力、指标体系搭建或BI相关经验优先。有互联网工作经验优先。 8. 加分项:英文沟通表达、云平台(如阿里云、AWS、Google Cloud)经验。
-
职位职责: 1、为大规模推荐系统设计和实现合理的数据系统; 2、生产系统的Trouble-shooting,设计和实现必要的机制和工具保障生产系统整体运行的稳定性; 3、打造业界领先的流式计算框架等分布式系统,为海量数据和大规模业务系统提供可靠的基础设施。 职位要求: 1、对大数据系统有深入的了解,在生产环境有TB级别Flink实时计算系统开发经验,深入掌握Flink DataStream、FlinkSQL、Flink Checkpoint、Flink State等模块,有Flink源码阅读经验优先; 2、熟悉常见消息队列原理和应用调优,有Kafka、Plusar、RocketMQ等项目源码阅读经验优先; 3、熟悉Java、C++、Scala、Python等编程语言,有出色的编码和Trouble-shooting能力; 4、乐于挑战没有明显答案的问题,对新技术有强烈的学习热情,有PB级别数据处理经验加分; 5、有数据湖开发经验,熟悉Hudi、Iceberg、DeltaLake等至少一项数据湖技术,有源码阅读经验优先; 6、熟悉其他大数据系统经验者优先,YARN、K8S、Spark、SparkSQL、Kudu等;有存储系统经验加分,HBase、Casscandra、RocksDB等。
-
职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 1、参与字节跳动抖音电商、生活服务等业务离线和实时数据仓库建设工作; 2、面向PB级超大规模数据问题,每天处理千亿增量的用户行为数据; 3、为大数据的全生命周期提供服务,覆盖数据产生,传输,建模,统计分析,实验评估,可视化的全流程; 4、构建设计良好的数据流、数据仓库、调度系统、查询引擎,数据服务、分析系统、流程规范,数据工具/产品,降低数据的使用门槛,保证系统稳定高效运行,以实现数据的最大价值。 职位要求: 1、2026届本科及以上学历在读,计算机等相关专业优先; 2、熟悉数据仓库实施方法论、了解数据仓库体系; 3、会使用SQL,掌握Java、Python、R、Scala、C/C++中任意一门编程语言; 4、善于沟通,对数据敏感,责任心强、积极主动; 5、每周可以实习4天以上,连续实习3个月以上。
-
岗位职责 作为大数据研发工程师,你将深度参与搜推业务链路的实时与离线数据处理体系建设,核心工作包括但不限于: •基于Flink/Spark 构建用户行为数据的实时(或近实时)采集、清洗、聚合与特征计算链路,实现用户兴趣标签、行为序列、实时偏好等画像特征的更新与存储; •设计高并发、低延迟的实时数据管道,对接搜索/推荐业务的实时请求,支撑个性化排序、精准召回等策略的实时反馈优化; •通过Redis/Elasticsearch/OpenSearch实现画像特征的实时存储与高效检索,保障下游业务(如前端展示、策略调用)的低延迟访问。 •负责离线数据仓库的开发与维护(使用Spark/MaxCompute),完成海量用户行为数据的ETL、数仓分层建模与指标计算; •基于阿里云Lindorm/MaxCompute/DataWorks等工具,优化数据存储成本与计算效率(如冷热数据分层、任务调度调优),支撑业务方的高效取数与分析需求; •针对搜推业务中的复杂场景(如跨域数据关联、实时+离线特征一致性、大规模稀疏特征处理),设计可扩展的技术方案并推动落地; 任职要求 •**本科及以上学历,计算机相关专业,大数据开发相关经验; •熟练掌握并使用(Flink,Spark Spark SQL/DataFrame、DataWorks调度等),有海量数据(TB级以上)的ETL与数仓开发经验; •熟悉消息队列(Kafka必备)、搜索引擎(Elasticsearch/OpenSearch加分)、缓存(Redis等)及云原生大数据组件(阿里云Lindorm/MaxCompute/DataWorks优先)的原理与应用; •具备扎实的编码能力(Java/SQL至少一种),熟悉Linux环境与常用脚本工具,有分布式系统调优经验(如JVM调优、任务并行度优化等)。 •具有良好的沟通能力和组织协调能 加分项: •有实时画像/风控平台建设经验,熟悉用户行为特征工程、规则引擎或模型推理链路集成; •理解搜索/推荐业务逻辑,了解排序策略、召回链路与数据特征的关联性; •对数据敏感,具备较强的业务抽象能力与问题排查能力(如通过日志/指标定位数据延迟、丢失或不一致问题)。
-
团队背景 隶属于6767搜推工程策略组6767,是公司搜索与推荐业务的核心技术支撑团队。团队技术氛围开放,鼓励创新实践,团队成员具备丰富的分布式系统与海量数据处理经验。 岗位职责 作为大数据研发工程师,你将深度参与搜推业务链路的实时与离线数据处理体系建设,核心工作包括但不限于: 61基于Flink/Spark 构建用户行为数据的实时(或近实时)采集、清洗、聚合与特征计算链路,实现用户兴趣标签、行为序列、实时偏好等画像特征的更新与存储; 61设计高并发、低延迟的实时数据管道,对接搜索/推荐业务的实时请求,支撑个性化排序、精准召回等策略的实时反馈优化; 61通过Redis/Elasticsearch/OpenSearch实现画像特征的实时存储与高效检索,保障下游业务(如前端展示、策略调用)的低延迟访问。 61负责离线数据仓库的开发与维护(使用Spark/MaxCompute),完成海量用户行为数据的ETL、数仓分层建模与指标计算; 61基于阿里云Lindorm/MaxCompute/DataWorks等工具,优化数据存储成本与计算效率(如冷热数据分层、任务调度调优),支撑业务方的高效取数与分析需求; 61针对搜推业务中的复杂场景(如跨域数据关联、实时+离线特征一致性、大规模稀疏特征处理),设计可扩展的技术方案并推动落地; 任职要求 61**本科及以上学历,计算机相关专业,大数据开发相关经验; 616767熟练掌握并使用6767(Flink,Spark Spark SQL/DataFrame、DataWorks调度等),有海量数据(TB级以上)的ETL与数仓开发经验; 61熟悉消息队列(Kafka必备)、搜索引擎(Elasticsearch/OpenSearch加分)、缓存(Redis等)及云原生大数据组件(阿里云Lindorm/MaxCompute/DataWorks优先)的原理与应用; 61具备扎实的编码能力(Java/SQL至少一种),熟悉Linux环境与常用脚本工具,有分布式系统调优经验(如JVM调优、任务并行度优化等)。 61具有良好的沟通能力和组织协调能 6767加分项:6767 61有实时画像/风控平台建设经验,熟悉用户行为特征工程、规则引擎或模型推理链路集成; 61理解搜索/推荐业务逻辑,了解排序策略、召回链路与数据特征的关联性; 61对数据敏感,具备较强的业务抽象能力与问题排查能力(如通过日志/指标定位数据延迟、丢失或不一致问题)。
-
岗位职责: 1.负责ETL相关开发工作,深度参与数据仓库的建设与优化,保障数据存储的高效性与稳定性,支撑公司战略级数据项目的落地。 2.主导复杂数据处理流程的开发与优化,基于 Python 编写高性能的数据处理脚本,结合 spark、pandas、duckdb等进行大规模数据清洗、转换与分析,实现数据挖掘与机器学习模型开发,推动数据价值的深度挖掘。 3.设计和维护基于 Airflow 的工作流调度系统,实现数据处理任务的自动化调度与监控,确保数据处理任务按时、准确执行,提升数据开发与运维效率。 4.与业务部门紧密协作,深入理解业务需求,将业务逻辑转化为数据解决方案,通过数据驱动业务决策,助力业务增长。 5.研究大数据领域的前沿技术,持续优化数据开发技术栈与流程。 任职资格: 1.具备 3 年及以上大数据开发相关工作经验,拥有丰富的大数据项目实战经验,能够独立承担复杂数据开发任务。 2.熟练掌握 Python 编程,具备基于 Python 的大数据开发工作经验,能够运用 Python 进行高效的数据处理与算法实现。 3.熟悉数仓建设方法论 1)熟悉etl分层建设方法 2)熟悉主题建设方法,能独立抽象主题,建设主题,并且物理化和性能调优 3)熟悉常用的BI系统建设方法,理解实现原理,理解各个工具使用场景 4.精通大数据开发相关技术栈,包括但不限于 Hadoop、Spark、Hive 等,能够熟练运用这些技术进行数据处理与分析。 5.熟练掌握 Airflow,能够基于 Airflow 进行工作流设计、调度与监控;熟练使用相关技术进行数据处理与分析并能够运用其实现常见的数据挖掘与机器学习算法。 6.熟练掌握sql和调优。 7.熟练掌握python。 加分项 1.具备统计学、数学建模等相关知识,能够运用统计方法进行数据分析与模型构建。 2.有分布式系统开发、数据可视化开发经验者优先。 薪资待遇 ****,我们提供具有竞争力的薪酬体系与广阔的职业发展空间,期待优秀的你加入!
-
(此岗位需要在南京或者深圳办公) 岗位职责: 1.大数据新技术规划、调研、选型及推广落地。 2.负责大数据组件内核开发优化,推进组件容器化,进行组件二次开发与适配等工作。 3.日常负责大数据框架组件的性能优化,稳定性保障,异常监控及线上问题对接解决。 4.参与平台功能研发,提供业务系统化的解决方案。 任职标准: 1.至少6年以上相关经验,有扎实的计算机编程基础,精通java/scala,熟悉jvm的原理和调优。 2.精通spark/hive/flink组件原理和内核优化,有超大规模数据计算的架构设计和优化经验。 3.掌握大数据行业趋势,熟悉Kubernetes/Docker,有组件容器化相关经验。 4.具备较强的问题解决能力,能独立分析和攻坚复杂的技术难题。 5.有公有云使用经验者优先。 6.有良好的服务意识、沟通能力和团队协作精神。
-
关于我们 加入阿里云飞天企业版团队,您将参与构建面向云原生、DevOps、IoT、AIOps、时序存储与安全分析的企业级大数据服务,并参与面向 AI 的智能化能力落地。在国内最大规模的云平台上,解决真实且复杂的工程问题,成长与影响力并重。 参与企业级大数据产品的核心分布式架构设计与性能优化; 推动微服务平滑拆分与弹性扩缩容,提升系统自愈能力与可观测性; 深度结合安全、容灾与自动化运维,保障企业级服务的合规与可靠性; 有机会将前沿云计算与 AI 能力快速落地,参与产品长期演进规划。 ========= 负责飞天企业版大数据类产品的分布式系统开发与架构演进,推动微服务化与弹性扩缩容方案落地。 优化系统性能与资源使用(内存/CPU),设计退避、限流、熔断等容错与自愈机制。 主导或参与底层库与中间件的调优、代码重构与可测试性改进,提升系统可维护性。 构建与完善漏洞自动化修复、容灾恢复流程,支持企业级特殊服务/数据场景。 与产品、运维、测试等团队协同,推动线上演进、容量规划与可靠性保障。 岗位要求 熟练掌握 C++/Python/Go/Java 中至少一种,具备良好的编码规范与单元测试习惯;熟悉代码重构与常用设计模式。 三年以上分布式系统开发经验,有公有云/私有云相关项目经验优先。 了解编程语言演进与 Core Guidelines(如 C++ Core Guidelines)者优先。 熟悉 Folly、Abseil、ElasticSearch、ClickHouse、Kafka 等大数据基础开源组件,能阅读源码并有社区贡献或提交者优先。 熟悉 Kubernetes 等容器编排/分布式管控系统;使用过 Azure Stack、AWS Outposts 等专有云/混合云解决方案者更佳。 学习能力强,对云计算前沿技术充满热情,能将新技术快速工程化并在产品迭代中做出合理权衡与规划。
-
岗位职责 1、负责对客户的云迁移需求进行需求梳理及调研,可行性的论证以及迁移方案的规划; 2、负责客户迁移上云的实施工作,包括但不仅限于大数据产品; 3、能在迁移过程中支撑客户的故障排查、服务请求、配置变更、数据备份等各项工作; 4、编写对应项目的交付文档及验收报告等; 5、与客户建立良好的沟通机制,确保项目能够按期交付; 任职资格 1.精通阿里云大数据全家桶,可以全程上手操作执行搬迁。精通java代码,需要修改客户侧业务逻辑中数据上报代码 2.公有云迁移经验丰富,有3年以上大数据运维开发经验、熟悉腾讯云、阿里云控制台及常用云产品 3.必须做过阿里云到腾讯云的实施大数据迁移 4.熟悉且使用过Maxcompute、Dataworks、DLC、EMR、Wedata。 5.熟悉且使用过PolarDB、TKE、Nacos、mysql、redis.tdsql-c、RocketMQ、Kafka、waf.云防火墙等相关产品及迁移。 6.擅长离线任务、实时任务改造、数据一致性比对工具工具使用 7.具备良好的客情维护,客户沟通能力 8.接受出差或驻场;
-
【岗位职责】 1. 负责特慢病业务领域数据仓库PB级数据模型设计、开发与优化;对业务过程,数据使用场景等进行抽象,基于简单、易用、高效、可靠等原则建设离线/实时数据仓库,支撑上层数据产品和分析师,保证数据的产出和质量。 3. 基于业务场景设计ETL流程,实现多源业务数据数据的清洗、整合与存储。 4. 负责特慢病域整体任务的性能和资源调优,参与大数据平台的数据治理工作。 3. 深入理解特慢病管理业务逻辑(如销售分析指标、会员运营、患者用药周期、健康数据跟踪等),完成业务数据建模与指标体系建设。 【任职要求】 硬性条件: 1. 计算机等相关专业本科及以上学历。 2. 技术能力: - 具备3年以上数据仓库开发经验,主导过业务数仓模型设计,参与过性能和资源调优。(连锁零售、医药行业数据项目经验者优先,有大厂用户运营数据项目经验优先) - 精通Hadoop,Spark,熟练使用数据同步、Flnik、Kafka、Mysql、HBase、ES等大数据生态技术 - 精通SQL,熟悉linux系统,熟练使用shell,熟练掌握至少一门编程语言(Java/Scala/Python) - 熟悉至少一个ClickHous/Presto/Doris等主流olap引擎的使用 软性能力: 1. 逻辑清晰,对数据敏感,能独立拆解复杂业务问题并输出技术方案。 2. 具备跨部门协作经验,能与业务、产品团队高效沟通需求。 3. 学习能力强,拥有优秀的逻辑思维能力、良好的理解和表达能力、较强的抗压能力
-
岗位职责: 1.负责企业级大数据平台的设计、开发、维护与优化,参与实时和离线数仓设计、数据模型体系的构建和开发,提供统一、可靠的离线和实时数据服务; 2.构建高效、稳定的数据处理流程,解决海量数据(TB/PB级)下的性能瓶颈问题; 3.负责数据治理,建立数据规范,优化数据链路,保证数据时效和数据质量 4.负责实时计算(如Flink、Kafka)与离线计算(如Hive、Spark)任务的开发与调优; 5.协同数据管理部门、业务团队完成数据驱动的决策支持,提供可落地的数据解决方案; 6.跟踪大数据领域前沿技术(如湖仓一体、流批一体、AI工程化),推动技术升级与创新 职位要求: 1.学历背景 -计算机科学、软件工程、统计学等相关专业本科及以上学历,985/211优先。 -两年及以上大数据开发经验,最短一份工作经历不少于一年。有复杂业务场景的实战经验者优先。校招生本硕均985/211或海外本硕QS前100者优先。 2.技术要求 -精通Hadoop生态体系(HDFS/YARN/Hive/Spark/HBase等),熟悉分布式系统原理。研究过Hadoop或者Spark源代码的优先; -熟练掌握至少一门编程语言(Java/Scala/Python/Shell/SQL),具备高性能代码开发能力者优先; -熟悉实时计算框架(Flink、Kafka Streams)及消息队列(Kafka/Pulsar)者优先; -熟悉云原生大数据技术(华为云Mars产品等)者优先; -有数据治理、数据安全(如脱敏、权限控制)经验者优先; -熟悉数据仓库建模、ETL开发,对数据平台和数据分析等有一定的了解者优先。 3.其他能力 -良好的逻辑思维和沟通表达能力,有一定的组织协调能力,有团队合作精神,学习能力强: -技术视野开阔,有强烈的上进心和求知欲,善于学习和运用新知识;
-
Wind大数据主要涵盖大数据技术在金融行业的应用,对主流大数据业务和技术都有研究和应用,涉及的技术包括Hadoop/Spark/HBase/Hive/Sqoop/Kafka/Flink/ClickHouse等。目前我们已经搭建万得金融大数据中心,建设基于大数据技术的数据仓库,开发各种数据挖掘应用项目。我们欢迎对技术有高追求,具有工匠精神的人才加入。 1、负责研究各类大数据技术和产品,能够引入并实施,包括Hadoop、Flink生态圈的各种主流技术研究与应用等; 2、负责大数据集群管理和维护工作,不断提升系统的稳定性和效率,为公司的业务提供大数据底层平台的支持和保证; 3、设计并实现对BI分析、数据产品开发、算法开发的系统性支持; 4、研究未来数据模型和计算框架的创新与落地,包括但不限于以下领域:大规模数据实时计算、研发模式敏捷化、数据计算框架轻量化、数据模型组织方式业务化等方面,参与制定并实践团队的技术发展路线; 5、建立良好的公司内外的业界技术影响力;参与培养未来数据人才;有效辅导团队,提升数据研发能力。 职位要求: 1、本科及以上学历,数学、计算机、软件工程类、通信类、电子信息、自动化或相关专业,3年以上工作经验; 2、掌握Hadoop、Kafka、Hive、Flink、HBase、ClickHouse、Zookeeper、Oozie、CDH等技术的使用; 3、熟练掌握Java开发,熟悉SpringBoot、SpringCloud等开发框架,有JVM调优经验 4、有大数据和分布式系统开发背景; 5、对用户画像、用户标签、用户行为分析等技术熟悉且有实战经验; 6、有较强的业务分析能力和问题定位能力; 7、性格开朗,勇于挑战;良好的人际关系,对技术追求工匠精神。 有以下经验者优先: 1)熟悉CDH集群调度,有集群搭建部署及管理维护经验优先 2)有Flink实时流处理、实时数仓开发经验优先 3)Java技术功底扎实,对多线程、高并发有深入实战经验
-
岗位优势: - 战略角色:作为日本分公司早期核心成员,参与海外市场技术架构搭建,未来可晋升为技术领军人或技术管理层。 - 创业机遇:表现优异者有机会参与未来公司股权激励计划。 - 成长通道:2-3年内组建并带领技术团队,主导日本区域技术决策。 - 跨文化发展:中日技术体系深度融合,打造国际化职业履历。 岗位职责: 1、大数据平台运维:协助大数据平台的安装、配置、升级、监控及优化,保障系统稳定运行。 2、公有云环境管理(Azure / AWS):支持云上大数据平台的部署与维护,优化资源使用。 3、技术支持与故障排除:提供日常运维支持,响应并解决系统问题,与厂商进行沟通协调。 4、安全与自动化:执行基本的安全策略,协助使用自动化工具提高运维效率。 5、团队协作:与开发及数据团队配合,优化系统配置,提升性能。 任职要求: 1、计算机相关专业,学历不限; 2、1年以上大数据平台或云计算运维经验,熟悉基本的大数据组件运维(如Hadoop、Hive、Kafka等)。 3、熟悉Linux系统,能进行常见管理和维护,具备Shell或Python基础。 4、了解Azure / AWS等公有云的基本操作,有云运维经验者优先。 5、语言能力: 具备良好的英语阅读能力,能理解技术文档; 具备基础日语沟通能力(JLPT N2及以上),N1优先。 6、加分项(非必需): 持有大数据、云计算相关认证者优先(如AWS、Azure、Cloudera等)。
-
岗位职责: 1.参与建设统一的数据体系,持续集成相关工具产品,以及搭建大数据业务统一计算层等相关工作; 2.参与数据仓库的架构设计和研发,挖掘数据价值,建设与管理百PB级的公共数据平台和服务系统,实现高质量数据的互通与共享; 3.助力数据化运营业务,构建丰富多样的BI应用; 4.对数据采集、数据融合、数据质量、数据应用链路有深入理解,并能协助业务数据集市建设,搭建业务领域模型 任职要求: 1.数学、计算机、统计学等相关专业,5年以上相关工作经历; 2.从事数据仓库领域至少5年以上,熟悉数据仓库模型设计与ETL开发经验 ,掌握Kimball的维度建模设计方法,具备海量数据加工处理(ETL)相关经验; 3.有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关实践经验着优先,重点考察Hdfs、Mapreduce、Hive、Hbase; 4.有实时ETL研发经验,对分布式实时大数据处理系统有深入理解,包括但不限于Spark streaming、Flink、Storm...; 5.熟悉数据仓库领域知识和技能者优先,对数据质量管理有独到的见解; 6.具有电商行业经验,有业务sense,能够通过梳理设计业务模型发现业务问题,并驱动业务目标实现。 加分项 1.对数据挖掘和机器学习有所了解,包括常用的机器学习算法和数据建模过程的优先,并有落地的项目; 2.对Elasticsearch、Hbase、Druid、Kylin有深入理解并成功应用的大型项目


