-
工作内容 职位描述: 1. 参与数据仓库规划、架构及研发,包括离线、实时的数据模型规划,建设PB级的数据集市和数据平台。 2. 负责数据模型的规划、架构、开发以及海量数据下的性能调优,复杂业务场景下的需求交付。 3. 参与平台数据治理相关工作,负责数据质量、数据一致性及稳定性保障等建设。 4. 深入业务,与业务团队紧密合作,理解并合理抽象业务需求,发掘数据价值,以数据驱动业务不断发展。 5. 关注行业技术趋势,引入新技术和工具,持续优化大数据处理流程与性能,提升业务的数据处理效率和价值产出。 岗位要求 任职要求: 1. 本科及以上学历,计算机、软件工程、数据分析或相关专业出身,2-5年大数据开发经验。 2. 掌握Java, Python等至少一门语言,熟悉常用数据结构与算法。 3. 熟悉大数据生态技术栈,具备较丰富的Hadoop,Hive,Spark,Flink等开发经验。 4. 精通数据仓库理论体系,对分层设计、维度建模等有深刻的认识和实战经验,熟悉不同建模方法的优劣。 5. 积极主动贴近业务,有良好的沟通协调能力,数据敏感度高,能够快速理解业务模型及数据模型,从业务角度出发分析和解决数据问题。 6. 具备优秀的问题解决能力和团队协作精神,对大数据技术充满兴趣,学习能力和自我驱动力强 7. 有数据中台建设经验优先。有数据分析能力、指标体系搭建或BI相关经验优先。有互联网工作经验优先。 8. 加分项:英文沟通表达、云平台(如阿里云、AWS、Google Cloud)经验。
-
岗位职责: 1. 大数据平台组件运维及优化,进行必要的二次开发; 2. 数据湖、数据仓库技术研究及落地; 3. 实时、离线数据产品设计及开发。 任职要求: 1. 本科及以上学历,计算机及相关专业; 2. 3-5年Java/Scala开发经验,熟悉多线程编程; 3. 熟悉大数据生态相关技术,有二次开发经验者优先; 4. 熟悉实时及离线数仓架构及开发流程,有Phoenix/StarRocks使用经验优先; 5. 熟悉常见设计模式,熟悉如Spring/SpringMVC/Mybatis等主流框架; 6. 有较强的学习能力与逻辑思维能力,良好的团队合作精神。
-
岗位职责 作为大数据研发工程师,你将深度参与搜推业务链路的实时与离线数据处理体系建设,核心工作包括但不限于: •基于Flink/Spark 构建用户行为数据的实时(或近实时)采集、清洗、聚合与特征计算链路,实现用户兴趣标签、行为序列、实时偏好等画像特征的更新与存储; •设计高并发、低延迟的实时数据管道,对接搜索/推荐业务的实时请求,支撑个性化排序、精准召回等策略的实时反馈优化; •通过Redis/Elasticsearch/OpenSearch实现画像特征的实时存储与高效检索,保障下游业务(如前端展示、策略调用)的低延迟访问。 •负责离线数据仓库的开发与维护(使用Spark/MaxCompute),完成海量用户行为数据的ETL、数仓分层建模与指标计算; •基于阿里云Lindorm/MaxCompute/DataWorks等工具,优化数据存储成本与计算效率(如冷热数据分层、任务调度调优),支撑业务方的高效取数与分析需求; •针对搜推业务中的复杂场景(如跨域数据关联、实时+离线特征一致性、大规模稀疏特征处理),设计可扩展的技术方案并推动落地; 任职要求 •**本科及以上学历,计算机相关专业,大数据开发相关经验; •熟练掌握并使用(Flink,Spark Spark SQL/DataFrame、DataWorks调度等),有海量数据(TB级以上)的ETL与数仓开发经验; •熟悉消息队列(Kafka必备)、搜索引擎(Elasticsearch/OpenSearch加分)、缓存(Redis等)及云原生大数据组件(阿里云Lindorm/MaxCompute/DataWorks优先)的原理与应用; •具备扎实的编码能力(Java/SQL至少一种),熟悉Linux环境与常用脚本工具,有分布式系统调优经验(如JVM调优、任务并行度优化等)。 •具有良好的沟通能力和组织协调能 加分项: •有实时画像/风控平台建设经验,熟悉用户行为特征工程、规则引擎或模型推理链路集成; •理解搜索/推荐业务逻辑,了解排序策略、召回链路与数据特征的关联性; •对数据敏感,具备较强的业务抽象能力与问题排查能力(如通过日志/指标定位数据延迟、丢失或不一致问题)。
-
岗位职责: 1.负责ETL相关开发工作,深度参与数据仓库的建设与优化,保障数据存储的高效性与稳定性,支撑公司战略级数据项目的落地。 2.主导复杂数据处理流程的开发与优化,基于 Python 编写高性能的数据处理脚本,结合 spark、pandas、duckdb等进行大规模数据清洗、转换与分析,实现数据挖掘与机器学习模型开发,推动数据价值的深度挖掘。 3.设计和维护基于 Airflow 的工作流调度系统,实现数据处理任务的自动化调度与监控,确保数据处理任务按时、准确执行,提升数据开发与运维效率。 4.与业务部门紧密协作,深入理解业务需求,将业务逻辑转化为数据解决方案,通过数据驱动业务决策,助力业务增长。 5.研究大数据领域的前沿技术,持续优化数据开发技术栈与流程。 任职资格: 1.具备 3 年及以上大数据开发相关工作经验,拥有丰富的大数据项目实战经验,能够独立承担复杂数据开发任务。 2.熟练掌握 Python 编程,具备基于 Python 的大数据开发工作经验,能够运用 Python 进行高效的数据处理与算法实现。 3.熟悉数仓建设方法论 1)熟悉etl分层建设方法 2)熟悉主题建设方法,能独立抽象主题,建设主题,并且物理化和性能调优 3)熟悉常用的BI系统建设方法,理解实现原理,理解各个工具使用场景 4.精通大数据开发相关技术栈,包括但不限于 Hadoop、Spark、Hive 等,能够熟练运用这些技术进行数据处理与分析。 5.熟练掌握 Airflow,能够基于 Airflow 进行工作流设计、调度与监控;熟练使用相关技术进行数据处理与分析并能够运用其实现常见的数据挖掘与机器学习算法。 6.熟练掌握sql和调优。 7.熟练掌握python。 加分项 1.具备统计学、数学建模等相关知识,能够运用统计方法进行数据分析与模型构建。 2.有分布式系统开发、数据可视化开发经验者优先。 薪资待遇 ****,我们提供具有竞争力的薪酬体系与广阔的职业发展空间,期待优秀的你加入!
-
岗位概述:正在寻找一名Python数据开发工程师加入我们的开发团队,您将与我们优秀的工程师和研究人员一起,负责开发和维护我们的高性能数据科学研究系统的相应组件。 岗位职责: 1、熟悉使用Python来开发数据应用,熟悉数据ETL; 2、高质量完成数据开发需求,充分测试,保证数据的准确些、一致性、及时性、完整性; 3、参与开发量化交易研究的回测系统组件,包括但不限于Tick数据采样、特征构造、特征选择、以及拟合等 4、开发可重用的代码和库;完成高质量的、可维护的代码; 5、可参与开发深度学习策略、自动化实盘交易系统等其他内部系统。 任职要求: 1、本科以上理工科类学历,学习过计算机体系结构、数据结构等计算机类专业课; 2、有2年以上Python开发经验,其中至少半年以上为数据处理类工作如爬虫、ETL等; 3、熟悉Linux环境下开发,熟悉常用的Bash指令; 4、熟悉Pandas/Polars等时序数据类库以及Numpy等科学计算库; 5、熟悉MongoDB等NoSQL数据库; 6、熟悉Python中基本的数据结构的使用方法,了解其计算复杂度; 7、自驱、认真负责、技术沟通和技术协作能力强。 加分项: - 有金融行业数据处理经验。 - 有容器化(Docker)开发部署经验。 - 有使用serverless系统开发的经验,例如阿里云FC,亚马逊Lambda。
-
岗位职责: 1.需求分析:负责与数据运营团队紧密合作,理解业务需求,制定技术方案,确保开发的项目能够满足数据运营的需求。 2.系统开发:负责数据运营系统的设计、开发、测试及优化工作,确保系统的高效、稳定运行。 3.数据处理:负责数据采集、清洗、转换、存储等环节的开发工作,为数据运营提供准确、实时的数据支持。 4.性能优化:对现有系统进行性能分析和优化,提高系统处理大数据的能力,降低系统延迟。 5.技术支持:为数据运营团队提供技术支持,协助解决数据运营过程中遇到的技术问题。 任职要求: 1.学历要求:本科及以上学历,计算机科学与技术、软件工程等相关专业。 2.工作经验:至少2年以上Java开发经验,有数据运营相关项目经验者优先。 3. 技能要求: - 熟悉Java编程语言,掌握面向对象编程思想,具备良好的编码习惯。 - 熟悉Spring、Spring Boot、MyBatis等主流开发框架。 - 熟悉Oracle、MySQL等关系型数据库,具备一定的数据库设计和优化能力。 - 熟悉Redis、MongoDB等NoSQL数据库,了解其使用场景。 - 熟悉Linux操作系统,熟悉常用的命令和脚本编写。 - 熟悉大数据处理技术,如Hadoop、Spark等。 - 熟悉分布式系统设计和开发,了解分布式计算、存储、消息队列等技术。 - 熟悉前端技术,如HTML、CSS、JavaScript等,具备前后端分离的开发经验。 4. 沟通能力:具备良好的沟通能力,能够与团队成员、业务部门有效沟通,确保项目顺利进行。 5. 团队协作:具备良好的团队协作精神,能够积极配合团队成员完成项目任务
-
职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 1、参与字节跳动抖音电商、生活服务等业务离线和实时数据仓库建设工作; 2、面向PB级超大规模数据问题,每天处理千亿增量的用户行为数据; 3、为大数据的全生命周期提供服务,覆盖数据产生,传输,建模,统计分析,实验评估,可视化的全流程; 4、构建设计良好的数据流、数据仓库、调度系统、查询引擎,数据服务、分析系统、流程规范,数据工具/产品,降低数据的使用门槛,保证系统稳定高效运行,以实现数据的最大价值。 职位要求: 1、2026届本科及以上学历在读,计算机等相关专业优先; 2、熟悉数据仓库实施方法论、了解数据仓库体系; 3、会使用SQL,掌握Java、Python、R、Scala、C/C++中任意一门编程语言; 4、善于沟通,对数据敏感,责任心强、积极主动; 5、每周可以实习4天以上,连续实习3个月以上。
-
职位职责: ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节数据BP团队以数据高效赋能业务为使命,在字节内部深入各业务线,以数据建设为基础,业务目标为导向,提供专业,稳定,高效的数据服务和架构方案。 1、参与字节跳动抖音、直播、番茄小说等业务离线和实时数据仓库建设工作; 2、面向PB级超大规模数据问题,每天处理千亿增量的用户行为数据; 3、为大数据的全生命周期提供服务,覆盖数据产生,传输,建模,统计分析,实验评估,可视化的全流程; 4、构建设计良好的数据流、数据仓库、调度系统、查询引擎,数据服务、分析系统、流程规范,数据工具/产品,降低数据的使用门槛,保证系统稳定高效运行,以实现数据的最大价值。 职位要求: 1、2026届本科及以上学历在读,计算机、软件工程等相关专业优先; 2、熟悉数据仓库实施方法论、了解数据仓库体系; 3、会使用SQL,掌握Java、Python、R、Scala、C/C++中任意一门编程语言; 4、有大数据集、分布式计算工具(Map/Reduce,Hadoop,Hive等)工作经验优先; 5、思路清晰,善于思考,有很强的数据分析能力,能独立分析问题并推动解决问题; 6、每周可以实习5天以上,连续实习3个月以上。
-
【岗位职责】 1. 负责特慢病业务领域数据仓库PB级数据模型设计、开发与优化;对业务过程,数据使用场景等进行抽象,基于简单、易用、高效、可靠等原则建设离线/实时数据仓库,支撑上层数据产品和分析师,保证数据的产出和质量。 3. 基于业务场景设计ETL流程,实现多源业务数据数据的清洗、整合与存储。 4. 负责特慢病域整体任务的性能和资源调优,参与大数据平台的数据治理工作。 3. 深入理解特慢病管理业务逻辑(如销售分析指标、会员运营、患者用药周期、健康数据跟踪等),完成业务数据建模与指标体系建设。 【任职要求】 硬性条件: 1. 计算机等相关专业本科及以上学历。 2. 技术能力: - 具备3年以上数据仓库开发经验,主导过业务数仓模型设计,参与过性能和资源调优。(连锁零售、医药行业数据项目经验者优先,有大厂用户运营数据项目经验优先) - 精通Hadoop,Spark,熟练使用数据同步、Flnik、Kafka、Mysql、HBase、ES等大数据生态技术 - 精通SQL,熟悉linux系统,熟练使用shell,熟练掌握至少一门编程语言(Java/Scala/Python) - 熟悉至少一个ClickHous/Presto/Doris等主流olap引擎的使用 软性能力: 1. 逻辑清晰,对数据敏感,能独立拆解复杂业务问题并输出技术方案。 2. 具备跨部门协作经验,能与业务、产品团队高效沟通需求。 3. 学习能力强,拥有优秀的逻辑思维能力、良好的理解和表达能力、较强的抗压能力
-
岗位职责: 1.负责企业级大数据平台的设计、开发、维护与优化,参与实时和离线数仓设计、数据模型体系的构建和开发,提供统一、可靠的离线和实时数据服务; 2.构建高效、稳定的数据处理流程,解决海量数据(TB/PB级)下的性能瓶颈问题; 3.负责数据治理,建立数据规范,优化数据链路,保证数据时效和数据质量 4.负责实时计算(如Flink、Kafka)与离线计算(如Hive、Spark)任务的开发与调优; 5.协同数据管理部门、业务团队完成数据驱动的决策支持,提供可落地的数据解决方案; 6.跟踪大数据领域前沿技术(如湖仓一体、流批一体、AI工程化),推动技术升级与创新 职位要求: 1.学历背景 -计算机科学、软件工程、统计学等相关专业本科及以上学历,985/211优先。 -两年及以上大数据开发经验,最短一份工作经历不少于一年。有复杂业务场景的实战经验者优先。校招生本硕均985/211或海外本硕QS前100者优先。 2.技术要求 -精通Hadoop生态体系(HDFS/YARN/Hive/Spark/HBase等),熟悉分布式系统原理。研究过Hadoop或者Spark源代码的优先; -熟练掌握至少一门编程语言(Java/Scala/Python/Shell/SQL),具备高性能代码开发能力者优先; -熟悉实时计算框架(Flink、Kafka Streams)及消息队列(Kafka/Pulsar)者优先; -熟悉云原生大数据技术(华为云Mars产品等)者优先; -有数据治理、数据安全(如脱敏、权限控制)经验者优先; -熟悉数据仓库建模、ETL开发,对数据平台和数据分析等有一定的了解者优先。 3.其他能力 -良好的逻辑思维和沟通表达能力,有一定的组织协调能力,有团队合作精神,学习能力强: -技术视野开阔,有强烈的上进心和求知欲,善于学习和运用新知识;
-
Wind大数据主要涵盖大数据技术在金融行业的应用,对主流大数据业务和技术都有研究和应用,涉及的技术包括Hadoop/Spark/HBase/Hive/Sqoop/Kafka/Flink/ClickHouse等。目前我们已经搭建万得金融大数据中心,建设基于大数据技术的数据仓库,开发各种数据挖掘应用项目。我们欢迎对技术有高追求,具有工匠精神的人才加入。 1、负责研究各类大数据技术和产品,能够引入并实施,包括Hadoop、Flink生态圈的各种主流技术研究与应用等; 2、负责大数据集群管理和维护工作,不断提升系统的稳定性和效率,为公司的业务提供大数据底层平台的支持和保证; 3、设计并实现对BI分析、数据产品开发、算法开发的系统性支持; 4、研究未来数据模型和计算框架的创新与落地,包括但不限于以下领域:大规模数据实时计算、研发模式敏捷化、数据计算框架轻量化、数据模型组织方式业务化等方面,参与制定并实践团队的技术发展路线; 5、建立良好的公司内外的业界技术影响力;参与培养未来数据人才;有效辅导团队,提升数据研发能力。 职位要求: 1、本科及以上学历,数学、计算机、软件工程类、通信类、电子信息、自动化或相关专业,3年以上工作经验; 2、掌握Hadoop、Kafka、Hive、Flink、HBase、ClickHouse、Zookeeper、Oozie、CDH等技术的使用; 3、熟练掌握Java开发,熟悉SpringBoot、SpringCloud等开发框架,有JVM调优经验 4、有大数据和分布式系统开发背景; 5、对用户画像、用户标签、用户行为分析等技术熟悉且有实战经验; 6、有较强的业务分析能力和问题定位能力; 7、性格开朗,勇于挑战;良好的人际关系,对技术追求工匠精神。 有以下经验者优先: 1)熟悉CDH集群调度,有集群搭建部署及管理维护经验优先 2)有Flink实时流处理、实时数仓开发经验优先 3)Java技术功底扎实,对多线程、高并发有深入实战经验
-
岗位职责: 1.参与建设统一的数据体系,持续集成相关工具产品,以及搭建大数据业务统一计算层等相关工作; 2.参与数据仓库的架构设计和研发,挖掘数据价值,建设与管理百PB级的公共数据平台和服务系统,实现高质量数据的互通与共享; 3.助力数据化运营业务,构建丰富多样的BI应用; 4.对数据采集、数据融合、数据质量、数据应用链路有深入理解,并能协助业务数据集市建设,搭建业务领域模型 任职要求: 1.数学、计算机、统计学等相关专业,5年以上相关工作经历; 2.从事数据仓库领域至少5年以上,熟悉数据仓库模型设计与ETL开发经验 ,掌握Kimball的维度建模设计方法,具备海量数据加工处理(ETL)相关经验; 3.有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关实践经验着优先,重点考察Hdfs、Mapreduce、Hive、Hbase; 4.有实时ETL研发经验,对分布式实时大数据处理系统有深入理解,包括但不限于Spark streaming、Flink、Storm...; 5.熟悉数据仓库领域知识和技能者优先,对数据质量管理有独到的见解; 6.具有电商行业经验,有业务sense,能够通过梳理设计业务模型发现业务问题,并驱动业务目标实现。 加分项 1.对数据挖掘和机器学习有所了解,包括常用的机器学习算法和数据建模过程的优先,并有落地的项目; 2.对Elasticsearch、Hbase、Druid、Kylin有深入理解并成功应用的大型项目
-
职位描述 • 独立完成大数据ETL及其他相关的技术功能开发 • 与技术主管一起参与需求和设计的评审,并进行开发进度的评估 • 在重大开发、设计中规避风险提出设计建议 • 和其他工程师沟通并共同完成技术架构升级 任职条件 • 本科及以上学历,统计、数学、计算机、通讯等相关专业优先, 技术优异者可放宽条件 • 熟悉大数据数仓模型; 有ETL ,可视化分析,BI产品应用等经验 • 熟悉大数据技术生态圈,对大数据基础架构和平台有深刻理解,对基于Hadoop的大数据体系有深入认识,具备相关产品(Hadoop、Hive、HBase、Spark、Flink、 Flume、Kafka、ES等)项目应用研发和管理、优化经验 • 掌握大数据各环境软、硬件、组件配置 • 具备linux操作系统经验 • 掌握scala/java/python/sql/shell 等一种或多种语言 • 有MA(Marketing Automation)相关项目开发经验优先 • 有前后端web开发经验优先 • 具有敏捷项目开发经验者优先 • 具备优秀的团队意识和良好的沟通能力,学习能力和主动性强,具有钻研精神,充满激情,乐于接受挑战
-
工作要求: *有AWS平台组件的实际项目经验,包括EMR(包括hive、hbase、phoenix、flink等)、redshift、S3、EKS等。有开源气流的实际项目经验,熟悉python, shell等。熟悉Jenkins, Gitlab,有实际项目经验。 *微服务框架的实际项目经验,主要涉及对外公开API,对外系统提供数据服务,以及k8s使用的实际项目经验。 * EMR(包括hive、hbase、phoenix、flink等)、redshift、S3、EKS等。有开源气流的实际项目经验,熟悉python, shell等。熟悉Jenkins, Gitlab,有实际项目经验。 **本科以上学历,英文读写可以。
-
岗位职责: 1、协助大数据平台的搭建、部署。 2、大数据相关前沿技术、运用学习。 3、协助数据开发工作,包括数据仓库以及数据应用的技术设计和开发。 任职要求: 1、数据科学与大数据技术或计算机相关专业,*****本科及以上学历。 2、熟悉Linux开发环境,熟悉Shell,需要脚本编写及文件处理功底。 3、熟悉Java, Scala,Python开发语言。 4、了解至少一种任务调度框架,如Airflow , DolphinScheduler。 5、了解Hadoop系大数据组件、工具的原理,能熟练使用Hive、Spark、Flink等大数据开发工具。 6、了解Oracle、Mysql、Greenplum等主流数据库的其中一种。 7、了解Postgresql数据库引擎。 8、有良好的沟通和学习能力,强烈的工作责任心和良好的团队协作能力。 加分项: 1、有良好的文档整理能力,包括且不限于技术手册、项目方案、各类表格制作。 2、了解华为大数据体系。


