【杭州数据采集】-招聘求职信息-拉勾招聘

推荐职位排序方式：默认最新
月薪：
不限
- 不限
- 2k以下
- 2k-5k
- 5k-10k
- 10k-15k
- 15k-25k
- 25k-50k
- 50k以上
工作性质：
不限
- 不限
- 全职
- 兼职
- 实习

大数据工程师（数据治理）-抖音电商
[余杭区] 02:09发布

25k-50k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、负责抖音电商数据治理工作，包括不限于成本、质量、效率，提升数据易用性、安全性及稳定性； 2、深入理解数据业务，发现并总结数据研发、数据成本、数据质量、数据安全等方面数据问题，提炼数据治理方法论，推动数据治理方法实施； 3、孵化并持续迭代优化数据治理产品，以系统化、智能化能力高效支撑数据业务快速发展。职位要求： 1、熟练使用SQL、Python、Java等工具进行大型数据分析及建模； 2、熟练使用Hadoop、Hive、Spark、Flink等组件进行大数据场景数据开发； 3、有较强的逻辑分析、沟通及工作推进能力，具备优秀的技术与业务结合能力； 4、对数据治理有一定的实践经验，有良好业务意识，对数据业务场景敏感，能够横向协同、跨团队整合资源，形成完整的方案解决业务/产品的问题； 5、有良好数据治理产品经验者、有实时数据研发经验者优先。
资深数据开发工程师-集团信息系统
[余杭区] 01:36发布

35k-55k 经验不限 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、深入业务，理解并合理抽象业务需求，发挥数据价值，与业务团队紧密合作； 2、负责数据模型的设计，ETL实施，ETL性能优化，ETL数据监控以及相关技术问题的解决； 3、负责指标体系建设与维护； 4、参与数据治理工作，提升数据易用性及数据质量。职位要求： 1、数据仓库实施方法论、深入了解数据仓库体系，并支撑过实际业务场景； 2、熟练使用Hadoop及Hive，熟悉SQL、Java、Python等编程语言；了解数据湖，并有相应落地经验可以成为加分项； 3、善于沟通，对业务敏感，能快速理解业务背景，具备优秀的技术与业务结合能力； 4、业务上有财务背景可以成为加分项。
数据（需求分析方向）(J13177)
[和睦] 1天前发布

15k-30k·14薪经验3-5年 / 本科

中华财险创新研发中心

金融软件开发 / 不需要融资 / 2000人以上

工作职责: 1、对接企业管理、运营侧的用户数据需求，对数据需求进行分析归纳，输出需求文档 2、基于业务需求，配合业务完成业务流程及业务指标梳理，参与KPI指标设计，撰写需求文档PRD，协助数据团队完成相关数据报表、数据服务及BI看板的设计与开发； 3、有良好的用户需求分析把握能力，能够独立完成需求调研，捕获用户需求痛点，扩展需求，挖掘潜在需求任职资格: 1、至少3年以上需求分析或产品设计经验 2、了解保险行业业务，具有保险行业数据中台、数据仓库、数据平台、数据应用、数据治理项目经验者优先 3、具备较强的需求分析、产品设计能力、文档撰写能力 4、有数据分析经验，数据敏感性高，熟悉SQL语言、有数据类项目经验优先； 5、候选人需具备较强的逻辑、沟通与组织能力和抗压能力，有项目协调/团队管理的经验优先
数据工程师（数据挖掘方向）(J13180)
[和睦] 1天前发布

20k-40k·14薪经验3-5年 / 本科

中华财险创新研发中心

金融软件开发 / 不需要融资 / 2000人以上

工作职责: 1、充分理解业务需求及痛点，利用数据挖掘、数据分析、机器学习等技术挖掘业务价值，解决业务需求； 2、负责风控、定价等板块具体的数据挖掘项目，包括但不限于数据加工、数据分析、特征工程、构建模型等工作，并就对应项目阶段性成果进行汇报与分享，为业务发展提供支持； 3、参与构建用户全生命周期营销管理，构建以用户运营为核心的高质量的标签体系； 4、与业务团队构建良好的合作关系，积极沟通交流，推动合作项目成功。任职资格: 1、3年以上数据分析/数据挖掘/机器学习等相关领域经验；**本科或以上学历；熟悉保险业务优先考虑； 2、熟练使用Python/Scala/Java中一门或多门语言；熟悉Spark/Hadoop/Hive等大数据处理技术，有阿里大数据生态Maxcompute、Dataworks、PAI项目经验的优先考虑；熟练使用Sql进行数据处理； 3、熟悉机器学习基本理论、数据分析常用方法论等相关理论知识，了解概率论与统计学基础； 4、有多类数据挖掘项目的实施落地经验，全链路打通并工程化部署，且能不断优化，进而产生业务效果； 5、自我驱动，能主动深入了解业务，适应业务变化；有良好的个人表达和组织沟通能力，推进项目开展。
高级数据采集工程师
[萧山区] 2024-04-28

18k-36k 经验5-10年 / 本科

知衣科技

人工智能服务 / B轮 / 150-500人

工作职责： 1. 负责数据采集爬虫项目的开发维护、性能优化等， 2. 以架构思维，确保数据采集架构的扩展性、稳定性 3. 规划数据采集爬虫的技术路线，研究和破解相关平台的反爬措施，保证数据获取的速度和稳定性。任职条件： 1. 熟练掌握各种爬虫技能，丰富的Java/Python数据采集开发经验，编程基础扎实； 2. 熟悉常见分布式系统架构和设计，熟悉分布式、缓存、消息等机制；能对分布式常用技术进行合理应用，解决问题； 3. 熟悉反爬机制，有安卓逆向 / ios逆向经验的优先
高级数据采集工程师
[余杭区] 2023-10-09

15k-25k 经验3-5年 / 本科

波形智能

文娱|内容,社交,工具 / 天使轮 / 15-50人

岗位职责： 1、负责数据采集系统架构和业务开发； 2、建立完整的数据采集、解析、入库和监控流程，并不断优化迭代完善； 3、解决常见的反爬虫问题，并建立相关的系统化策略； 4、深入理解系统数据处理流程以及业务功能需求； 5、保证数据的完整性和准确性； 6、对高难度的技术问题的探索和解决有着极强的自我驱动力。任职资格： 1、掌握Frida、Xposed、APKTool、JADX、IDA等常用逆向工具； 2、熟悉常见的Web和APP反爬手段和策略； 3、熟练掌握Python、Javascript或Go网络编程； 4、熟悉至少一种关系型数据库（如mysql等）； 5、计算机基础扎实，对数据结构、操作系统、计算机网络等技术技术有一定程度的掌握； 6、一年以上的数据采集开发经验，有丰富的Web及APP逆向工程经验；
数据采集工程师
[金家渡] 2022-11-29

15k-25k 经验1-3年 / 本科

搜道

电商,社交 / B轮 / 150-500人

岗位职责： 1、负责企业各类数据采集，进行多平台信息的采集和分析； 2、建立完整的数据获取、解析、入库和监控流程，优化系统瓶颈，不断迭代完善； 3、有验证码破解、反扒、分布式爬虫架构经验； 4、研究优化算法，提升爬虫系统的稳定性和可扩展性； 5、快速支撑业务所需数据落地；岗位要求： 1、全日制本科以上学历，计算机或其他相关专业； 2、熟练掌握Python/Java语言，熟练掌握JS语言； 3、精通数据采集技术，熟悉HttpClient/jsoup/XPath/CSS/正则表达式/验证码加密处理/代理池等网页信息抽取技术，熟悉HTTP底层协议； 4、精通各种反爬技术，并能够通过多种应对策略（如代理池、模拟登录、验证码与滑块的处理、浏览器渲染等）来保证数据的持续交付； 5、熟悉网页数据采集原理及技术，熟悉基于Cookie的网站登录原理； 6、熟悉数据清洗、去重、入库等技术，具有数据挖掘、机器学习背景者优先； 7、良好的编码能力，工作认真细致踏实，逻辑思维缜密，善于分析，以解决技术难题为乐趣，具备良好的沟通交流能力；
Spark大数据组件专家（南京/深圳办公） (MJ013721)
[长河] 1天前发布

40k-60k·15薪经验5-10年 / 本科

SHEIN

电商平台 / C轮 / 2000人以上

（此岗位需要在南京或者深圳办公）岗位职责： 1.大数据新技术规划、调研、选型及推广落地。 2.负责大数据组件内核开发优化，推进组件容器化，进行组件二次开发与适配等工作。 3.日常负责大数据框架组件的性能优化，稳定性保障，异常监控及线上问题对接解决。 4.参与平台功能研发，提供业务系统化的解决方案。任职标准： 1.至少6年以上相关经验，有扎实的计算机编程基础，精通java/scala,熟悉jvm的原理和调优。 2.精通spark/hive/flink组件原理和内核优化，有超大规模数据计算的架构设计和优化经验。 3.掌握大数据行业趋势，熟悉Kubernetes/Docker，有组件容器化相关经验。 4.具备较强的问题解决能力，能独立分析和攻坚复杂的技术难题。 5.有公有云使用经验者优先。 6.有良好的服务意识、沟通能力和团队协作精神。
数据工程师（工业场景大模型方向）
[金家渡] 2025-05-22

18k-25k·15薪经验3-5年 / 本科

普曼工业

新能源汽车制造,智能硬件,制造业 / 不需要融资 / 15-50人

岗位职责： 1. 数据采集与管理，调研并收集工业场景中可采集的数据源，制定数据采集目标、策略与规范；探索多模态数据（如图像、视频、文本、传感器数据）的获取与清洗方法； 2. 数据质量与标准化，根据业务需求，制定数据集设计标准和标注规范；建立数据质量评估体系，定期进行数据清洗与优化，提升数据价值； 3. 数据分析与应用支持，对采集到的数据进行特征分析和可视化展示，输出数据驱动的分析报告；与模型工程师紧密合作，明确数据需求，持续提供高质量、符合要求的数据集； 4. 前沿技术研究，跟踪数据工程领域前沿技术，探索自动化数据标注、数据增强等新方法；将新技术应用于工业场景，优化数据处理流程与效率。所需知识/技能 1. 具备 2 年以上数据工程、数据处理或相关领域工作经验，熟悉工业场景数据者优先； 2. 了解多模态数据处理技术，如计算机视觉、自然语言处理、传感器数据分析等； 3. 优秀的沟通与团队协作能力，能够与算法工程师、产品经理等跨部门协作； 4. 具备较强的需求分析能力，能够根据业务需求设计高效的数据解决方案； 5. 自主学习能力强，对新技术有浓厚兴趣。
大模型数据研发
[西溪] 2024-09-22

25k-50k 经验3-5年 / 本科

蚂蚁集团

科技金融 / 未融资 / 2000人以上

岗位职责为大模型应用和智能化业务提供高质量数据集 1. 在安全领域包含内容认知、流媒体、智能审标、智能凭证等场景，参与建设高质量、多样性的数据，通过数据采集、AIGC生成等技术手段不断提高数据规模 2. 深入了解数据内容，分析数据的特征，持续优化数据低质过滤、去重和增强等能力，提升数据的质量 3. 制定严格的数据质量标准，对数据进行分析和分类，评估数据质量，解决数据主题分布、内容合规、反毒性、反偏见等问题 4. 构建Data-Centric AI数据闭环，探索在固定模型和评测情况下提高数据质量的路径，包括持续优化数据质量，复现大模型数据相关论文，研究数据和模型的Scaling Law、研究数据配比、数据混入策略与混入时机 5. 围绕更具体细分类数据（如内容检测、图像理解、视频理解等）构建相应大模型的数据-训练-评测链条，并针对细分类数据建立质量评估与优化体系，促进细分类数据质量提升。岗位要求 1. 本科学历及以上，3年及以上工作经验，人工智能、机器学习、模式识别、统计学相关专业优先 2. 较为丰富的大数据研发经验，有PB级别数据处理经验；熟悉Spark/ODPS/Ray等大数据分布式平台 3. 熟悉数据挖掘、人工智能、多模态领域的相关研究工作和实践经验，拥有发表顶会论文、大模型研究工作、知名竞赛获奖、研究机构或一线互联网工作经验者优先 4. 熟练使用Python、Pytorch和CUDA等语言及工具，具备快速阅读和复现论文的能力，能够系统性对比研究领域的相关成果，并制定改进计划 5. 具备优秀的数据分析和解决问题能力，良好的团队合作精神及沟通意识 6. 具备良好的学习能力和主动性，能够跟进领域内最新技术研究成果，并结合应用场景快速实验和调优
数据爬虫工程师
[钱塘区] 2024-07-25

12k-14k 经验1-3年 / 不限

企研数据

数据服务、软件开发 / 未融资 / 少于15人

岗位职责： 1. 负责爬虫产品的开发与维护； 2. 参与爬虫系统架构的设计和开发； 3. 优化爬虫系统代码、算法，提高爬虫系统的稳定性和扩展性； 4. 研究网站的反爬策略，并给出反爬措施； 5. 对抓取的数据进行清洗、预处理、入库，包括去除重复数据、处理缺失值、规范化数据格式等； 6. 维护爬虫项目代码仓库；测试网站： 1.http://cx.cnca.cn/CertECloud/resultSn/skipResultSnFull?currentPosition=%E9%A3%9F%E5%93%81%E5%86%9C%E4%BA%A7%E5%93%81%E8%AE%A4%E8%AF%81 2.https://www.nmpa.gov.cn/datasearch/home-index.html?3jfdxVGGVXFo=*************#category=yp 岗位要求： 1. 要求至少2-3年工作经验，千万级数据采集经验 2. 熟练使用 Pyhton，熟练使用常用的爬虫框架( 比如 scrapy 等 )，了解反爬套路及破解方法 3. 熟悉 web 前端技术，对 cookie 管理、登录等流程有深入理解，熟练使用 bs4、xpath 等文本解析工具 4. 熟悉各种网络协议，熟悉 web 前端，熟悉 js、html 等 5. 熟悉 Linux 开发环境，熟悉 git 工具 6. 熟悉 Oracle、Mysql 数据库，对 Mongodb、Redis 有一定的使用经验 7. 有了解过瑞数，有验证码破解经验者优先
数据开发工程师
[西兴] 2024-02-28

10k-18k 经验1-3年 / 不限

跃鱼信息科技（杭州）有限公司

内容社区,工具类产品,人工智能服务 / 天使轮 / 15-50人

岗位职责： 1.对各产品线的数据收集、集成、传输、清洗、数据加工和落地数仓； 2.高效支撑数据任务开发，赋能数据能力，保障数据质量； 3.参与数据仓库模型的设计，为上层应用提供优质的数据；参与数据项目的开发。任职要求： 1.熟悉hadoop、hdfs、hive、hbase,clickhouse,flink等开源工具的架构; 2.了解数据仓库建设理论与方法、具备丰富的实践经验；精通SQL；熟悉python或者java编程语言其中一个 3.熟悉flink的运行原理和特性，有实时开发的经验 3.具有大数据平台、数据仓库相关领域项目开发实施经验，熟悉但不限于数据采集/数据处理/数据分析/报表开发； 4.了解大数据产品datawork特性和原理； 5.对数据敏感，有较强的逻辑分析能力，良好的团队协作，乐于沟通交流和分享。
数据爬虫工程师
[滨江区] 2024-01-19

15k-25k 经验1-3年 / 本科

中湘科技

软件服务｜咨询,IT技术服务｜咨询,营销服务｜咨询 / D轮及以上 / 150-500人

大模型数据采集与使用工程师（3名，初级，11月底前入职）职责： 1、负责设计和实施数据爬取方案，包括各种攻关如爬虫验证码破解、模拟登录、数据签名解签、请求包解析等； 2、负责数据存储、管理，包括mysql、pgsql、ES、hadoop/spark、arangodb等； 3、负责使用大模型为业务场景赋能，挖掘大模型的潜能，使用场景知识+大模型为业务提效；职位要求： 1、具有爬虫工作经验，熟悉http请求、加密解密签名基础理论、用户授权等技术，有使用深度学习算法模型经验优先； 2、熟练掌握Python、SQL语言，掌握JAVA或GO是加分项； 3、有使用过大模型并对大模型的prompt有调优经验者优先； 4、具备良好的逻辑思维和问题分析解决能力； 5、具备良好的沟通和团队合作能力，能够与其他团队合作完成项目。
数据开发专家
[余杭区] 2023-12-30

20k-40k·14薪经验3-5年 / 本科

预策科技

数据服务｜咨询,人工智能服务 / A轮 / 50-150人

岗位职责1、深入理解客户业务需求，对数据进行抽象建模，沉淀行业数据业务模型。2、设计并优化高质量的底层数据指标和质量体系，数据驱动业务发展。3、提供面向业务的数据服务，并主导交通行业数据平台架构设计和开发。4、基于统计学/机器学习算法，对政府交通相关数据进行挖掘及根因分析。岗位要求1. 熟悉数据仓库体系结构，具备数据模型和数据集市架构设计能力。2. 熟悉SQL 、UDF、Java/Python/Shell开发能力，熟悉Linux系统。3. 精通多种异构数据的采集、传输、存储、分析等整个大数据链路技术栈。4. 了解机器学习常用算法，具备自然语言处理、特征分析等方面知识及应用经验者优先5. 出色的沟通协调和客户关系处理经验，良好的合作意识和技术功底，富有感染力。6. 欢迎优秀有冲劲的年轻伙伴！公司现状：我们是余杭政府重点支持的准独角兽企业，F1级别的赛道，已经快直线起飞了。薪酬待遇：我们要求很高，但同时提供的薪酬不低于隔壁的阿里，股票期权，全额缴纳五险一金，试用期全薪，丰厚年终奖。团队情况：真·大牛带队（TL都是各自领域的权威！！！），100%本科学历，211、985院校的同学占比70%，优秀的你快到碗里来。招聘流程：流程超快，保证2天内电面，2周内走完全流程！！
数据产品经理
[北山] 2023-03-21

15k-30k 经验3-5年 / 本科

杭州微风企科技有限公司

数据服务 / 未融资 / 15-50人

岗位职责： 1.负责大数据研发平台、储存计算引擎的产品设计、规划和落地。 2.搭建数仓体系，建立和完善数据采集标签和可视化分析体系，提供有驱动力的数据分析工具类产品； 3.建立产品的核心指标体系，挖掘产品存在的问题和机会点； 4.对主流大数据、数据仓库、BI产品的发展趋势有深入了解，负责设计过数据分析、数据挖掘、数据可视化、在线数据相关产品； 5.优化与完善数据工具，以数据为驱动力，为产品策划和运营提供决策依据及策略指导； 6.关注大数据应用相关方向的前沿研究，并将相关数据结合产品特点，设计数据个性化产品及可视化产品。岗位要求： 1.本科学历及以上，硕士博士优先考虑； 2. 完整参与过完整数据中台系统建设项目，具备数据产品设计和管理经验，善于产品设计，竞品分析等有见解，理解产品、内容运营； 3.小微企业相关金融产品、信用评估分析相关工作经验优先； 4.富有脑洞打开的创造力和想象能力，较强的跨部门沟通协作能力，和一流的执行能力。加分项：有以下行业经验：企业服务、计算机服务、互联网金融。