【抓取工程师】-招聘求职信息-拉勾招聘

推荐职位排序方式：默认最新
月薪：
不限
- 不限
- 2k以下
- 2k-5k
- 5k-10k
- 10k-15k
- 15k-25k
- 25k-50k
- 50k以上
工作性质：
不限
- 不限
- 全职
- 兼职
- 实习

数据抓取工程师
[长沙·岳麓区] 2024-03-05

10k-15k 经验3-5年 / 本科

中宸数科

企业服务,人工智能,工具 / 未融资 / 15-50人

数据抓取工程师职位描述： 1、负责搭建数据抓取系统，根据数据源头进行数据抓取，对数据抓取的及时性负责； 2、负责对抓取数据进行解析、清洗，对数据一致性、准确性负责； 3、负责相关数据抓取服务的工程建设和指标建设，对数据生产链条的健壮性、高效性负责。任职要求： 1、本科或以上学历，有3年以上数据抓取开发经验； 2、熟练掌握Python等编程语言，具有扎实的编程基础和良好的代码风格； 3、具备丰富的爬虫开发经验，熟悉各类爬虫框架和工具，如Scrapy、Selenium等； 4、熟悉HTTP协议和常见的网页解析技术，具备良好的数据清洗和处理能力； 5、熟悉MySQL、MongoDB、Redis等； 6、具备良好的沟通和团队合作能力，能够与数据开发、后端开发人员等协作，共同完成项目目标
产品策划 (MJ000811)
[杭州·西湖区] 1天前发布

18k-35k 经验5-10年 / 本科

边锋

游戏 / 不需要融资 / 500-2000人

岗位职责: 1、负责棋牌产品的设计研发和优化工作，并对产品功能进行测试、验收，保证产品质量； 2、了解棋牌市场动态，持续跟踪分析市场上的竞品，总结出产品和竞品的差异之处，寻找产品提升和优化空间； 3、分析上线产品的运营数据，从数据中挖掘信息，提出产品改进意见，不断完善在线产品、持续改善用户体验； 4、利用微信社交优势并挖掘更多来量渠道提升产品DAU；岗位要求: 1、5年以上互联网产品或策划岗经验，有完整的项目经验，对棋牌游戏有一定的了解； 2、具备一定的数据分析能力，能够敏锐的抓取产品运作中的关键数据并提出改进意见； 3、自驱性强，工作积极主动，有良好的团队协作意识，定期总结，注重自我提升； 4、逻辑清晰，具备良好的语言沟通和表达能力，有成功项目经验者优先。
python开发工程师
[上海·江桥] 1天前发布

20k-30k 经验3-5年 / 本科

典通资讯

电商 / 不需要融资 / 50-150人

岗位职责： 1、梳理和解读业务，提供数据层面的问题解决方案； 2、协助进行数据提取.清洗.转换等处理工作，搭建自动化的数据生产线 3、参与数据处理框架的开发和数据处理平台的建设； 4、协助开发和维护独立的数据处理工具岗位要求： 1.熟悉Python基本语法，熟练使用AI工具，具有独立项目开发经验以及具有大模型经验 2.工作年限3-5年 3.熟练掌握scrapy框架，tensorflow，pytroch等框架，了解多线程、多进程、网络通信编程相关知识，有分布式爬虫架构，数据挖掘经验； 4.掌握网页抓取原理及技术，了解基于Cookie的登录原理，熟悉基于正则表达式、XPath、CSS等网页信息抽取技术； 5.熟悉各种反爬机制，掌握Selenium，APP破解技术优先； 6.做过数据处理、ETL等相关工作优先； 7.对大数据相关技术感兴趣。学历要求：**公办本科及以上，985与211大学优先录用。学信网可查，有***书
（深圳）数据处理及分析专员
[深圳·福田区] 1天前发布

10k-15k 经验1-3年 / 大专

KLOOK 客路旅行

旅游｜出行 / D轮及以上 / 500-2000人

岗位职责： 1. 使用SQL等数据抓取工具从各种数据源中提取数据，并进行数据清洗和整理。 2. 运用统计学和数据分析方法对数据进行分析，发现趋势、模式和关联性。 3. 利用数据可视化工具（如Tableau、Power BI等）创建仪表盘、报告和可视化图表，以向利益相关者传达数据洞察。 4. 协助团队成员进行数据分析项目，提供支持和建议。 5. 监测和评估数据质量，确保数据的准确性和完整性。 6. 跟踪行业趋势和竞争对手的数据，提供市场洞察和建议。岗位要求： 1. 2-3年相关工作经历。 2. 熟练掌握SQL等数据抓取工具，能够编写和优化复杂的查询语句。 3. 具备数据清洗和整理的技能，能够处理大量数据并确保数据的准确性。 4. 熟悉统计学和数据分析方法，能够运用这些方法解决实际问题。 5. 熟练使用数据可视化工具，能够将数据转化为易于理解和传达的可视化图表和报告。 6. 对商业和旅游行业有浓厚的兴趣，了解相关行业的趋势和挑战。 7. 具备良好的沟通和团队合作能力，能够与不同部门和利益相关者进行有效的合作。 8. 具备解决问题和分析能力，能够快速理解和解决复杂的数据相关问题。
python工程师
[郑州·金水区] 1天前发布

7k-9k 经验不限 / 本科

大河网数字

IT技术服务｜咨询,新媒体,文化传媒 / 不需要融资 / 150-500人

■岗位职责负责爬虫软件设计开发及系统维护工作；根据业务需求完成数据采集与爬取、解析处理、入库及备份数据日常工作；负责信息抽取、数据清洗等研发和优化工作，对数据结果进行解释和汇报，向相关部门提供数据分析技术支持；负责python相关系统的开发、维护和优化。 ■岗位条件（1）学历：普通高招大学本科及以上学历。（2）年龄：原则上本科生不超过28周岁，硕士研究生不超过30岁，博士研究生不超过32岁，特别优秀者可适当放宽。（3）专业：计算机科学与技术、软件工程、网络工程、信息与计算科学、信息安全、电子与计算机工程、信息与通信工程、网络空间安全、数据科学与大数据技术、人工智能等相关专业。（4）基础能力：熟练掌握Python编程语言及其主流框架和第三方库；熟练使用爬虫相关技术，如scrapy、pyspider、appium、puppeteer等；掌握Pyhton的Web框架Django、Flask等，并且有使用过其中一个框架开发；具有扎实的数据结构和算法基础，深入理解面向对象编程思想及常用设计模式；熟悉缓存、多线程、消息队列等相关技术；具备较高的编程素养、良好的编码习惯。（5）放宽及优先条件：具有符合本岗位特殊才能的，学历和年龄可适当放宽；具有互联网政务服务相关工作经验，或具有“大厂”工作经验者，学历和年龄可适当放宽，并优先考虑；具有算法开发相关经验的优先；具有Js逆向经验、App数据抓取经验者优先；其他符合放宽或优先条件的。
AI搜索数据运营专家（页面解析方向）-DMC
[北京·海淀区] 1天前发布

15k-25k 经验3-5年 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、全面统筹搜索网页解析项目的相关产品运营工作，能够基于解析相关业务目标制定运营策略与执行计划，推动解析成果高效支撑业务场景； 2、与算法团队、产品团队等密切协作，清晰传递业务需求，积极提供有针对性的解析相关策略和建议； 3、能对解析侧相关数据的应用效果进行了解与分析，通过下游尺度变化、模型指标波动等明确业务评估优化方向； 4、能够针对性完善当前网页解析项目的运营流程与标准，包括需求对接、进度跟进、成果验收等环节，提高跨团队协作效率。职位要求： 1、本科及以上学历，2年及以上互联网运营相关工作经验，至少1年网页解析运营或搜索方向运营经验优先； 2、熟悉大模型训练的相关逻辑，能熟练使用市面上大模型相关应用，有一定AI理解优先； 3、创新能力比较强，对于不断探索新的AI技术和应用场景有强烈意愿和主观能动性； 4、擅长需求分析与资源协调，具备优秀的沟通协调能力，能将业务目标拆解为可执行的运营动作并推动落地； 5、有网页抓取、网页解析或搜索类产品运营经验者优先。
Agent技术运营专家（GUI方向）-DMC
[北京·海淀区] 1天前发布

15k-25k 经验1-3年 / 本科

字节跳动

内容资讯,短视频 / D轮及以上 / 2000人以上

职位职责： 1、参与GUI大模型相关训练集、评测数据的标准制定、标注、评估工作，独立完成Agent等自动化标注&评测工具的搭建，协助产品、算法快速提升模型能力； 2、与业务方、产品、算法团队紧密协作，深度探索并构建全、半自动化机标注流程的数据处理策略，通过不断尝试创新技术方案，优化标注流程效率与质量； 3、基于数据处理策略确认数据理想态，综合运用PE、搜索、知识库、代码等手段，探索前沿技术在机标工作流中的应用，构建完整且高效的机标工作流，显著助力业务提效； 4、针对部分涉及数据抓取、数据处理、工具开发的项目，联动业务方共同探索并制定创新性技术方案，完成技术开发工作，推动项目落地； 5、基于各业务发展动态、数据特性，积极探索行业前沿技术，打造通用提效产品与工具，严格确保工具的准确率与覆盖率，为业务发展提供坚实技术支撑。职位要求： 1、本科及以上学历，计算机科学、统计学等专业背景优先； 2、至少熟练掌握一种编程语言，具备快速学习新技术的能力优先； 3、有开发工作经验、工程化经验（重点掌握Python数据处理、Sql等数据库工作、Hadoop/Spark等集群环境），熟悉分布式系统原理与实践； 4、具备敏锐的产品思维，密切关注并深入了解生成式AI大模型前沿技术，尤其是VLM多模态模型等，具备优秀的内容理解和推理分析能力，能将前沿技术转化为实际业务价值； 5、具备较强的自驱力，工作细心且责任心强，具备出色的团队沟通、协作能力与推动能力，能够在跨部门协作中有效整合资源，推进技术方案落地实施； 6、有GUI项目产品研发经验优先。
高级网站开发工程师（出海品牌独立站）
[深圳·新安] 1天前发布

25k-35k 经验5-10年 / 本科

嗨西西

电商平台,消费生活 / 未融资 / 50-150人

【岗位职责】 1.负责公司跨境电商网站/Shopify的开发、搭建、改版、优化和维护。负责开发和维护不同国家的站点。 2.与设计师、网站运营、需求方紧密协作，实现Web界面，包括前端页面搭建、交互动效实现、Shopify themes模版的二次开发、Shopify第三方插件研究和二次开发。 3.提高网页速度、稳定性、兼容性，通过技术提升购物流程和用户体验。优化底层代码和网站运行数据。 4.根据业务需要进行网站程序的其他开发。【任职要求】 1.计算机相关专业，本科及以上，扎实代码功底。 2.电商网站/品牌网站独立开发经验，熟悉Shopify平台生态和搭建，熟悉网站UI。 3.熟练掌握liquid优先，熟悉HTML语言，及其他常见的网站开发语言。了解技术架构的设计与优化。 4.对用户线上购物习惯有深度理解，尤其是欧美、亚太地区。 5.有英语基础，了解google抓取逻辑优先。请附上开发作品集。
游戏策划
[杭州·西湖区] 1天前发布

18k-35k 经验5-10年 / 本科

边锋

游戏 / 不需要融资 / 500-2000人

岗位职责: 1、负责棋牌产品的设计研发和优化工作，并对产品功能进行测试、验收，保证产品质量； 2、了解棋牌市场动态，持续跟踪分析市场上的竞品，总结出产品和竞品的差异之处，寻找产品提升和优化空间； 3、分析上线产品的运营数据，从数据中挖掘信息，提出产品改进意见，不断完善在线产品、持续改善用户体验； 4、利用微信社交优势并挖掘更多来量渠道提升产品DAU；岗位要求: 1、5年以上互联网产品或策划岗经验，有完整的项目经验，对棋牌游戏有一定的了解； 2、具备一定的数据分析能力，能够敏锐的抓取产品运作中的关键数据并提出改进意见； 3、自驱性强，工作积极主动，有良好的团队协作意识，定期总结，注重自我提升； 4、逻辑清晰，具备良好的语言沟通和表达能力，有成功项目经验者优先。
爬虫开发工程师
[成都·高新区] 3天前发布

12k-16k 经验3-5年 / 本科

大地量子

数据服务｜咨询 / A轮 / 50-150人

工作职责：负责设计、开发和维护高效、稳定的数据爬虫系统；根据业务需求，制定数据抓取策略，处理反爬机制、验证码识别、IP代理等问题；建立数据清洗、结构化处理及存储流程，保证数据质量；持续优化爬虫性能，提升抓取速度与稳定性；与数据分析、产品等团队紧密协作，理解数据需求，快速响应数据抓取任务；关注行业动态，研究新的爬取技术和反爬手段，持续提升系统能力。任职要求：熟练掌握至少一种编程语言（Python优先，如：Scrapy、Selenium、Playwright、Requests 等常用库）；熟悉常见网站结构、前端技术（HTML、CSS、JavaScript），能够快速分析网页数据；熟悉常用的反爬技术及应对手段（如IP代理池、UA池、验证码识别、动态渲染处理等）；熟悉异步爬虫、分布式爬虫开发，有 Scrapy-Redis / Playwright + 分布式实践经验者优先；熟悉常用数据库（如MySQL、MongoDB）及缓存系统（如Redis）；有大型数据采集、数据清洗、数据处理项目经验优先；具备良好的编码习惯和文档意识，责任心强，乐于学习新技术。加分项：有 GraphQL 接口抓取、WebSocket 抓取、APP 抓包分析经验；有云原生（如 Kubernetes、Docker）、大数据（如Spark、Kafka）相关技术栈经验；有参与过爬虫平台化、数据中台建设项目经验；有算法基础，了解简单的图像识别（如验证码OCR识别）优先。
短视频摄影师
[杭州·西湖] 2025-11-17

6k-7k 经验1-3年 / 不限

晓晓约访

教育,文娱|内容,电商 / 未融资 / 少于15人

1、负责老板IP打造的短视频账号的拍摄工作，包括口播拍摄的场景搭建，最好能够具有一定的编导能力 2、熟练使用主流摄影摄像设备，能够独立完成拍摄、对作品进行拍摄剪辑具备较高的视听审美水准; 3、结合账号特点，精准定位短视频的内容、方向，抓取受众的心理，有序推进账号内容制作及粉丝增长; 4、持续优化视频制作流程，提升工作效率和作品质量
爬虫开发工程师
[深圳·大冲] 2025-11-10

12k-16k 经验1-3年 / 本科

井田云

移动互联网,电商 / 不需要融资 / 15-50人

岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维任职要求 1. 技术能力 ● 熟练掌握 Python/PHP，具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型，能使用抓包工具（如 Charles、Fiddler）分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发，掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架，了解分布式爬虫框架（如 Scrapy-Redis） 2. 经验要求 ● 1 年以上爬虫开发经验，有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证加分项 ● 了解前端技术（HTML/CSS/JavaScript），能逆向分析动态渲染页面 ● 熟悉常见反爬措施（如 JS 混淆、验证码识别、IP 限频），具备实战对抗经验
网站爬虫工程师
[深圳·大冲] 2025-11-10

12k-16k 经验1-3年 / 本科

井田云

移动互联网,电商 / 不需要融资 / 15-50人

岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维任职要求 1. 技术能力 ● 熟练掌握 Python/PHP，具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型，能使用抓包工具（如 Charles、Fiddler）分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发，掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架，了解分布式爬虫框架（如 Scrapy-Redis） 2. 经验要求 ● 1 年以上爬虫开发经验，有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证加分项 ● 了解前端技术（HTML/CSS/JavaScript），能逆向分析动态渲染页面 ● 熟悉常见反爬措施（如 JS 混淆、验证码识别、IP 限频），具备实战对抗经验
高级爬虫工程师/爬虫主管
[广州·新塘] 2025-10-23

18k-30k 经验3-5年 / 大专

汇睿

/ 不需要融资 / 150-500人

【职位描述】 1. 负责设计开发针对主流海外电商平台的大规模数据采集系统，支持商品信息、价格监控、竞品分析等业务需求。 2. 构建和维护分布式浏览器集群，实现千级并发的稳定数据抓取，处理复杂的SPA应用和动态内容渲染。 3. 研究海外电商平台的反爬机制（如Cloudflare、PerimeterX、DataDome），制定针对性的反反爬策略，包括设备指纹伪造、TLS指纹处理、行为模拟等。 4. 确保数据采集符合GDPR、CCPA等国际数据保**规，处理多语言、多货币、多时区的复杂数据场景。 5. 优化浏览器资源使用，实现成本可控的大规模部署，包括资源池管理、任务调度优化、异常恢复机制等。【任职要求】 1. 3年以上海外电商爬虫经验，具备至少5个主流海外电商平台的数据采集项目经验，深度了解各平台的技术架构和反爬策略。 2. 大规模浏览器自动化经验：有管理500+浏览器实例的实战经验，熟练掌握Playwright、Puppeteer、Selenium Grid等工具的集群化部署。 3. 精通现代反爬对抗技术：浏览器指纹伪造（Canvas、WebGL、Audio等）、TLS/JA3指纹处理和规避、验证码自动化处理（reCAPTCHA、hCaptcha、Funcaptcha）、WAF绕过策略（Cloudflare 5s盾、BotFight Mode）。 4. 编程语言：精通Python，熟悉JavaScript/TypeScript（用于浏览器脚本开发）。 5. 框架和工具：熟练使用浏览器自动化框架（Playwright、Puppeteer、Selenium 4.0+）、代理管理（住宅代理、数据中心代理轮换策略）、容器化部署（Docker、Kubernetes环境下的浏览器集群管理）。 6. 分布式系统经验：熟悉Redis、RabbitMQ、Kafka等中间件，有构建分布式任务调度系统经验。 7. 独立完成过至少3个海外电商大型项目，单项目日均数据量100万+条，涉及多平台、多地区的复杂数据采集需求。 8. 成本控制能力：有控制单条数据采集成本的实战经验，熟悉云服务器成本优化策略。【加分项】 1. 移动端数据采集：Android/iOS App数据采集经验，熟悉Frida、Xposed等Hook技术。 2. 协议层面突破：GraphQL API逆向分析、gRPC/protobuf协议解析、WebSocket实时数据采集。 3. AI辅助技术：机器学习模型应用于验证码识别、异常检测和自动化问题诊断、智能化反爬策略调整。 4. 海外电商业务理解：熟悉跨境电商运营模式、了解各平台的商业规则和数据价值点。
爬虫工程师
[重庆·渝中区] 2025-10-21

5k-9k 经验1-3年 / 大专

重庆云上航空票务股份有限公司

电商,旅游 / 未融资 / 150-500人

1.负责垂直领域的定向爬虫引擎开发优化工作 2.负责HTTP、AJAX等各类网络请求分析 3.通过爬虫定向抓取数据和解析、抽取、去重、清洗和存储 4.根据应用场景封装服务接口给内部团队调用 5.负责反封禁的研究提升爬虫抓取效率和质量任职要求 1、深入理解网络数据抓取的工作原理与工作流程； 2、熟悉HTML、DOM、XPATH，熟练使用正则表达式； 3、擅长分析HTTP协议，能够解析、模拟HTTP传输的报文 4、掌握HTTP相关调试、分析工具，能够对网页、APP数据抓包（有手机APP脱壳、反编译能力优先考虑） 5、精通Python/C#/Java等编程； 6、一年以上大规模网页爬虫开发经验，熟练使用关系数据库(如MySQL, MSSQLsql)或NoSql数据库(如Mongodb及Redis)； 7、具备独立的破解各类网站封禁及各类验证码的能力，有多线程、分布式、网络数据抓取及处理经验优先； 8、熟练使用开源技术以及框架（Nutch、Scrapy、Heritrix等）者优先； 9、熟悉Unix/Linux操作系统者优先； 10、有良好逻辑思维能力、沟通能力、团队合作精神、学习能力，抗压能力，目标执行力，对挑战性问题充满激情。