高级爬虫工程师/爬虫主管18k-30k

广州经验3-5年大专及以上爬虫工程师
岗位所属职位类型
全职

  • 回归算法
  • 软件服务|咨询
  • 人工神经网络类算法
  • JavaScript
  • HTML
  • Windows
  • 电商平台
  • Web后端开发
  • 关联规则算法
  • Python
  • SQL
汇睿
分享到微信
微信扫一扫,用小程序打开分享
职位诱惑:

高薪聘请

职位描述:

【职位描述】

1. 负责设计开发针对主流海外电商平台的大规模数据采集系统,支持商品信息、价格监控、竞品分析等业务需求。

2. 构建和维护分布式浏览器集群,实现千级并发的稳定数据抓取,处理复杂的SPA应用和动态内容渲染。

3. 研究海外电商平台的反爬机制(如Cloudflare、PerimeterX、DataDome),制定针对性的反反爬策略,包括设备指纹伪造、TLS指纹处理、行为模拟等。

4. 确保数据采集符合GDPR、CCPA等国际数据保**规,处理多语言、多货币、多时区的复杂数据场景。

5. 优化浏览器资源使用,实现成本可控的大规模部署,包括资源池管理、任务调度优化、异常恢复机制等。

【任职要求】

1. 3年以上海外电商爬虫经验,具备至少5个主流海外电商平台的数据采集项目经验,深度了解各平台的技术架构和反爬策略。

2. 大规模浏览器自动化经验:有管理500+浏览器实例的实战经验,熟练掌握Playwright、Puppeteer、Selenium Grid等工具的集群化部署。

3. 精通现代反爬对抗技术:浏览器指纹伪造(Canvas、WebGL、Audio等)、TLS/JA3指纹处理和规避、验证码自动化处理(reCAPTCHA、hCaptcha、Funcaptcha)、WAF绕过策略(Cloudflare 5s盾、BotFight Mode)。

4. 编程语言:精通Python,熟悉JavaScript/TypeScript(用于浏览器脚本开发)。

5. 框架和工具:熟练使用浏览器自动化框架(Playwright、Puppeteer、Selenium 4.0+)、代理管理(住宅代理、数据中心代理轮换策略)、容器化部署(Docker、Kubernetes环境下的浏览器集群管理)。

6. 分布式系统经验:熟悉Redis、RabbitMQ、Kafka等中间件,有构建分布式任务调度系统经验。

7. 独立完成过至少3个海外电商大型项目,单项目日均数据量100万+条,涉及多平台、多地区的复杂数据采集需求。

8. 成本控制能力:有控制单条数据采集成本的实战经验,熟悉云服务器成本优化策略。

【加分项】

1. 移动端数据采集:Android/iOS App数据采集经验,熟悉Frida、Xposed等Hook技术。

2. 协议层面突破:GraphQL API逆向分析、gRPC/protobuf协议解析、WebSocket实时数据采集。

3. AI辅助技术:机器学习模型应用于验证码识别、异常检测和自动化问题诊断、智能化反爬策略调整。

4. 海外电商业务理解:熟悉跨境电商运营模式、了解各平台的商业规则和数据价值点。

工作地址

广州 - 增城区 - 新塘- 永宁街凤凰北横路1号广汇新世界金融中心(南塔) 13楼查看地图

职位发布者:

拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
  • 半年前
    • 描述相符
    • 面试官
    • 公司环境
    面试官是大牛
    面试官很nice
    面试效率高
    [面试过程]
    面试过程比较顺利,面试官问了很多关于自己项目的看法,对我认识上的一些不足进行了纠正,也了解到了公司的一些业务,个人表现还算及格。希望能得到二轮面试的机会。
    (2)
广州汇睿网络科技有限公司

汇睿

相似职位