-
岗位描述 1.构建并优化大规模分布式数据采集系统,协助建设统一的数据采集、处理、查询、治理平台。 2.负责多渠道、多平台的各类数据源抓取,持续提升数据质量,包括数据时效性和完整性。 3.研究并分析目标站点/平台的反爬机制,设计策略规避限制;制定反爬策略,包括IP池、账号池、验证码识别等,并持续优化策略。 4.建立爬虫数据质量监控和应急响应机制,发现并解决数据采集中的异常情况(如数据缺失、重复、错误),确保采集的数据符合业务需求和质量标准,确保业务连续性。 岗位要求 1.3年及以上爬虫开发经验,本科及以上学历。 2.熟练使用Python,具备良好的编码和调试能力,具备扎实的计算机网络基础知识,了解HTTP协议和相关技术。 3.熟悉常见的爬虫框架,如Scrapy、feapder等;熟悉常用的消息组件和数据存储工具,如RabbitMQ、Kafka、MySQL、Redis、MongoDB等。 4.熟悉APP逆向,熟练使用抓包、反编译、Hook工具等,具备APP端数据抓取经验。 5.熟悉JS逆向,熟悉WEB常用反爬技术,具备通用网站数据爬取及解析经验。 6.具备良好的团队沟通能力、较强的问题解决能力和学习能力,能够独立思考和解决技术难题。 加分项 1.了解并使用过AI相关技术,有大模型采集框架使用经验的优先。 2.有通用、高效、稳定的分布式采集系统设计和开发经验的优先。
-
岗位职责: 1、解决各类反爬问题,如JS混淆逆向、APP逆向、字体加密、极验验证码、瑞数等以及采集其它疑难杂症; 2、负责相关爬虫相关技术调研与应用,包括但不限于web/app的数据采集; 3、维护采集平台中站点的稳定采集; 4、开发和维护爬虫脚本和数据处理接口,确保系统稳定运行; 5、协助团队解决爬虫相关技术问题,完成上级安排的其他任务; 任职要求: 1、本科及以上学历,计算机相关专业; 2、3年以上大规模网页爬虫项目经验,2年以上Python开发经验,熟练掌握爬虫底层框架,如scrapy、scrapy-redis、feapder,阅读过如Scrapy-redis等底层代码实现,能够进行改写; 3、精通HTTP/HTTPS协议,能熟练使用Charles、Fiddler等抓包工具分析请求; 4、能够解决封账号、封IP、JS加密、JS混淆逆向、极验验证码、瑞数等采集等问题,具备较强的反爬能力,具备较强的提升爬虫效率的意识; 5、熟练掌握Redis及MongoDB等非关系型数据库,MySQL等关系型数据库的使用; 6、熟悉多种数据提取方法,能灵活运用JsonPath、XPath、CSS选择器和正则表达式;了解ES,Kibana; 7、熟悉HTTP/HTTPS和TCP/UDP协议以及数据抓包和分析、熟悉Linux系统和shell多线程编程; 8、优秀的分析问题和解决问题的能力、思维清晰,对解决具有挑战性问题充满激情,有极强的责任心。
-
岗位描述 1.构建并优化大规模分布式数据采集系统,协助建设统一的数据采集、处理、查询、治理平台。 2.负责多渠道、多平台的各类数据源抓取,持续提升数据质量,包括数据时效性和完整性。 3.研究并分析目标站点/平台的反爬机制,设计策略规避限制;制定反爬策略,包括IP池、账号池、验证码识别等,并持续优化策略。 4.建立爬虫数据质量监控和应急响应机制,发现并解决数据采集中的异常情况(如数据缺失、重复、错误),确保采集的数据符合业务需求和质量标准,确保业务连续性。 岗位要求 1.3年及以上爬虫开发经验,本科及以上学历。 2.熟练使用Python,具备良好的编码和调试能力,具备扎实的计算机网络基础知识,了解HTTP协议和相关技术。 3.熟悉常见的爬虫框架,如Scrapy、feapder等;熟悉常用的消息组件和数据存储工具,如RabbitMQ、Kafka、MySQL、Redis、MongoDB等。 4.熟悉APP逆向,熟练使用抓包、反编译、Hook工具等,具备APP端数据抓取经验。 5.熟悉JS逆向,熟悉WEB常用反爬技术,具备通用网站数据爬取及解析经验。 6.具备良好的团队沟通能力、较强的问题解决能力和学习能力,能够独立思考和解决技术难题。 加分项 1.了解并使用过AI相关技术,有大模型采集框架使用经验的优先。 2.有通用、高效、稳定的分布式采集系统设计和开发经验的优先。
-
1、精通python语言,精通scrapy爬虫框架; 2、 精通web抓取原理及技术,从结构化和非机构化数据中获取信息; 3. 精通Html、JavaScript、XML等知识,熟悉前端异步请求方式; 4、精通自动化测试工具; 5、 熟悉一种或多种开源技术; 6、 具备一定的数据挖掘能力; 任职要求: 1、 负责为各个业务线提供垂直,精准的数据采集,抽取,存储服务 2、 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量 3、 解决网页抓取,信息抽取等问题,构建高可用性,高扩展性网络信息采集平台 4、 能独立解决实际开发过程碰到的各类问题
-
平时可以阅读英文的计算机API文档,并且需要有一定的Java基础。对爬虫抓网页的工作内容感兴趣,如果不符合以上条件,请勿投递,谢谢。 工作职责: 1、IOS, Andriod APPs以及网站的逆向分析及漏洞挖掘,并对逆向数据进行采集抓取; 2、爬虫策略和防屏蔽规则,提升网页抓取的效率和质量; 3、有过Akamai,Perimeterx经验的优先; 任职需求: 1、应届毕业生,熟练掌握Java语言; 2、熟悉IDA、 JEB 、LLDB、JADX等常用逆向分析工具,具备逆向分析能力; 3、熟悉各种通用加解密算法,有一定的脱壳反混淆,反调试经验; 4、熟悉常见的Xposed hook技术,注入技术,常见安全产品绕过等技术; 5、做事有责任感,具有良好的逻辑思维,很强的执行力和自我驱动力。 【福利政策】 1、混合办公模式,根据工作年限每月可申请居家办公2-8天。 2、10天- 25天带薪年休假; 3、13薪及每年全员调薪,根据入职时间、工作表现和企业经营状况; 4、补充医疗保险及每年健康体检; 5、旅游补贴及公司团建; 6、每周供应2次免费午餐; 7、节假日礼品卡福利及节日下午茶供应。
-
职位职责: 1、负责保护公司电商平台的数据安全,防范和打击爬虫及其他恶意行为,研究和掌握最新的反爬虫技术,制定和实施有效的反爬虫策略; 2、深入了解上下游业务形态,可独立发起治理专项,快速定位问题并形成落地策略及效果评估闭环; 3、分析和调查电商平台上的异常流量和可疑活动,从海量设备、行为数据中发掘有价值的信息; 4、可协助进行建模工作,如特征分析、数据可视化呈现等,为团队决策提供数据支持; 5、与产品研发团队高效合作,优化技术架构和端上安全能力,建立端管云三位一体的反爬体系,量化防控效果,驱动反爬能力的不断提高。 职位要求: 1、计算机、信息安全、统计、数学等相关专业; 2、反爬相关经验,具备网络安全、数据保护和风险管理方面的专业知识,有电商经验者优先; 3、熟练掌握SQL、Python等编程语言,具有扎实的数据分析能力及学习能力; 4、深入了解常见的爬虫技术和工具,具有丰富的反爬虫经验,熟悉Web安全、网络协议、漏洞扫描等相关技术; 5、具有较强的问题解决能力,能够快速分析和处理安全事件,具备良好的团队合作精神和沟通能力。
-
岗位职责 1.负责设计、开发和维护内容平台所需的分布式爬虫系统,支持从新闻、论坛、社交媒体等多渠道抓取海量数据并进行清洗、结构化和入库。 2.构建完整的数据采集与处理流程,包括网页解析、数据清洗、去重和入库等环节,确保采集数据的质量、准确性与一致性。 3.研究并应对各类反爬虫机制(如IP封禁、验证码、动态加载等),设计并实施反屏蔽策略,保证爬虫系统在复杂环境下稳定、高效运行。 4.搭建爬虫任务的监控与调度系统,实时跟踪抓取进度及性能指标,及时定位并修复抓取失败、异常或性能瓶颈等问题,持续优化爬虫效率和容错能力。 5.根据业务需求完成技术方案和系统设计,并撰写维护爬虫系统的技术文档,以支持内容分析和业务决策。 任职要求 1.精通 Golang 和 Python 编程语言,熟悉主流爬虫开发框架(如 Colly、Scrapy 等),具备较强的爬虫系统开发和维护能力。 2.具有分布式爬虫架构的设计与部署经验,能够搭建和运维分布式爬虫集群以应对海量抓取任务。 3.熟悉常见的数据处理流程,包括数据清洗、结构化及入库等,能够保证抓取数据的准确性和一致性。 4.熟练使用 Linux 操作系统及常用命令,了解自动化部署和运维流程(如 Docker、Shell 脚本等),具备独立调试和排错能力。 5.熟悉爬虫监控和任务调度工具,具备性能优化及容错设计能力,能够保证爬虫任务的高效稳定执行。 6.熟练掌握 MySQL 等关系型数据库,以及 MongoDB、Redis、Elasticsearch 等至少一种 NoSQL 存储技术。 7.熟悉代理池管理及 IP 轮换策略,能够有效应对 IP 封禁、请求限频等常见反爬虫问题。 8.具备一定的逆向工程能力,了解常见 JavaScript 混淆、接口加密方案和验证码破解技术,能够通过逆向分析提升爬取成功率。 9.理解常见的爬虫数据提取算法和反反爬策略,具备一定的算法能力,以优化数据抓取和解析效率 加分项 1.参与过海外社交项目优先 2.有过大型项目架构的优先 3.有相关开源项目的优先考虑
-
岗位职责: 1、负责公司产品线的技术栈的选型和完善, 负责关键技术架构和核心模块的开发实现; 2、 参与公司项目的架构设计、研发、编程工作; 3、 设计公司业务执行策略和防屏蔽规则,提升数据抓取执行的效率和质量, 并对策略持续优化; 4、负责架构设计相关的技术攻关。 任职要求: 1、熟悉Python和常用的开源库,熟练使用Django/Flask等至少一种主流的web开发框架; 2、熟悉Mysql,mongoDB, Redis,Es,队列等数据库的使用和优化; 3、对进程、线程、协程、异步、非阻塞有一定了解和使用 4、对linux系统基础知识及原理了解较深入的。 5、熟悉爬虫主流框架Scrapy、requests、Selenium、gocolly,webmagic等框架(深入了解其中一种)。 6、对相关算法有一定了解。 7、熟悉应用IP代理池、Headers认证和Cookie等; 8、有分布式爬虫、反爬机制经验者优先 9、熟悉js逆向,js破解优先考虑 10、有参与实时监控爬虫的进度和警报反馈系统的优先考虑。 11、有参与过相关资讯/新闻与大型分布式爬虫项目的优先考虑
-
工作职责: 1. 负责电商平台的逆向工程与数据采集; 2.针对需要的数据,寻找网站或app内可用的接口; 3.研究主流网站和app反爬机制,寻找应对方案; 4.不断的学习研究行业新技术,提升业务能力。 5.js、Android/IOS应用的逆向,能正向还原关键算法; 任职要求: 1. 掌握web/app 常见的反爬机制,熟悉各种反爬破解; 2. 熟悉IDA、Frida、Xposed等逆向工具,具备静态/动态调试及协议解析能力; 3. 掌握验证码识别技术、js逆向,反混淆等常用反爬技能 4. 了解浏览器和App端的指纹以及环境收集 5. 有过主流电商平台逆向经验者优先。 6. 能够从协议/设备/环境/行为/真人化等多角度识别定位,绕过防御系统者优先。
-
岗位职责: 1、负责抖音/淘宝/拼多多/1688等热门电商平台的爬取工作,包括数据抓取和爬取链路优化,提升抓取能力; 2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设; 3、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作。 任职要求: 1、三年以上大规模爬虫/反爬经验,熟悉HTTP协议/浏览器原理/前端JS/APP抓取; 2、有解决复杂的反爬限制实践经验, 能解决如图片验证码/滑块/账号限制/ip限制等问题,熟悉反爬虫、签名破解、验证码识别技术者优先; 3、熟悉app端数据抓取(有逆向、脱壳等经验),掌握Apktool、dex2jar、JD-GUI、frida、ida等工具,能独立完成主流电商平台和主流app软件大量级的数据抓取优先; 4、有电商数据爬虫经验优先。
-
职位描述: • 负责分布式网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取,海量数据存储和读取等)、技术选型 • 研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点攻克,提升网页抓取的效率和质量 • 把握网络爬虫核心技术研究方向,研究优化策略,提升爬虫系统的稳定性、可扩展性 • 管理并带领爬虫团队完成社交媒体数据(文本、视频、音频和图像)开发工作 职位要求: • 深度参与过至少一个分布式网络爬虫系统的架构设计; • 良好的代码能力,扎实的数据结构和算法功底,有快速迭代、逐步优化的工程项目经验 • 精通爬虫和反爬技术,精通底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取、APP抓取等技术 • 熟悉分布式系统、多线程,精通scrapy框架以及原理,有开发爬虫框架经验 • 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验 • 有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作 • 良好的逻辑能力,善于把复杂问题梳理清晰,责任安排到人,完成情况监督到位
-
工作职责: 1、配合逆向工程师,完成数据抓取项目的代码编写 2、负责日常的项目维护、功能迭代及优化 3、负责简单站点的数据抓取 职位描述: 1、3年以上Python开发经验,熟悉掌握python语言 2、熟悉scrapy等爬虫框架 3、熟悉redis、mongodb、mysql、es等存储方案 4、熟悉rabbitmq等消息队列 5、熟悉k8s、docker的使用 6、熟悉Linux常用命令,独立完成日常部署更新等 7、熟悉分布式爬虫架构和基本爬虫知识
-
职责描述: 1、负责网络公开企业、政策信息的爬虫系统的设计与开发; 2、开发、维护爬虫系统,包括调度、抓取、维护、验证等爬虫工作; 3、负责爬虫算法的策略优化研究,提升爬虫抓取效率和质量 4、封禁与反封禁研究,在破解反爬虫方面有丰富经验; 5、负责爬虫技术难点的攻克; 任职要求 1、计算机或相关专业专科及以上学历,1年以上爬虫工作和内容提取工作经验,有良好的编码习惯; 2、熟练掌握JavaScript,善于逆向分析,具有跟踪分析研判源码的能力; 3、熟练掌握一种开源爬虫框架,如,Spidy.scrapy等,有研发爬虫框架经验者优先; 4、熟悉常见反爬机制,验证码识别,IP代理池应用lp池、headers认证和cookie等; 5、熟悉Javascript 、HTML、CSS、正则表达式、XPath等信息抽取技术熟悉抓包分析请求并模拟; 6、熟练掌握应用Selenium+PhantomJS或AI工具实施动态HTML抓取; 7、熟悉Selenium、Appium等技术 8、熟悉熟练使用http代理工具charles、fddler等 9、熟悉mysql,mongodb等常规数据库的常规使用 10、熟练掌握Linux平台开发,能独立安装、配置、搭建开发环境,编写shell脚本; 11、善于独立分析并解决问题,如反爬应对、爬虫策略、防屏蔽规则、验证码识别技术等,能独立解决实际开发过程碰到的各类问题;
-
岗位职责: 1、参与设计、开发、维护爬虫系统; 2、参与多平台信息的抓取和分析; 3、建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 4、设计爬虫反屏蔽规则,提升网页抓取的效率和质量; 5、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。 任职资格: 1、熟练掌握js反混淆,熟悉Rust语言有实操经验者优先; 2、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先; 4、熟悉linux开发环境,熟悉js语言; 5、熟悉web常见的反爬机制,精通各种反爬破解,包括但不限于:js防护、混淆、逆向分析、App防破解、防逆向、加固技术等技能。 p.s. 如是**时间对于爬虫有更深度社群交流或项目实践的小伙伴,也欢迎分享项目简历,一同交流~
-
非杭州伙伴可以线上办公!!! 岗位职责: 1.爬虫开发、与内部系统后端开发对接;负责爬虫系统构架的数据存储设计; 2.建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 3.理解系统数据处理流程以及业务功能需求; 4.保证数据的完整性和准确性。 岗位要求: 1、熟悉js逆向、js注入、反混淆、熟悉jsRPC服务; 2、计算机相关专业专科及以上学历(有项目经验可以放宽); 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、有一定的反爬虫对抗经验,分布式爬虫布局; 5、电商类网站爬虫经验优先,有高频爬虫工作经验者优先; 6、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先。