-
岗位职责: 1、梳理和解读业务,提供数据层面的问题解决方案; 2、协助进行数据提取.清洗.转换等处理工作,搭建自动化的数据生产线 3、参与数据处理框架的开发和数据处理平台的建设; 4、协助开发和维护独立的数据处理工具 岗位要求: 1.熟悉Python基本语法,熟练使用AI工具,具有独立项目开发经验以及具有大模型经验 2.工作年限3-5年 3.熟练掌握scrapy框架,tensorflow,pytroch等框架,了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验; 4.掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术; 5.熟悉各种反爬机制,掌握Selenium,APP破解技术优先; 6.做过数据处理、ETL等相关工作优先; 7.对大数据相关技术感兴趣。 学历要求:**公办本科及以上,985与211大学优先录用。学信网可查,有***书
-
工作职责: 负责设计、开发和维护高效、稳定的数据爬虫系统; 根据业务需求,制定数据抓取策略,处理反爬机制、验证码识别、IP代理等问题; 建立数据清洗、结构化处理及存储流程,保证数据质量; 持续优化爬虫性能,提升抓取速度与稳定性; 与数据分析、产品等团队紧密协作,理解数据需求,快速响应数据抓取任务; 关注行业动态,研究新的爬取技术和反爬手段,持续提升系统能力。 任职要求: 熟练掌握至少一种编程语言(Python优先,如:Scrapy、Selenium、Playwright、Requests 等常用库); 熟悉常见网站结构、前端技术(HTML、CSS、JavaScript),能够快速分析网页数据; 熟悉常用的反爬技术及应对手段(如IP代理池、UA池、验证码识别、动态渲染处理等); 熟悉异步爬虫、分布式爬虫开发,有 Scrapy-Redis / Playwright + 分布式实践经验者优先; 熟悉常用数据库(如MySQL、MongoDB)及缓存系统(如Redis); 有大型数据采集、数据清洗、数据处理项目经验优先; 具备良好的编码习惯和文档意识,责任心强,乐于学习新技术。 加分项: 有 GraphQL 接口抓取、WebSocket 抓取、APP 抓包分析经验; 有云原生(如 Kubernetes、Docker)、大数据(如Spark、Kafka)相关技术栈经验; 有参与过爬虫平台化、数据中台建设项目经验; 有算法基础,了解简单的图像识别(如验证码OCR识别)优先。
-
岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维 任职要求 1. 技术能力 ● 熟练掌握 Python/PHP,具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型,能使用抓包工具(如 Charles、Fiddler)分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发,掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架,了解分布式爬虫框架(如 Scrapy-Redis) 2. 经验要求 ● 1 年以上爬虫开发经验,有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证 加分项 ● 了解前端技术(HTML/CSS/JavaScript),能逆向分析动态渲染页面 ● 熟悉常见反爬措施(如 JS 混淆、验证码识别、IP 限频),具备实战对抗经验
-
岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维 任职要求 1. 技术能力 ● 熟练掌握 Python/PHP,具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型,能使用抓包工具(如 Charles、Fiddler)分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发,掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架,了解分布式爬虫框架(如 Scrapy-Redis) 2. 经验要求 ● 1 年以上爬虫开发经验,有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证 加分项 ● 了解前端技术(HTML/CSS/JavaScript),能逆向分析动态渲染页面 ● 熟悉常见反爬措施(如 JS 混淆、验证码识别、IP 限频),具备实战对抗经验
-
工作职责 负责 X / Twitter等平台相关数据的采集与处理,包括用户数据、推文、互动数据等; 搭建高效、稳定的爬虫系统,解决登录、接口调用、反爬机制等难点; 优化数据采集流程,保障采集结果的完整性与实时性; 对采集数据进行清洗、存储和结构化处理,建立高可用数据接口; 与数据分析、产品团队合作,提供高质量的海外社交数据支持。 任职要求 本科及以上学历,计算机相关专业优先(qs前200的本科毕业); 3 年以上 Web 爬虫 / 数据采集 相关经验; 精通 Python,熟悉 Scrapy / Requests / Selenium / Playwright 等爬虫框架; 熟悉 代理池、分布式爬虫、反爬机制应对; 熟悉 MySQL / Redis / Kafka / Elasticsearch 等常见数据库与中间件; 有 海外社交平台(X / Twitter、Reddit、Telegram 等)爬虫经验 者优先; 注重代码规范,能独立解决复杂采集与反爬问题。 工作地: 上海/香港(可沟通)
-
岗位职责: 1. 负责公司数据采集系统的设计与开发,实现高效、稳定的数据爬取; 2. 根据业务需求,制定数据抓取策略,优化爬虫算法,提高数据抓取速度和准确性; 3. 负责数据清洗、去重、存储等后端处理工作,确保数据质量; 4. 跟踪分析爬虫技术的发展趋势,对现有系统进行优化升级; 5. 与其他团队密切配合,完成数据挖掘、分析等相关工作; 6. 遵守相关法律法规,确保数据采集的合规性。 岗位要求: 1. 计算机相关专业本科及以上学历,2年以上爬虫相关工作经验; 2. 熟练掌握Python、Java、C++等至少一种编程语言,具备良好的编程基础; 3. 熟悉主流的爬虫框架,如Scrapy、requests等; 4. 熟悉Web前端技术,如HTML、CSS、JavaScript等; 5. 熟悉数据库技术,如MySQL、MongoDB等; 6. 熟悉Linux操作系统,能熟练使用shell脚本; 7. 具备良好的数据结构和算法基础,能独立解决复杂问题; 8. 具备良好的沟通能力和团队协作精神,能承受工作压力; 9. 有以下经验者优先: - 有大规模分布式爬虫开发经验; - 熟悉反爬虫技术,能应对网站反爬措施; - 熟悉大数据处理技术,如Hadoop、Spark等。 薪资待遇: 1. 薪资范围:面议,根据个人能力及经验水平; 2. 享有五险一金、年终奖、项目奖金等; 3. 提供完善的职业发展路径和晋升机会; 4. 提供良好的工作环境和发展空间。 联系方式: 有意者请将个人简历发送至:[邮箱地址],邮件主题请注明“爬虫工程师+姓名”。我们会尽快回复您的邮件,谢谢!
-
岗位职责 1.负责设计、开发和维护内容平台所需的分布式爬虫系统,支持从新闻、论坛、社交媒体等多渠道抓取海量数据并进行清洗、结构化和入库。 2.构建完整的数据采集与处理流程,包括网页解析、数据清洗、去重和入库等环节,确保采集数据的质量、准确性与一致性。 3.研究并应对各类反爬虫机制(如IP封禁、验证码、动态加载等),设计并实施反屏蔽策略,保证爬虫系统在复杂环境下稳定、高效运行。 4.搭建爬虫任务的监控与调度系统,实时跟踪抓取进度及性能指标,及时定位并修复抓取失败、异常或性能瓶颈等问题,持续优化爬虫效率和容错能力。 5.根据业务需求完成技术方案和系统设计,并撰写维护爬虫系统的技术文档,以支持内容分析和业务决策。 任职要求 1.精通 Golang 和 Python 编程语言,熟悉主流爬虫开发框架(如 Colly、Scrapy 等),具备较强的爬虫系统开发和维护能力。 2.具有分布式爬虫架构的设计与部署经验,能够搭建和运维分布式爬虫集群以应对海量抓取任务。 3.熟悉常见的数据处理流程,包括数据清洗、结构化及入库等,能够保证抓取数据的准确性和一致性。 4.熟练使用 Linux 操作系统及常用命令,了解自动化部署和运维流程(如 Docker、Shell 脚本等),具备独立调试和排错能力。 5.熟悉爬虫监控和任务调度工具,具备性能优化及容错设计能力,能够保证爬虫任务的高效稳定执行。 6.熟练掌握 MySQL 等关系型数据库,以及 MongoDB、Redis、Elasticsearch 等至少一种 NoSQL 存储技术。 7.熟悉代理池管理及 IP 轮换策略,能够有效应对 IP 封禁、请求限频等常见反爬虫问题。 8.具备一定的逆向工程能力,了解常见 JavaScript 混淆、接口加密方案和验证码破解技术,能够通过逆向分析提升爬取成功率。 9.理解常见的爬虫数据提取算法和反反爬策略,具备一定的算法能力,以优化数据抓取和解析效率 加分项 1.参与过海外社交项目优先 2.有过大型项目架构的优先 3.有相关开源项目的优先考虑
-
岗位职责 1. **逆向分析与数据采集** - 负责Web端及移动端应用的逆向工程,包括网页结构解析、动态数据抓取、API接口分析及协议破解。 - 突破复杂反爬机制,例如验证码(图形、滑块、语音)、IP封禁、加密参数、设备指纹等。 2. **通信协议模拟与自动化** - 分析目标网站或APP的通信协议(HTTP/HTTPS、WebSocket、gRPC等),实现登录流程模拟、加密算法逆向及自动化数据采集。 - 开发高效稳定的自动化脚本,支持大规模数据抓取与功能控制。 3. **反爬技术研究与对抗** - 深入研究主流平台(如电商、社交媒体、短视频)的反爬策略,包括行为检测、浏览器指纹、WASM混淆等。 - 设计创新对抗方案,优化爬虫稳定性与成功率,应对高频更新场景。 4. **工具开发与系统集成** - 开发逆向分析工具、爬虫框架或桌面应用,支持数据清洗、接口封装及系统集成。 - 优化工具性能,确保高并发与大规模数据处理能力。 5. **跨部门协作与文档输出** - 与前后端开发、数据分析团队紧密协作,完成数据对接与功能实现。 - 撰写高质量技术文档、逆向分析报告及操作手册,确保知识传承与项目可维护性。 --- ## 技术栈要求 ### 核心技能 - **逆向工具**:熟练掌握IDA Pro、Ghidra、OllyDbg、Charles、Fiddler、Wireshark、mitmproxy等调试与抓包工具。 - **编程语言**: - 精通Python,熟悉Scrapy、Requests、Selenium、Puppeteer等,用于爬虫开发与自动化脚本编写。 - 精通JavaScript,具备JS逆向、AST分析、Hook技术及WebAssembly调试能力。 - 熟悉C++或C#,用于桌面工具开发或性能优化。 - **前端逆向**: - 深入理解浏览器渲染原理、DOM操作、动态JS解析及WebSocket通信。 - 熟悉Vue、React、Angular等前端框架的逆向调试,掌握Headless浏览器应用。 - **移动端逆向(加分项)**: - 熟悉Android/iOS应用的脱壳、反编译技术(Smali、ARM/Thumb汇编)。 - 熟练使用Frida、Xposed、Magisk等框架进行动态Hook与行为分析。 ### 扩展能力 - **加密算法**:掌握RSA、AES、DES、MD5、SHA等常见加密算法,具备私有协议逆向及自定义加密算法分析能力。 - **爬虫框架**:熟练使用Scrapy、Selenium、Puppeteer、Playwright,结合Headless浏览器解决动态渲染与复杂交互问题。 - **网络协议**:深入理解HTTP/2、HTTPS、TCP/IP协议栈,熟悉WebSocket、gRPC、QUIC等新型协议的分析与模拟。 - **系统架构**:了解分布式爬虫架构设计,熟悉Redis、Kafka、Elasticsearch等工具在数据处理中的应用。 --- ## 任职要求 ### 学历与经验 - **本科及以上学历,计算机科学、软件工程、信息安全等相关专业优先。 - 2年以上Web逆向工程、爬虫开发或相关领域经验。 - 有大型互联网平台(如电商、社交、短视频、金融)逆向分析或数据采集项目经验者优先。 ### 技术能力 - 能够独立完成从目标分析、协议逆向、反编译到代码还原的全流程工作。 - 熟悉代码混淆、反调试、虚拟机保护等对抗技术,具备复杂场景下的攻防实践经验。 - 掌握多线程、高并发爬虫开发技术,能够优化爬虫性能与稳定性。 ### 软性素质 - **逻辑思维**:具备缜密的逻辑分析能力,善于拆解复杂问题。 - **技术钻研**:对逆向工程与反爬技术有浓厚兴趣,持续跟踪技术前沿动态。 - **团队协作**:良好的沟通能力与团队意识,能够适应高强度、快速迭代的开发节奏。 - **责任心**:对项目质量与数据安全有高度责任感,严格遵守相关法律法规与职业道德。 --- ## 加分项 - 有开源逆向工具、爬虫框架或相关技术博客的贡献经验(如GitHub项目、CNBlogs、知乎专栏)。 - 熟悉AI验证码识别技术(如CNN、RNN模型训练)或OCR技术在逆向中的集成应用。 - 具备网络安全或渗透测试背景,参与过CTF竞赛、漏洞挖掘或红蓝对抗项目。 - 熟悉云平台(如AWS、阿里云)或容器化技术(Docker、Kubernetes)在爬虫部署中的应用。 - 了解机器学习或大数据分析技术,能够将逆向数据用于商业洞察或模型训练。 --- ## 福利待遇 - **薪资与奖金**:35K-60K/月,优秀者可面议更高薪资,另提供年终奖、项目奖金。 - **职业发展**:提供技术深造与晋升机会,参与前沿技术项目,与行业精英共事。 - **工作环境**:弹性工作时间,现代化办公环境,定期团队建设活动。 - **员工福利**:五险一金、带薪年假、年度体检、节日礼品、学习补贴等。
-
岗位职责: 1.负责电商平台(包括网站和APP)的数据采集,制定高效、稳定的爬取方案,并确保数据完整性和时效性; 2.研究并绕过电商平台的反爬机制,包括验证码识别、IP封锁、JS混淆、动态加载等,提升爬虫的稳定性和成功率; 3.进行APP逆向分析,利用反编译、静态分析、Hook等技术破解数据加密、API接口加密等防护措施; 4.设计、开发和优化爬虫架构,提高数据抓取效率,优化爬虫并发、任务调度、代理池、分布式爬取等模块; 5.使用AI爬虫技术(如自动化识别网页结构、智能解析动态内容等)优化数据获取流程; 6.研究HTTP、TCP等网络协议,进行数据抓包和分析,构建高效的抓取策略; 7.编写清晰的技术文档,记录逆向工程的过程、反爬破解策略及优化方案; 8.持续关注行业发展趋势,优化爬虫系统,并结合AI技术提升数据采集的自动化和智能化程度。 任职要求: 1.本科及以上学历,计算机科学、软件工程、网络安全等相关专业,3年以上爬虫开发经验; 2.熟练掌握Python爬虫开发,精通Scrapy、Selenium、Playwright、Requests等爬虫框架和工具; 3.熟悉HTTP、TCP等网络协议,具备抓包分析能力,掌握Burp Suite、Wireshark等工具; 4.深入理解反爬技术,具备丰富的应对经验,包括但不限于代理IP池、浏览器指纹模拟、验证码识别(OCR、打码平台)、动态加载解析等; 5.具备APP逆向工程经验,熟悉APK反编译、静态分析、动态调试(Frida、Xposed等),能绕过API加密、代码混淆等安全策略; 6.了解ARM指令集,有反汇编、调试能力,能处理花指令、代码混淆等复杂场景; 7.近一年内,有百万级以上电商数据采集经验,有主流电商平台或电商类APP爬取项目经验者优先; 8.具备优秀的代码编写能力、良好的工程化思维和团队协作能力,能够编写高效、可维护的爬虫代码。 加分项: 有电商平台(如Amazon、shopee、Rakuten、Lazada等)爬虫经验者优先; 有大型分布式爬虫架构经验,熟悉Redis、Kafka、RabbitMQ等任务队列调度机制; 具备AI爬虫经验,熟悉自动化网页解析、深度学习OCR识别等技术; 了解MLOps、大数据存储、数据清洗技术,能与数据工程师协同优化数据处理流程。
-
工作职责: 1、打造国内/外全域的短视频数据抓取和实时监控能力; 2、设计和优化分布式爬虫集群系统,高效的内容发现、解析和存储方案; 3、模拟真实用户行为,采用手机群控等创新技术突破爬取难题; 4、与其他团队紧密协作,集成爬虫输出,支持不同业务诉求。 任职要求: 1、大规模分布式系统和网络爬虫开发经验; 2、精通Python、Go等编程语言,熟悉爬虫相关框架和工具; 3、深入了解平台反爬虫策略及对应的防护和绕行方法; 4、熟悉手机群控、Root手机等移动端爬虫前沿技术; 5、优秀的系统架构设计和性能优化能力; 6、数据质量管理意识,重视隐私、版权保护。
-
岗位描述 1.负责分布式爬虫开发,数据采集采集、基本数据清洗、调度、监控、自动化运行等; 2.负责平台平**控调研与处理解决; 3.负责主流APP逆向破解工作,熟悉java/python/c/c++,能够及时解决常见的APP反编译、脱壳、加密参数破解等问题; 任职要求 1.学历不限 2.近半年内 有大规模 抖音/快手/淘宝/天猫/美团/拼多多 采集经验者 优先(有其一即可) 3.抖音/快手有做过实时直播采集,淘宝/天猫 日采集详情数据超200万,美团能够采集外卖商超,拼多多日采集详情超3万,满足其一即可 3.有丰富的逆向工程经验,有 抖音/快手/淘宝/天猫/美团/拼多多 APP逆向 经验者 优先 4.熟练使用Python分布式爬虫框架,如scrapy/pyspider,有其一即可 5.逻辑思维清洗,有责任心,善于学习与专研,有良好的团队合作意识与沟通能力;
-
非杭州伙伴可以线上办公!!! 岗位职责: 1.爬虫开发、与内部系统后端开发对接;负责爬虫系统构架的数据存储设计; 2.建立完整的数据获取、解析、入库和监控流程,并不断优化迭代完善; 3.理解系统数据处理流程以及业务功能需求; 4.保证数据的完整性和准确性。 岗位要求: 1、熟悉js逆向、js注入、反混淆、熟悉jsRPC服务; 2、计算机相关专业专科及以上学历(有项目经验可以放宽); 3、熟悉linux开发环境,熟练掌握java或python编程语言,熟悉js语言; 4、有一定的反爬虫对抗经验,分布式爬虫布局; 5、电商类网站爬虫经验优先,有高频爬虫工作经验者优先; 6、实操过akamai,datadom,cloudflare等国外cdn供应商防护优先。
-
任职要求: 1. 本科及以上学历 2. 有Python爬虫相关经验,有web端JS逆向经验,熟练使用Scrapy框架 3. 熟悉HTML、XPath、正则表达式、AJAX、HTTP协议等 4. 熟悉MySQL、NoSQL等,了解Git版本管理工具 5. 熟悉分布式爬虫以及各种抓包工具 6. 熟悉消息队列,如rabbitmq,kafka等 加分项: 1. 有GUI工具pyqt开发经验 2. 有app逆向开发经验,熟悉ast,frida,objection,能够独立逆向小程序,app等 3. 有爬虫平台相关开发经验,如xxljob等
-
工作职责: 1、独立负责网络爬虫系统的设计与开发; 2、负责和业务沟通抓取需求,满足业务的发展需要; 3、负责大数据产品所需网站的信息抓取、解析、清洗等研发与优化工作; 任职要求: 1. 计算机或相关专业,本科及以上学历; 2. 熟悉软件工程,熟悉常用数据结构和算法; 3. 熟悉Python语言 、掌握爬虫框架scrapy , 熟悉分布式爬虫管理框架Gerapy, 爬虫管理scrapyd ,分布式爬虫scrapy-redis 4. 熟悉Linux操作系统以及shell脚本; 5. 熟悉HTML,JavaScript,xpath,css selector,熟悉HTTP协议; 6. 英语水平达到CET6或以上; 7. 工作细心,认真负责,具备较强的学习能力; 8.了解Git版本管理工具。
-
【岗位职责】 1.负责爬虫的开发及优化迭代改进,设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。 2.负责样本数据分析,并开发和优化已有的文本挖掘及统计算法。 3.负责应用经典的推荐算法,优化推荐效果。 【岗位要求】 1.计算机、数学、统计等相关专业,本科及以上学历。 2.精通Python,3年以上Python开发经验。有Flask、Tornado、Django等Web框架实际项目经验。 3.熟悉多线程、多进程编程,有高并发项目经验。 4.熟练使用正则表达式。 5.熟悉mysql、redis、ES、mongo等常用数据库。 6.熟练使用pandas、numpy等数据分析框架、熟悉pytest单元测试。 7.熟练使用git工具。 8.熟悉linux常用命令及docker部署。 9.有分布式爬虫和数据采集系统的架构设计和开发经验。 10.了解常见的机器学习算法以及TensorFlow等主流框架。 11.熟悉经典的推荐算法。 12.具备高度责任感,良好的沟通协作能力。 具有独立开展和完成工作的能力。


