-
数据抓取工程师 职位描述: 1、负责搭建数据抓取系统,根据数据源头进行数据抓取,对数据抓取的及时性负责; 2、负责对抓取数据进行解析、清洗,对数据一致性、准确性负责; 3、负责相关数据抓取服务的工程建设和指标建设,对数据生产链条的健壮性、高效性负责。 任职要求: 1、本科或以上学历,有3年以上数据抓取开发经验; 2、熟练掌握Python等编程语言,具有扎实的编程基础和良好的代码风格; 3、具备丰富的爬虫开发经验,熟悉各类爬虫框架和工具,如Scrapy、Selenium等; 4、熟悉HTTP协议和常见的网页解析技术,具备良好的数据清洗和处理能力; 5、熟悉MySQL、MongoDB、Redis等; 6、具备良好的沟通和团队合作能力,能够与数据开发、后端开发人员等协作,共同完成项目目标
-
岗位职责: 1、负责棋牌产品的设计研发和优化工作,并对产品功能进行测试、验收,保证产品质量; 2、了解棋牌市场动态,持续跟踪分析市场上的竞品,总结出产品和竞品的差异之处,寻找产品提升和优化空间; 3、分析上线产品的运营数据,从数据中挖掘信息,提出产品改进意见,不断完善在线产品、持续改善用户体验; 4、利用微信社交优势并挖掘更多来量渠道提升产品DAU; 岗位要求: 1、5年以上互联网产品或策划岗经验,有完整的项目经验,对棋牌游戏有一定的了解; 2、具备一定的数据分析能力,能够敏锐的抓取产品运作中的关键数据并提出改进意见; 3、自驱性强,工作积极主动,有良好的团队协作意识,定期总结,注重自我提升; 4、逻辑清晰,具备良好的语言沟通和表达能力,有成功项目经验者优先。
-
岗位职责: 1、梳理和解读业务,提供数据层面的问题解决方案; 2、协助进行数据提取.清洗.转换等处理工作,搭建自动化的数据生产线 3、参与数据处理框架的开发和数据处理平台的建设; 4、协助开发和维护独立的数据处理工具 岗位要求: 1.熟悉Python基本语法,熟练使用AI工具,具有独立项目开发经验以及具有大模型经验 2.工作年限3-5年 3.熟练掌握scrapy框架,tensorflow,pytroch等框架,了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验; 4.掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术; 5.熟悉各种反爬机制,掌握Selenium,APP破解技术优先; 6.做过数据处理、ETL等相关工作优先; 7.对大数据相关技术感兴趣。 学历要求:**公办本科及以上,985与211大学优先录用。学信网可查,有***书
-
岗位职责: 1. 使用SQL等数据抓取工具从各种数据源中提取数据,并进行数据清洗和整理。 2. 运用统计学和数据分析方法对数据进行分析,发现趋势、模式和关联性。 3. 利用数据可视化工具(如Tableau、Power BI等)创建仪表盘、报告和可视化图表,以向利益相关者传达数据洞察。 4. 协助团队成员进行数据分析项目,提供支持和建议。 5. 监测和评估数据质量,确保数据的准确性和完整性。 6. 跟踪行业趋势和竞争对手的数据,提供市场洞察和建议。 岗位要求: 1. 2-3年相关工作经历。 2. 熟练掌握SQL等数据抓取工具,能够编写和优化复杂的查询语句。 3. 具备数据清洗和整理的技能,能够处理大量数据并确保数据的准确性。 4. 熟悉统计学和数据分析方法,能够运用这些方法解决实际问题。 5. 熟练使用数据可视化工具,能够将数据转化为易于理解和传达的可视化图表和报告。 6. 对商业和旅游行业有浓厚的兴趣,了解相关行业的趋势和挑战。 7. 具备良好的沟通和团队合作能力,能够与不同部门和利益相关者进行有效的合作。 8. 具备解决问题和分析能力,能够快速理解和解决复杂的数据相关问题。
-
■岗位职责 负责爬虫软件设计开发及系统维护工作; 根据业务需求完成数据采集与爬取、解析处理、入库及备份数据日常工作; 负责信息抽取、数据清洗等研发和优化工作,对数据结果进行解释和汇报,向相关部门提供数据分析技术支持; 负责python相关系统的开发、维护和优化。 ■岗位条件 (1)学历:普通高招大学本科及以上学历。 (2)年龄:原则上本科生不超过28周岁,硕士研究生不超过30岁,博士研究生不超过32岁,特别优秀者可适当放宽。 (3)专业:计算机科学与技术、软件工程、网络工程、信息与计算科学、信息安全、电子与计算机工程、信息与通信工程、网络空间安全、数据科学与大数据技术、人工智能等相关专业。 (4)基础能力: 熟练掌握Python编程语言及其主流框架和第三方库; 熟练使用爬虫相关技术,如scrapy、pyspider、appium、puppeteer等; 掌握Pyhton的Web框架Django、Flask等,并且有使用过其中一个框架开发; 具有扎实的数据结构和算法基础,深入理解面向对象编程思想及常用设计模式; 熟悉缓存、多线程、消息队列等相关技术; 具备较高的编程素养、良好的编码习惯。 (5)放宽及优先条件: 具有符合本岗位特殊才能的,学历和年龄可适当放宽; 具有互联网政务服务相关工作经验,或具有“大厂”工作经验者,学历和年龄可适当放宽,并优先考虑; 具有算法开发相关经验的优先; 具有Js逆向经验、App数据抓取经验者优先; 其他符合放宽或优先条件的。
-
职位职责: 1、全面统筹搜索网页解析项目的相关产品运营工作,能够基于解析相关业务目标制定运营策略与执行计划,推动解析成果高效支撑业务场景; 2、与算法团队、产品团队等密切协作,清晰传递业务需求,积极提供有针对性的解析相关策略和建议; 3、能对解析侧相关数据的应用效果进行了解与分析,通过下游尺度变化、模型指标波动等明确业务评估优化方向; 4、能够针对性完善当前网页解析项目的运营流程与标准,包括需求对接、进度跟进、成果验收等环节,提高跨团队协作效率。 职位要求: 1、本科及以上学历,2年及以上互联网运营相关工作经验,至少1年网页解析运营或搜索方向运营经验优先; 2、熟悉大模型训练的相关逻辑,能熟练使用市面上大模型相关应用,有一定AI理解优先; 3、创新能力比较强,对于不断探索新的AI技术和应用场景有强烈意愿和主观能动性; 4、擅长需求分析与资源协调,具备优秀的沟通协调能力,能将业务目标拆解为可执行的运营动作并推动落地; 5、有网页抓取、网页解析或搜索类产品运营经验者优先。
-
职位职责: 1、参与GUI大模型相关训练集、评测数据的标准制定、标注、评估工作,独立完成Agent等自动化标注&评测工具的搭建,协助产品、算法快速提升模型能力; 2、与业务方、产品、算法团队紧密协作,深度探索并构建全、半自动化机标注流程的数据处理策略,通过不断尝试创新技术方案,优化标注流程效率与质量; 3、基于数据处理策略确认数据理想态,综合运用PE、搜索、知识库、代码等手段,探索前沿技术在机标工作流中的应用,构建完整且高效的机标工作流,显著助力业务提效; 4、针对部分涉及数据抓取、数据处理、工具开发的项目,联动业务方共同探索并制定创新性技术方案,完成技术开发工作,推动项目落地; 5、基于各业务发展动态、数据特性,积极探索行业前沿技术,打造通用提效产品与工具,严格确保工具的准确率与覆盖率,为业务发展提供坚实技术支撑。 职位要求: 1、本科及以上学历,计算机科学、统计学等专业背景优先; 2、至少熟练掌握一种编程语言,具备快速学习新技术的能力优先; 3、有开发工作经验、工程化经验(重点掌握Python数据处理、Sql等数据库工作、Hadoop/Spark等集群环境),熟悉分布式系统原理与实践; 4、具备敏锐的产品思维,密切关注并深入了解生成式AI大模型前沿技术,尤其是VLM多模态模型等,具备优秀的内容理解和推理分析能力,能将前沿技术转化为实际业务价值; 5、具备较强的自驱力,工作细心且责任心强,具备出色的团队沟通、协作能力与推动能力,能够在跨部门协作中有效整合资源,推进技术方案落地实施; 6、有GUI项目产品研发经验优先。
-
【岗位职责】 1.负责公司跨境电商网站/Shopify的开发、搭建、改版、优化和维护。负责开发和维护不同国家的站点。 2.与设计师、网站运营、需求方紧密协作,实现Web界面,包括前端页面搭建、交互动效实现、Shopify themes模版的二次开发、Shopify第三方插件研究和二次开发。 3.提高网页速度、稳定性、兼容性,通过技术提升购物流程和用户体验。优化底层代码和网站运行数据。 4.根据业务需要进行网站程序的其他开发。 【任职要求】 1.计算机相关专业,本科及以上,扎实代码功底。 2.电商网站/品牌网站独立开发经验,熟悉Shopify平台生态和搭建,熟悉网站UI。 3.熟练掌握liquid优先,熟悉HTML语言,及其他常见的网站开发语言。了解技术架构的设计与优化。 4.对用户线上购物习惯有深度理解,尤其是欧美、亚太地区。 5.有英语基础,了解google抓取逻辑优先。请附上开发作品集。
-
岗位职责: 1、负责棋牌产品的设计研发和优化工作,并对产品功能进行测试、验收,保证产品质量; 2、了解棋牌市场动态,持续跟踪分析市场上的竞品,总结出产品和竞品的差异之处,寻找产品提升和优化空间; 3、分析上线产品的运营数据,从数据中挖掘信息,提出产品改进意见,不断完善在线产品、持续改善用户体验; 4、利用微信社交优势并挖掘更多来量渠道提升产品DAU; 岗位要求: 1、5年以上互联网产品或策划岗经验,有完整的项目经验,对棋牌游戏有一定的了解; 2、具备一定的数据分析能力,能够敏锐的抓取产品运作中的关键数据并提出改进意见; 3、自驱性强,工作积极主动,有良好的团队协作意识,定期总结,注重自我提升; 4、逻辑清晰,具备良好的语言沟通和表达能力,有成功项目经验者优先。
-
工作职责: 负责设计、开发和维护高效、稳定的数据爬虫系统; 根据业务需求,制定数据抓取策略,处理反爬机制、验证码识别、IP代理等问题; 建立数据清洗、结构化处理及存储流程,保证数据质量; 持续优化爬虫性能,提升抓取速度与稳定性; 与数据分析、产品等团队紧密协作,理解数据需求,快速响应数据抓取任务; 关注行业动态,研究新的爬取技术和反爬手段,持续提升系统能力。 任职要求: 熟练掌握至少一种编程语言(Python优先,如:Scrapy、Selenium、Playwright、Requests 等常用库); 熟悉常见网站结构、前端技术(HTML、CSS、JavaScript),能够快速分析网页数据; 熟悉常用的反爬技术及应对手段(如IP代理池、UA池、验证码识别、动态渲染处理等); 熟悉异步爬虫、分布式爬虫开发,有 Scrapy-Redis / Playwright + 分布式实践经验者优先; 熟悉常用数据库(如MySQL、MongoDB)及缓存系统(如Redis); 有大型数据采集、数据清洗、数据处理项目经验优先; 具备良好的编码习惯和文档意识,责任心强,乐于学习新技术。 加分项: 有 GraphQL 接口抓取、WebSocket 抓取、APP 抓包分析经验; 有云原生(如 Kubernetes、Docker)、大数据(如Spark、Kafka)相关技术栈经验; 有参与过爬虫平台化、数据中台建设项目经验; 有算法基础,了解简单的图像识别(如验证码OCR识别)优先。
-
1、负责老板IP打造的短视频账号的拍摄工作,包括口播拍摄的场景搭建,最好能够具有一定的编导能力 2、熟练使用主流摄影摄像设备,能够独立完成拍摄、对作品进行拍摄剪辑具备较高的视听审美水准; 3、结合账号特点,精准定位短视频的内容、方向,抓取受众的心理,有序推进账号内容制作及粉丝增长; 4、持续优化视频制作流程,提升工作效率和作品质量
-
岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维 任职要求 1. 技术能力 ● 熟练掌握 Python/PHP,具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型,能使用抓包工具(如 Charles、Fiddler)分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发,掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架,了解分布式爬虫框架(如 Scrapy-Redis) 2. 经验要求 ● 1 年以上爬虫开发经验,有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证 加分项 ● 了解前端技术(HTML/CSS/JavaScript),能逆向分析动态渲染页面 ● 熟悉常见反爬措施(如 JS 混淆、验证码识别、IP 限频),具备实战对抗经验
-
岗位职责 ● 根据业务需求开发网页爬虫 ● 对爬取的数据进行标注与清洗 ● 负责爬虫项目的部署与运维 任职要求 1. 技术能力 ● 熟练掌握 Python/PHP,具备扎实的编程基础与数据结构知识 ● 熟悉 HTTP/HTTPS 协议、TCP/IP 网络模型,能使用抓包工具(如 Charles、Fiddler)分析请求 ● 熟悉 PostgreSQL/Mysql 数据库开发,掌握 SQL 优化与索引设计 ● 熟悉 Scrapy、Selenium、Playwright 等框架,了解分布式爬虫框架(如 Scrapy-Redis) 2. 经验要求 ● 1 年以上爬虫开发经验,有海外社媒类数据抓取项目经验者优先 3. 其他要求 ● ***本科及以上学历 ● 通过 CET-4 或以上英语等级认证 加分项 ● 了解前端技术(HTML/CSS/JavaScript),能逆向分析动态渲染页面 ● 熟悉常见反爬措施(如 JS 混淆、验证码识别、IP 限频),具备实战对抗经验
-
【职位描述】 1. 负责设计开发针对主流海外电商平台的大规模数据采集系统,支持商品信息、价格监控、竞品分析等业务需求。 2. 构建和维护分布式浏览器集群,实现千级并发的稳定数据抓取,处理复杂的SPA应用和动态内容渲染。 3. 研究海外电商平台的反爬机制(如Cloudflare、PerimeterX、DataDome),制定针对性的反反爬策略,包括设备指纹伪造、TLS指纹处理、行为模拟等。 4. 确保数据采集符合GDPR、CCPA等国际数据保**规,处理多语言、多货币、多时区的复杂数据场景。 5. 优化浏览器资源使用,实现成本可控的大规模部署,包括资源池管理、任务调度优化、异常恢复机制等。 【任职要求】 1. 3年以上海外电商爬虫经验,具备至少5个主流海外电商平台的数据采集项目经验,深度了解各平台的技术架构和反爬策略。 2. 大规模浏览器自动化经验:有管理500+浏览器实例的实战经验,熟练掌握Playwright、Puppeteer、Selenium Grid等工具的集群化部署。 3. 精通现代反爬对抗技术:浏览器指纹伪造(Canvas、WebGL、Audio等)、TLS/JA3指纹处理和规避、验证码自动化处理(reCAPTCHA、hCaptcha、Funcaptcha)、WAF绕过策略(Cloudflare 5s盾、BotFight Mode)。 4. 编程语言:精通Python,熟悉JavaScript/TypeScript(用于浏览器脚本开发)。 5. 框架和工具:熟练使用浏览器自动化框架(Playwright、Puppeteer、Selenium 4.0+)、代理管理(住宅代理、数据中心代理轮换策略)、容器化部署(Docker、Kubernetes环境下的浏览器集群管理)。 6. 分布式系统经验:熟悉Redis、RabbitMQ、Kafka等中间件,有构建分布式任务调度系统经验。 7. 独立完成过至少3个海外电商大型项目,单项目日均数据量100万+条,涉及多平台、多地区的复杂数据采集需求。 8. 成本控制能力:有控制单条数据采集成本的实战经验,熟悉云服务器成本优化策略。 【加分项】 1. 移动端数据采集:Android/iOS App数据采集经验,熟悉Frida、Xposed等Hook技术。 2. 协议层面突破:GraphQL API逆向分析、gRPC/protobuf协议解析、WebSocket实时数据采集。 3. AI辅助技术:机器学习模型应用于验证码识别、异常检测和自动化问题诊断、智能化反爬策略调整。 4. 海外电商业务理解:熟悉跨境电商运营模式、了解各平台的商业规则和数据价值点。
-
1.负责垂直领域的定向爬虫引擎开发优化工作 2.负责HTTP、AJAX等各类网络请求分析 3.通过爬虫定向抓取数据和解析、抽取、去重、清洗和存储 4.根据应用场景封装服务接口给内部团队调用 5.负责反封禁的研究提升爬虫抓取效率和质量 任职要求 1、深入理解网络数据抓取的工作原理与工作流程; 2、熟悉HTML、DOM、XPATH,熟练使用正则表达式; 3、擅长分析HTTP协议,能够解析、模拟HTTP传输的报文 4、掌握HTTP相关调试、分析工具,能够对网页、APP数据抓包(有手机APP脱壳、反编译能力优先考虑) 5、精通Python/C#/Java等编程; 6、一年以上大规模网页爬虫开发经验,熟练使用关系数据库(如MySQL, MSSQLsql)或NoSql数据库(如Mongodb及Redis); 7、具备独立的破解各类网站封禁及各类验证码的能力,有多线程、分布式、网络数据抓取及处理经验优先; 8、熟练使用开源技术以及框架(Nutch、Scrapy、Heritrix等)者优先; 9、熟悉Unix/Linux操作系统者优先; 10、有良好逻辑思维能力、沟通能力、团队合作精神、学习能力,抗压能力,目标执行力,对挑战性问题充满激情。


