-
1.负责垂直领域的定向爬虫引擎开发优化工作 2.负责HTTP、AJAX等各类网络请求分析 3.通过爬虫定向抓取数据和解析、抽取、去重、清洗和存储 4.根据应用场景封装服务接口给内部团队调用 5.负责反封禁的研究提升爬虫抓取效率和质量 任职要求 1、深入理解网络数据抓取的工作原理与工作流程; 2、熟悉HTML、DOM、XPATH,熟练使用正则表达式; 3、擅长分析HTTP协议,能够解析、模拟HTTP传输的报文 4、掌握HTTP相关调试、分析工具,能够对网页、APP数据抓包(有手机APP脱壳、反编译能力优先考虑) 5、精通Python/C#/Java等编程; 6、一年以上大规模网页爬虫开发经验,熟练使用关系数据库(如MySQL, MSSQLsql)或NoSql数据库(如Mongodb及Redis); 7、具备独立的破解各类网站封禁及各类验证码的能力,有多线程、分布式、网络数据抓取及处理经验优先; 8、熟练使用开源技术以及框架(Nutch、Scrapy、Heritrix等)者优先; 9、熟悉Unix/Linux操作系统者优先; 10、有良好逻辑思维能力、沟通能力、团队合作精神、学习能力,抗压能力,目标执行力,对挑战性问题充满激情。
-
岗位职责: 1、负责数据的采集与爬取、解析处理、入库等数据日常工作; 2、参与爬虫系统的数据抓取架构设计与开发 3、设计爬取、调度和抽取算法,优化系统 岗位要求: 1、熟练掌握python语言,有使用python写过爬虫经验者更佳; 2、了解scrapy或其他爬虫框架,熟悉网页抓取原理; 3、熟悉正则表达式、xpath(或Beautiful Soup4),能够从结构化和非结构化的数据中获取信息; 4、熟悉Linux,熟悉至少一种主流数据库,如Mysql、MongoDB、redis等; 5、良好的沟通和团队合作能力,主动的学习意愿和良好的学习习惯,认真负责的工作态度; 6、有强大的抗压能力及独立快速解决问题的能力。
-
公司位于佛山乐从新城世纪莲地铁广佛线,交通便利。请确定考虑到佛山发展再聊,谢谢! 兼职也可以 1爬虫框架与工具 熟练掌握 Scrapy、Pyspider 等主流框架,能够搭建分布式爬虫系统 熟悉 Selenium、PhantomJS 等自动化工具,应对动态渲染页面和反爬机制 2反爬对抗与逆向技术 具备验证码破解、JS逆向、APP逆向(如 Frida、Xposed)APP脱壳等实战经验 熟悉抓包工具(Charles、Fiddler)和协议分析(HTTP/HTTPS、WebSocket) 3数据处理与存储 精通数据清洗、结构化提取技术(如 XPath、BeautifulSoup),熟练使用 Pandas、NumPy 处理海量数据 掌握 MySQL、MongoDB、Redis 等数据库,具备调优及高并发存储经验 4系统架构与性能优化 熟悉分布式架构(如 Kubernetes、Docker Swarm),能够设计高可用、高性能的爬虫系统 具备实时监控、预警处理及日志分析能力,保障爬虫稳定性 通用技术要求 1编程基础 扎实的 Python 开发能力,熟悉多线程、异步编程及设计模式 了解其他语言(如 Java、JavaScript)及前端框架(Vue、React)为加分项 2运维与工程化 熟练使用 Linux 环境,掌握 Docker、Kubernetes 容器化技术 熟悉云服务(AWS、阿里云)及 DevOps 工具链(CI/CD) 交通便利,公司楼下就是地铁广佛线世纪莲地铁站
-
1、精通python语言,精通scrapy爬虫框架; 2、 精通web抓取原理及技术,从结构化和非机构化数据中获取信息; 3. 精通Html、JavaScript、XML等知识,熟悉前端异步请求方式; 4、精通自动化测试工具; 5、 熟悉一种或多种开源技术; 6、 具备一定的数据挖掘能力; 任职要求: 1、 负责为各个业务线提供垂直,精准的数据采集,抽取,存储服务 2、 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量 3、 解决网页抓取,信息抽取等问题,构建高可用性,高扩展性网络信息采集平台 4、 能独立解决实际开发过程碰到的各类问题
-
工作职责: 1、独立负责网络爬虫系统的设计与开发; 2、负责和业务沟通抓取需求,满足业务的发展需要; 3、负责大数据产品所需网站的信息抓取、解析、清洗等研发与优化工作; 任职要求: 1. 计算机或相关专业,本科及以上学历; 2. 熟悉软件工程,熟悉常用数据结构和算法; 3. 熟悉Python语言 、掌握爬虫框架scrapy , 熟悉分布式爬虫管理框架Gerapy, 爬虫管理scrapyd ,分布式爬虫scrapy-redis 4. 熟悉Linux操作系统以及shell脚本; 5. 熟悉HTML,JavaScript,xpath,css selector,熟悉HTTP协议; 6. 英语水平达到CET6或以上; 7. 工作细心,认真负责,具备较强的学习能力; 8.了解Git版本管理工具。
-
1、负责多平台信息爬取和页面内容的提取分析,负责破解各类反爬机制; 2、负责网页的数据抓取和爬取链路优化(包括逆向分析、脱壳、加密参数破解、抓取攻防等),提升抓取能力; 3、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点,提升网页抓取的效率和质量; 岗位要求: 1.3年以上python爬虫经验,专科及以上学历,计算机相关专业,有企业数据经验优先; 2.熟悉掌握至少一种开源爬虫框架(scrapy、appium、selenium等); 3.精通动态网页抓取、浏览器模拟抓取、APP抓取等技术,熟悉使用fiddler或其他抓包工具。; 4.具有js逆向,app逆向相关经验。熟悉js hook原理,熟悉各种反爬风控常见手段; 5.具有团队合作精神,有责任感,对工作认真负责,有较强的协调和沟通能力;
-
公司简介: 《消费者报道》杂志社创建于1998年,是中国内地率先采用商品和服务对比测评、研究商品评价体系的专业机构,多年来专注并坚持在市场消费现象、行业服务及消费维权方面进行深入的研究、分析和应用,持续向公众传播科学消费与责任消费的理念,目前已形成全媒体、研究中心、数据中心三位一体的调研架构,为政府部门、社会组织、企业和消费者提供全面、科学、权威的调研和资讯服务。这里很纯粹,就是做事的地方——我们热衷于解决问题。 正选数据中心是消费者报道旗下独立事业部。2018年起,团队吸收了来自广东省重点电子政务项目“粤省事”、“营商环境”的技术骨干,专注于研发面向各行业垂直领域的大数据、算法、应用软件产品,先后研发上线了产品质量监测与分析系统、企业信用风险模型管理系统、企业生产销售产品库等,在各领域已逐步实现常态化、主题化、智能化的数据应用场景。本次python爬虫工程师岗位为正选数据中心招聘岗位。 正选数据官网:https://www.ccrdata.cn/ 岗位职责: 1、负责分布式网络数据采集系统及数据库的设计与开发; 2、设计数据采集策略和防屏蔽规则,解决封账号、封IP、验证码等技术问题; 3、维护和优化已有数据采集服务; 4、负责数据采集服务核心算法的策略优化研究,充分利用资源,提升网页抓取的效率和质量。 6、与团队其他人员高效沟通合作完成团队目标; 7、完成上级交办的其他工作任务。 任职要求: 1、大专及以上学历,2年及以上工作经验,计算机软件相关专业,具有扎实的操作系统、网络、数据库相关基础知识; 2、熟练掌握python多进程、多线程、协程、网络编程; 3、熟悉Linux操作系统,熟练使用常用命令;熟练掌握MySQL、MongDB、Redis开发经验者优先; 4、精通网页抓取原理及技术、深度抓取、动态网页技术抓取、浏览器模拟抓取技术,从结构化的和非结构化的数据中获取信息;熟悉Scrapy、Pyppeteer、Selenium、playwright等爬虫框架/工具中的一种或多种; 5、了解常用验证码识别技术,熟悉行为验证码识别、模拟登陆,熟悉各种反爬机制和解决措施; 6、对经手的工作理解深入,有团队观念,具备独立解决问题的能力,善于学习提升。
-
职位描述: 1、负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型; 2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提升网页抓取的效率和质量; 3、对抓取后的数据进行清洗、存储等,并持续优化 平台,以便满足各种爬取业务需求。岗位要求: 1.精通Linux/UNIX,精通Python语言,至少熟练掌 握主流爬虫框架中的一种; 2.了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决is反爬和模拟登陆问题; 3.熟练掌握正则表达式、XPath、CSS等网页信息抽 取技术; 4.熟悉常见反爬机制,验证码识别,IP代理池、应用 lp池、headers认证和cookie等; 5.熟练掌握应用Selenium、PhantomJS、Splash Puppeteer实施动态抓取; 6.熟悉熟练使用charles、fiddler等抓包工具者优先 7.熟悉数据清洗,能够用numpy、pandas、jieba等 8.熟悉mysal、mongodb、redis、rabbitMQ、kafk a、spark者优先; 9.对有金融数据抓取清洗经验优先; 工作时间: 8小时工作制,周一至周五(双休、国家法定节假日 )。 薪资待遇: 试用期3个月,正式入职工资6000~11000。 条件优异者,****
-
(该岗位为外包岗位,优秀者入职后可转为正式员工) 职责描述: 1、负责网络爬虫,数据采集清洗等研发工作 2、负责对爬虫平台架构进行改造和优化 3、定期爬取指定数据,为业务部门提供数据支持。 技能要求: 1、会JS补环境; 2、会训练及协议过国内主流厂家的滑块,图标/文字点选验证码; 3、会使用docker容器; 4、计算机相关专业本科以上学历; 5、熟练的编程能力,熟悉数据结构;熟悉计算机网络的基础理论; 6、熟练的Python编程基础,熟练使用scrapy或feapder等爬虫框架;熟悉分布式爬虫;熟悉XPath等常用页面解析技术; 7、熟悉puppeteer等自动化工具的使用; 8、熟悉postgresql,mongodb等关系型或非关系型数据库; 9、熟悉kafka、redis等消息中间件/缓存的使用优先考虑;
-
工作职责: 1、负责设计、开发、维护分布式爬虫系统; 2、负责爬虫系统性能效果调优; 3、负责爬虫系统的后台监控、报警模块的开发。 任职资格: 1、精通Python ,3年以上爬虫及相关技术开发经验; 2、有1年以上App爬取经验,对so逆向有一定经验并独立做过相关分析; 3、 熟练掌握js逆向,熟悉js各种反爬措施,能解决js混淆等问题; 4、了解常见的App反爬策略,能解决IP封禁、参数加密、验证码、账号封禁等问题; 5、有大型爬虫平台开发经验,单个数据源爬取数量超过千万级; 6、工作积极主动、责任心强,具有较强的分析和解决问题的能力。 任职本岗位,你将获得如下技能: 1、如何设计实现大规模分布式爬虫系统(执行效率、资源调度策略、架构设计与优化); 2、如何处理海量数据(存储、清洗、分析); 3、如何进行特殊目标的定向分析; 4、其他不外传的技术秘笈。
-
岗位描述: 负责爬虫策略与方案制定,爬虫系统架构设计与开发; 负责网站、APP等大规模文本、图片数据抓取,爬虫核心算法优化,提升爬虫效率和质量; 专注于垂直领域数据爬取,并进行多平台信息分析,参与企业数据建设。 任职要求: ***本科以上学历,3年以上开发经验,计算机相关专业优先。有爬虫和反爬虫经验者优先,有大数据爬虫经验尤佳; 熟悉HTTP、TCP等网络协议,精通httpClient/jSoup/xpath/正则表达式/验证码加密处理/代理池等爬虫相关技术;掌握fiddler、charles等抓包工具;至少熟悉并使用过一种主流爬虫架构,如Scrapy、Gocolly、Webmagic等;有分布式爬虫或熟悉app逆向、反编译经验者优先; 熟悉Python/PHP/JavaScript等至少一种语言;熟悉Mysql、Nosql数据库设计,熟悉Redis技术和ElasticSearch; 积极正向,具备良好的沟通能力和团队合作能力。
-
岗位职责: 1、负责公司的爬虫核心技术研究,爬虫框架架构,策略优化; 2、根据业务需求,实现大规模文本、图片、视频数据抓取、清洗、存储等工作; 3、对数据质量负责,提供数据分析报告,优化数据应用架构,支持产品研发。 任职要求: 1、计算机、数学或统计等相关专业,3年以上数据相关工作经验; 2、熟悉linux平台,掌握Python/Java/PHP或某种编程语言; 3、熟悉主流爬虫框架以及对爬虫分布式有相关研究; 4、熟悉基于正则表达式、CSS、http协议、ml等的网页信息抽取技术; 5、具有钻研精神,对数据驱动业务有深入理解,对数据与业务方面有足够的敏感性,独立思考能力和逻辑分析能力强。 我司已在公安局备案:网络安全公司。经营地址位于天府怡兴湖对面,电子科技大学成都研究院,可乘坐地铁5号线南湖站下,A口出。
-
【职位描述】: * 针对复杂的网站架构主动获取相关数据信息; * 负责数据获取、清洗和分析工作。 【任职资格】: * 计算机科学、应用数学、统计学、商业分析、信息系统、数据科学或相关专业本科或以上学历; * 优秀的学习能力与发现、分析并解决问题的能力; * 良好的团队合作精神与沟通能力。 【技能要求】: * JAVA或Python基础扎实,有相关开发或者实习经验,熟悉IO、多线程/进程、MQ、数据结构与设计模式等; * 熟练Linux操作,熟练掌握HTTP协议,了解大型爬虫框架等; * 熟悉MySQL等关系型数据库,有NoSQL,Redis等工作经验者优先; * 熟悉各类反爬虫技术的突破点并有相关项目经验者优先; * 对JS混淆逆向、app逆向、自动化群控等技术有经验者优先; * 有过社媒平台爬取项目经验者优先; * 对计算机体系结构、分布式系统、协程和网络编程有深入了解。 【公司介绍】: -麦肯锡和华为惠普联合团队 • 由多位前麦肯锡合伙人以及华为惠普核心工程高管联合创立,打造精品管理咨询传承与科技创新品牌 • 同时拥有优质咨询项目资源、丰富咨询经验,及数字化赋能的精尖技术能力,建立从咨询建议到产品/解决方案的全面商业服务模式 • 约500位咨询顾问、数据科学家、软硬件工程师常驻北京上海和成都 -多行业多商业领域覆盖 •主要服务于企业客户,通过结合管理咨询、大数据分析、算法建模与工程落地的能力帮助企业客户实现业务增长 •行业覆盖消费品、零售、金融、互联网、医疗与媒体等 •与多行业领先企业深度合作,建立长期合作关系,如沃尔玛(获沃尔玛年度最佳供应商称号)、欧莱雅、联合利华、中国农业银行、腾讯、京东、美团等 -精尖的数据分析/算法/工程师团队 • 具备数据清洗与挖掘、算法模型和语义分析方面行业领先技术水平与能力 • 具备根据客户业务方向搭建中台/后台的工程技术能力与丰富的项目经验 • 具备广受行业认可的成熟产品(含已申请专利技术),帮助客户实现数据驱动的效率提升 -富有竞争力的职业发展与薪酬福利保障 •注重人才培养,提供定期培训分享及深度参与项目机会,加入团队的年轻小伙伴们再也不用担心自己沦为职场“小螺丝钉” •注重员工成长空间,每年二次全员review,半年即有机会享受升职加薪 •注重福利保障,包括:五险一金、全额理赔商业补充医保、超长带薪年假、超长带薪病假、书费报销、打车报销、无限量零食饮料畅吃、国内外团建旅游等
-
岗位职责: 1、负责主导项目订单评审,并编排项目生产计划和进行人员调度,跟进与控制生产物料,安排成品出货; 2、负责物料分析及改善,编制物料采购计划并监督实施; 3、负责库房管理,常备料和非备料规划及物料变更,进行库存结构、库存量的策划与实施,提高生产支持能力; 4、负责监督项目生产计划和物料采购计划的执行,组织召开协调会并建立生产例会机制,保证生产畅通; 5、负责核算和分析产能、合格率、标准工时、设备故障率等生产情况,并及时提出各种分析报告和解决方案,反馈统计信息; 6、负责积极配合公司发展,推进精益生产,降低生产成本; 7、负责生产过程中产品质量控制,解决问题的同时并使之标准化; 8、负责制定生产设备保全计划并监督执行; 9、负责生产现场5S实施,并实现安全生产标准化。 岗位要求: 1、具有3年及以上制造业PMC/PMC主管工作经验,大专及以上学历,28-38岁; 2、熟练运用Office办公软件与ERP系统软件; 3、具有较强的组织能力,灵活处理突发问题的能力,适应性强,能吃苦耐劳,能承受一定工作压力; 4、逻辑思维较强,理解能力及沟通协调能力较好,对数据敏感,原则性强;工作认真负责,有主动性及团队合作精神; 5、性格强势,有管理者思维,熟悉设备 自动化机械物料行业的优先考虑 公司福利: 1.购买深圳市一档医疗社保。 2.包吃包住,出差按公司标准另计。 3.每年旅游可携带家属。 4.公司每月10日前准时发薪资不押工资。 5.年底带薪年假,年终奖
-
岗位职责: 1、从事网页及APP数据采集的技术工作; 2、负责设计爬虫策略及反爬规则,提升数据采集效率、完整度和稳定性; 3、负责智能采集系统设计与研发,如采集任务调度,页面解析和结构化抽取,海量数据存储和读取等。 4.、负责持续跟踪分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进,提升公司相关产品与服务的竞争力。 任职资格: 1、5年左右爬虫开发经验;能够独立承担爬虫工作; 2、熟悉JAVA/Python/go任意语言,熟悉常用的数据结构和算法;熟悉分布式、缓存、消息、搜索等机制; 3、熟悉爬虫原理、分布式架构,精通一种开源爬虫框架,熟练scrapy、feapder等一个或多个爬虫框架及原理,熟悉主流爬取技术,如协议破解、模拟点击、AST解混淆、app逆向等,能够解决封账号、封IP、验证码等问题; 4、熟悉Mysql、ES 和 kafka等使用; 5、有淘宝、拼多多等电商数据获取相关经验者优先。 6、熟悉Android逆向,有主流app逆向、风控对抗、算法破解经验


