双休不加班年终奖
职位描述:
1、负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型;
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提升网页抓取的效率和质量;
3、对抓取后的数据进行清洗、存储等,并持续优化
平台,以便满足各种爬取业务需求。岗位要求:
1.精通Linux/UNIX,精通Python语言,至少熟练掌
握主流爬虫框架中的一种;
2.了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决is反爬和模拟登陆问题;
3.熟练掌握正则表达式、XPath、CSS等网页信息抽
取技术;
4.熟悉常见反爬机制,验证码识别,IP代理池、应用 lp池、headers认证和cookie等;
5.熟练掌握应用Selenium、PhantomJS、Splash Puppeteer实施动态抓取;
6.熟悉熟练使用charles、fiddler等抓包工具者优先
7.熟悉数据清洗,能够用numpy、pandas、jieba等
8.熟悉mysal、mongodb、redis、rabbitMQ、kafk
a、spark者优先;
9.对有金融数据抓取清洗经验优先;
工作时间:
8小时工作制,周一至周五(双休、国家法定节假日
)。
薪资待遇:
试用期3个月,正式入职工资6000~11000。
条件优异者,****
拉勾安全提示