AI企业服务方向蓝海
职责描述:
1、负责网络公开企业、政策信息的爬虫系统的设计与开发;
2、开发、维护爬虫系统,包括调度、抓取、维护、验证等爬虫工作;
3、负责爬虫算法的策略优化研究,提升爬虫抓取效率和质量
4、封禁与反封禁研究,在破解反爬虫方面有丰富经验;
5、负责爬虫技术难点的攻克;
任职要求
1、计算机或相关专业专科及以上学历,1年以上爬虫工作和内容提取工作经验,有良好的编码习惯;
2、熟练掌握JavaScript,善于逆向分析,具有跟踪分析研判源码的能力;
3、熟练掌握一种开源爬虫框架,如,Spidy.scrapy等,有研发爬虫框架经验者优先;
4、熟悉常见反爬机制,验证码识别,IP代理池应用lp池、headers认证和cookie等;
5、熟悉Javascript 、HTML、CSS、正则表达式、XPath等信息抽取技术熟悉抓包分析请求并模拟;
6、熟练掌握应用Selenium+PhantomJS或AI工具实施动态HTML抓取;
7、熟悉Selenium、Appium等技术
8、熟悉熟练使用http代理工具charles、fddler等
9、熟悉mysql,mongodb等常规数据库的常规使用
10、熟练掌握Linux平台开发,能独立安装、配置、搭建开发环境,编写shell脚本;
11、善于独立分析并解决问题,如反爬应对、爬虫策略、防屏蔽规则、验证码识别技术等,能独立解决实际开发过程碰到的各类问题;
拉勾安全提示