爬虫开发工程师10k-13k·13薪

广州经验不限大专及以上爬虫工程师
岗位所属职位类型
兼职

  • 内容资讯
  • Web前端开发
  • 工具类产品
  • Windows
  • Python
腾图科技
分享到微信
微信扫一扫,用小程序打开分享
职位诱惑:

开发程序可用作其他研究方向

职位描述:

总目标:制作一个用于电脑使用的小型搜索器软件或者浏览器插件、拓展程序,实现能够完成上述初步查询20000个生物品种的查询、筛选、整理工作。
搜索器的主要要求:
1、 总目标是可以实现按照关键词以及特殊字符(比如图片或是化学结构式)在谷歌进行自动搜索,每次搜索结果的前200条链接的网址内容进行全部爬取,包括网页链接页面的分页和外部链接的全部内容。(很多是外网网址,公司地址在国内,自己有VPN,没有服务器)。一个关键词搜索到的内容可以自动保存在一个word或文件夹,而且要做到去重。
2、 搜索的关键字字符可能有几十种包括中英文以及其他小语种的特殊字符,搜索的网页内容语言主要是中英文,还会有少量西班牙语,葡萄牙语,法语,日语等等。
3、 当搜索出来的不是网页,比如说是PDF或其他文件格式要保存到同一文件夹里,尽量保证可以把爬取页面上附带的WORD和PDF文件也爬取下来,如果涉及到某些论文无法爬取,则需要把论文摘要内容爬取下来。当有些网址实在是不能爬取的时候可以截图保存到文件里。
4、 搜索到网站后,能初步分析和判断,按关键字将内容进行归类;(按精确匹配或模糊匹配分),需要搜索某种产品的物化性质、结构式、应用、生产经营企业信息等,就要进行分析,进入下一层(有可能再进入下一层),把相关的所有信息全部保存下来。
5、 可以按照我方要求,主动设置文件夹、word文件格式,并整理文件资料、存储独立文件,如照片、PDF文件和其它独立格式文件,保存的word文件需要自行筛选掉重复信息。
6、 一周内可以达成6000个生物品种的查询筛选整理工作。
7、 从网站下载的信息需要是以word文件的格式下载保存,主要保存网站页面的文字信息,保存的内容要附上具体的网址,不同板块的信息内容需要添加空格隔开。将具体网址设置为小标题方便我们快速找到每个网址的内容。
8、 文字部分最终的目的是把不同网站的内容关于某一个品种的内容进行总结自动去重后,把各个网站关于这个品种的内容收集到一个word文件里总结,并且筛选出其中不同的信息。
9、 比较理想的情况是可以做一个独立的软件,但是如果比较难实现可以做成浏览器的插件或者拓展,只要能达到前面提到的收集资料的要求即可。
10、 文字搜索部分的工作工期工期为签约后的一周,签约后付定金,交付后的调试时间为3天,程序运行验收没问题付清尾款。

工作地址

职位发布者:

拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
该职位尚未收到面试评价
广州腾图科技有限公司

腾图科技

相似职位