首页
职位
公司
校园招聘
课程
new
APP
登录
|
注册
进入企业版
爬虫开发工程师
10k-13k·13薪
广州
经验不限
大专及以上
爬虫工程师
岗位所属职位类型
兼职
内容资讯
Web前端开发
工具类产品
Windows
Python
腾图科技
举报职位
分享到微信
微信扫一扫,用小程序打开分享
收藏
立即沟通
完善在线简历
上传附件简历
职位诱惑:
开发程序可用作其他研究方向
职位描述:
总目标:制作一个用于电脑使用的小型搜索器软件或者浏览器插件、拓展程序,实现能够完成上述初步查询20000个生物品种的查询、筛选、整理工作。
搜索器的主要要求:
1、 总目标是可以实现按照关键词以及特殊字符(比如图片或是化学结构式)在谷歌进行自动搜索,每次搜索结果的前200条链接的网址内容进行全部爬取,包括网页链接页面的分页和外部链接的全部内容。(很多是外网网址,公司地址在国内,自己有VPN,没有服务器)。一个关键词搜索到的内容可以自动保存在一个word或文件夹,而且要做到去重。
2、 搜索的关键字字符可能有几十种包括中英文以及其他小语种的特殊字符,搜索的网页内容语言主要是中英文,还会有少量西班牙语,葡萄牙语,法语,日语等等。
3、 当搜索出来的不是网页,比如说是PDF或其他文件格式要保存到同一文件夹里,尽量保证可以把爬取页面上附带的WORD和PDF文件也爬取下来,如果涉及到某些论文无法爬取,则需要把论文摘要内容爬取下来。当有些网址实在是不能爬取的时候可以截图保存到文件里。
4、 搜索到网站后,能初步分析和判断,按关键字将内容进行归类;(按精确匹配或模糊匹配分),需要搜索某种产品的物化性质、结构式、应用、生产经营企业信息等,就要进行分析,进入下一层(有可能再进入下一层),把相关的所有信息全部保存下来。
5、 可以按照我方要求,主动设置文件夹、word文件格式,并整理文件资料、存储独立文件,如照片、PDF文件和其它独立格式文件,保存的word文件需要自行筛选掉重复信息。
6、 一周内可以达成6000个生物品种的查询筛选整理工作。
7、 从网站下载的信息需要是以word文件的格式下载保存,主要保存网站页面的文字信息,保存的内容要附上具体的网址,不同板块的信息内容需要添加空格隔开。将具体网址设置为小标题方便我们快速找到每个网址的内容。
8、 文字部分最终的目的是把不同网站的内容关于某一个品种的内容进行总结自动去重后,把各个网站关于这个品种的内容收集到一个word文件里总结,并且筛选出其中不同的信息。
9、 比较理想的情况是可以做一个独立的软件,但是如果比较难实现可以做成浏览器的插件或者拓展,只要能达到前面提到的收集资料的要求即可。
10、 文字搜索部分的工作工期工期为签约后的一周,签约后付定金,交付后的调试时间为3天,程序运行验收没问题付清尾款。
工作地址
广州
-
天河区
-
珠江新城
- 东洲大厦
查看地图
职位发布者:
A
哈哈哈哈哈哈哈哈哈
Hi,对我发布的职位感兴趣?用拉勾APP扫码,直接和我聊聊吧!
技术专家
拉勾安全提示
· 求职中如遇招聘方扣押证件、要求提供担保或收取财物、强迫入股或集资、收取不正当利益或其他违法情形,请立即举报
· 如遇岗位要求海外工作,请提高警惕,谨防诈骗
面试评价
【查看更多评价】
该职位尚未收到面试评价
,看看该公司
其他职位的面试评价
展开
推荐公司:
辉艺轩文化
中芯环宇
三个女儿智慧科技
赛慕科上海
融创毅达
机电设备
佳兆业
恒祥典当
中基盛华
振海
东电腾达
中恒世纪
富我科技
青平
常平刘谦
歌德
广鑫
中广传播
鸿泰亿达
华艺天地
国际
鹏泰建设
中广泰合
中广核
职场百科:
法学专业可以从事哪些职业
八种情况表明你该辞职了
试用期离职时候大忌
hrd是什么岗位
mcn机构是什么意思
领导暗示你走人的表现
个人离职申请 简短
面试后怎么问面试结果
企业面试自我介绍怎么说
董秘工作职责有哪些
热门职位:
页游推广招聘
前端开发其它招聘
美术指导招聘
硬件测试招聘
广告文案招聘
运维总监招聘
WEB安全招聘
保险销售招聘
FPGA开发招聘
游戏场景招聘
合肥英那维特网络科技有限公司
同城酒库
四川建家房地产经纪有限公司
鉝文化传媒
城市理想
大连高新区拾味饮品店
天津仁仁医疗器械贸易有限公司
卓朗科技
叁皇传媒
趣众科技
恒森健园
杰嘉迪
梵客家居
天津汉博信息技术有限公司
太原宏浩青果教育
校盟科技
奥丁堡
携商网
BW
美滋滋
腾图科技
新零售,贸易|进出口,服务业
领域
不需要融资
发展阶段
少于15人
规模
https://www.lagou.com/gon...
公司主页
相似职位