10
被预约次数
15
被收藏次数
1
被评价次数
爬过各大新闻内容,如:网易、新浪、澎湃、搜狐等等;
后台编码模拟各大新闻网站的登陆发帖点赞操作;
爬过新浪微博、facebook、twitter;
爬过工商网所有工商数据、天眼查、企查查等;
爬过菁优网、橡皮网题库;
爬过高考录取招生数据,如中国教育在线/优志愿/计桥/阳光高考等;
爬虫经验丰富,有实力解决各种爬虫封锁限制,包含JS加密破解、APP反编译等;
独立完成过后台爬虫管理系统(前端后台数据库一个人全部做完)。
一、做过大型分布式爬虫系统(集群50+)(舆情监控系统数据采集模块),爬取速度最低5000 条/每秒,可定向采集(指哪打哪),可随机和定向切换代理IP及所需要的各种资源;
二、采集工商、法律文书、专利等各类征信类信息,破解了一些加密,解决了各类验证码 和账号、IP的封杀,最终采集上亿条数据;
三、题库类数据采集,提出账号和IP调度方案,OCR文字内容 以及采用文本相似度判定是否出现假脏数据;
四、高考招生录取数据,实行网络监控制,一旦有数据更新 几分钟之内采集入库。
可兼职时间
可兼职地点
笨笨 2017-11-06 17:11
只评分,内容未填写或非公开