1、负责部门文本判重技术构建,对海量新闻文本判重有比较丰富的经验;
2、负责过部门较长时间的爬虫开发,对大众点评、今日头条、门户网站、电商、新闻资讯app都数据爬取有丰富经验 ;
3、有扎实的Java、python编程功底,和良好的编码习惯,理解NIO、Netty、多线程、集合等基础框架;
4、熟练掌握SpringMVC、Mybatis、Springboot、Redis、Dubbo、Spring Colud、Kafka、Zookeeper、Nginx等开源技术;
5、有一定算法基础、较强的逻辑思维能力,善于分析、归纳、解决问题;
1、利用scrapy、pyspider框架对新闻、视频进行采集、清洗、入库;
2、负者各地方站信息维护;
3、对APP数据进行分析抓取;
4、负者对微博新闻数据的内容做支撑平台,丰富其数据源;
5、针对目标网站,分析对方链接的规律,做出合理的采集策略;
6、负责HTTP、AJAX等各类网络请求分析,探索和研究高效的数据抓取解决方案,并且用simhash对文本内容进行去重;
7、分布式爬虫框架搭建;
8、海量新闻文本判重;
可兼职时间
可兼职地点
0条评论 雇主评价