· 熟练掌握python的基本语法,对面向对象思想有一定的了解
· 了解Python垃圾回收机制及其原理
· 熟悉HTTP/HTTPS协议,TCP/IP网络协议
· 掌握常见的爬虫、反爬虫知识及应对措施
· 熟练使用Python lxml、xpath、BeautifulSoup、re、json模块进行数据提取
· 了解Tesseract机器图像识别系统,并处理简单的文字验证码
· 熟练使用Selenium+PhantomJS实施动态HTML抓取,熟悉fiddler抓包工具的使用,能够获取到动态生成的页面
· 掌握Scrapy框架和scrapy-redis分布式组件,以及编写各类中间件
· 了解Numpy, Pandas,matplotlib等的数据分析工具
· 掌握HTML、CSS、jQuery等前端页面的基础制作
· 熟练掌握Django框架,了解tornado、Flask框架
· 熟练使用MySQL, MongoDB,Redis的相关操作
· Linux平台,Git 协同开发
项目名称:新房,二手房,租房信息采集爬虫
项目描述:项目主要是安居客,租房网,搜房网等网站的租房信息的爬取并提供给数据分析部门
职责描述:
1. 分析网站、网页、链接的特征挖掘,采集任务的分析及采集方案设计,使用scrapy框架爬取 数据,准备ip代理池和user-agent池应对反爬机制
2. 下载器处理完毕后数据交给管道处理,采用Xpath和正则进行数据的清洗,url交给调度器入队列, 检查指纹,继续发送请求。
3. 采用MongoDB做为本地数据库,将资讯房价按地区分类,存入Mongo中。
4. 此项目是对租房信息的抓取,抓取租房的价格、位置、图片、配置等信息,并做保存,对于爬 取的数据使用jupyter notebook进行简单分析后,交给数据部门。
新房,二手房,租房信息采集爬虫,it桔子网站抓取,全书网,京东,天眼查,腾讯新闻,新浪新闻等网站的爬取
可兼职时间
可兼职地点
0条评论 雇主评价