昵称登录后显示

600/8小时

3年工作经验

北京天泰志远

爬虫开发

paython

爬虫

被预约次数

被收藏次数

被评价次数

擅长技能

· 熟练掌握python的基本语法，对面向对象思想有一定的了解
· 了解Python垃圾回收机制及其原理
· 熟悉HTTP/HTTPS协议，TCP/IP网络协议
· 掌握常见的爬虫、反爬虫知识及应对措施
· 熟练使用Python lxml、xpath、BeautifulSoup、re、json模块进行数据提取
· 了解Tesseract机器图像识别系统，并处理简单的文字验证码
· 熟练使用Selenium+PhantomJS实施动态HTML抓取，熟悉fiddler抓包工具的使用，能够获取到动态生成的页面
· 掌握Scrapy框架和scrapy-redis分布式组件，以及编写各类中间件
· 了解Numpy, Pandas，matplotlib等的数据分析工具
· 掌握HTML、CSS、jQuery等前端页面的基础制作
· 熟练掌握Django框架，了解tornado、Flask框架
· 熟练使用MySQL, MongoDB，Redis的相关操作
· Linux平台，Git 协同开发

项目经验

项目名称：新房，二手房，租房信息采集爬虫
项目描述：项目主要是安居客，租房网，搜房网等网站的租房信息的爬取并提供给数据分析部门
职责描述：
1. 分析网站、网页、链接的特征挖掘，采集任务的分析及采集方案设计，使用scrapy框架爬取数据，准备ip代理池和user-agent池应对反爬机制
2. 下载器处理完毕后数据交给管道处理，采用Xpath和正则进行数据的清洗，url交给调度器入队列，检查指纹，继续发送请求。
3. 采用MongoDB做为本地数据库，将资讯房价按地区分类，存入Mongo中。
4. 此项目是对租房信息的抓取，抓取租房的价格、位置、图片、配置等信息，并做保存，对于爬取的数据使用jupyter notebook进行简单分析后，交给数据部门。

新房，二手房，租房信息采集爬虫，it桔子网站抓取，全书网，京东，天眼查，腾讯新闻，新浪新闻等网站的爬取

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

宝安

宝安区洪浪北

被预约

被收藏

被评价

立即预约