实现网
洋-b978dc48

昵称登录后显示

300/8小时
4年工作经验

北京百态浩瀚科技有限公司
爬虫工程师

python
爬虫

2

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

1. 熟练掌握 request、scrapy、scrapy-redis 模块发送请求,获取响应后获取网页数据,熟练构造分布 式爬虫,Linux 下的定时启动爬虫; 2. 熟练掌握 scrapy-splash 获取动态网页数据,并且可以结合 scrapy-redis 实现分布式爬虫; 3. 熟练使用 re、requests、json、BeautifulSoup、selenium、uiautomator2 等库; 4. 熟练使用 request、scrapy、selenium 的模拟登陆; 5. 熟练使用打码平台处理常见的验证码; 6. 熟练使用 mysql、redis、MongoDB 的增删改查; 7. 爬虫伪装中代理 IP、UserAgent 的熟练使用; 8. 熟悉 Linux 日常工作环境,熟练掌握常用命令和调优监控手段; 9. python 科学计算库 numpy 熟练使用; 10. 了解 Javascript、html、css、xml 等前端语言; 11. 了解 Android 软件的开发模式;

项目经验

XXX商品详情数据爬取
项目描述: 1. 通过 scrapy-redis 框架实现分布式爬虫,通过 selenium 实现下拉加载数据来获取到当前页面所 有商品,用 scrapy-splash 来获取动态加载的商品详情页。 2. 创建 scrapy 爬虫框架,创建 items 数据,将在 spider 中导入 scrapy-redis 和 scrapy-splash 并更 改 settings 配置,把 scrapy 改成 scrapy-redis-splash 分布式爬虫。 3. 因为代理 IP 的不稳定性所以需要在下载器中间件添加过滤类,将请求失败的响应全部过滤掉重 新访问。 4. 唯品会的商品页面如果不下拉只能获取 40 条商品数据,所以通过在下载器中间件中用 selenium 来实现模拟用户下拉并将完整的 body 传给爬虫,使爬虫可以获取全部的商品详情页地址。 5. 在下载器中间件中添加随机时间请求,防止请求频率一样被检测为爬虫

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

通州
梨园镇蓝岛大厦

被预约

2

被收藏

0

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

通州
梨园镇蓝岛大厦