昵称登录后显示

300/8小时

4年工作经验

北京百态浩瀚科技有限公司

爬虫工程师

python

爬虫

被预约次数

被收藏次数

被评价次数

擅长技能

1. 熟练掌握 request、scrapy、scrapy-redis 模块发送请求，获取响应后获取网页数据，熟练构造分布式爬虫，Linux 下的定时启动爬虫； 2. 熟练掌握 scrapy-splash 获取动态网页数据，并且可以结合 scrapy-redis 实现分布式爬虫； 3. 熟练使用 re、requests、json、BeautifulSoup、selenium、uiautomator2 等库； 4. 熟练使用 request、scrapy、selenium 的模拟登陆； 5. 熟练使用打码平台处理常见的验证码； 6. 熟练使用 mysql、redis、MongoDB 的增删改查； 7. 爬虫伪装中代理 IP、UserAgent 的熟练使用； 8. 熟悉 Linux 日常工作环境，熟练掌握常用命令和调优监控手段； 9. python 科学计算库 numpy 熟练使用； 10. 了解 Javascript、html、css、xml 等前端语言； 11. 了解 Android 软件的开发模式；

项目经验

XXX商品详情数据爬取
项目描述： 1. 通过 scrapy-redis 框架实现分布式爬虫，通过 selenium 实现下拉加载数据来获取到当前页面所有商品，用 scrapy-splash 来获取动态加载的商品详情页。 2. 创建 scrapy 爬虫框架，创建 items 数据，将在 spider 中导入 scrapy-redis 和 scrapy-splash 并更改 settings 配置，把 scrapy 改成 scrapy-redis-splash 分布式爬虫。 3. 因为代理 IP 的不稳定性所以需要在下载器中间件添加过滤类，将请求失败的响应全部过滤掉重新访问。 4. 唯品会的商品页面如果不下拉只能获取 40 条商品数据，所以通过在下载器中间件中用 selenium 来实现模拟用户下拉并将完整的 body 传给爬虫，使爬虫可以获取全部的商品详情页地址。 5. 在下载器中间件中添加随机时间请求，防止请求频率一样被检测为爬虫

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

通州

梨园镇蓝岛大厦

被预约

被收藏

被评价

立即预约