实现网
猷霖

昵称登录后显示

300/8小时
8年工作经验

中华联合
爬虫

1

被预约次数

0

被收藏次数

0

被评价次数

擅长技能

1. 熟练使用 linux 系统,在 linux 系统进行项目开发,能独立解决常见问题,具有良好编程习惯;
2. 熟练掌握 HTML,CSS,JavaScript,Ajax,Json 语法知识,对网页进行抓包分析请求,了解 TCP/HTTP 协
议,熟悉网站登 录原理;
3. 熟练使用正则 re,Xpath,bs4,pyquery 对数据进行筛选;
4. 熟练掌握 MYSQL,MongDB,Redis 等数据库的操作和存储;
5. 熟练掌握多进程,多线程实现多并发爬取,了解 asyncio 与 aiohttp 异步请求库;
6. 熟练掌握反爬原理,熟练运用伪装头 fake_useragent 模块,代理等;
7. 熟练使用自动化测试工具 Selenium,Splinter 渲染页面的爬取;
8. 熟练掌握 scrapy 框架,利用 scrapy-redis 库进行分布式爬虫开发;
9. 了解 Tesserocr 模块进行验证码识别,打码平台;
10. 熟练 Fiddler/Charles 抓包工具,对手机 APP 数据进行抓取

项目经验

爬取微信公众号分析
项目描述:在信息碎片化的时代,人们更多的时间花在手机上来阅读学习或娱乐文章,以丰富自己的知
识,转发自己觉得好的文章,本项目爬取微信公众号的文章,并爬取文章的阅读数、点赞数、评论数和赞
赏数等数据,利用 Pandas 进行数据分析作者哪类文章更受读者欢迎,最后利用 Matplotlib 实现数据的可视化,
以条形图,饼状图的方式呈现。
开发环境: Windows + Pycharm + Python3.6 + fiddler
技术关键词: requests + MongoDB + cookies
项目职责:
1. 配置手机抓包环境,配置 fiddler 进行手机抓包;
2. 用手机登陆微信抓取所需要的微信公众号,用 fiddler 进行抓取网页数据进行分析;
3. 经分析抓取的数据,确定需要爬取的 url,分析请求查询参数以及 form 表单数据,爬取该公众号的
所有文章;
4. 由于微信的反爬虫机制,一个账号爬取数据有限制,需要准备多个账号进行爬取,准备多个账号获
取 cookies 进行爬取,当一个爬取被禁止,自动切换到另外一个账号爬取;
5. 将爬取的数据清洗,保存在 MongoDB 数据库中,为数据分析提供可用数据。

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

湖北
洪山区

被预约

1

被收藏

0

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

湖北
洪山区