昵称登录后显示

300/8小时

8年工作经验

中华联合

爬虫

被预约次数

被收藏次数

被评价次数

擅长技能

1. 熟练使用 linux 系统,在 linux 系统进行项目开发,能独立解决常见问题,具有良好编程习惯；
2. 熟练掌握 HTML,CSS,JavaScript,Ajax,Json 语法知识,对网页进行抓包分析请求,了解 TCP/HTTP 协
议,熟悉网站登录原理；
3. 熟练使用正则 re,Xpath,bs4,pyquery 对数据进行筛选；
4. 熟练掌握 MYSQL,MongDB,Redis 等数据库的操作和存储；
5. 熟练掌握多进程,多线程实现多并发爬取，了解 asyncio 与 aiohttp 异步请求库；
6. 熟练掌握反爬原理,熟练运用伪装头 fake_useragent 模块,代理等；
7. 熟练使用自动化测试工具 Selenium,Splinter 渲染页面的爬取；
8. 熟练掌握 scrapy 框架，利用 scrapy-redis 库进行分布式爬虫开发；
9. 了解 Tesserocr 模块进行验证码识别，打码平台；
10. 熟练 Fiddler/Charles 抓包工具，对手机 APP 数据进行抓取

项目经验

爬取微信公众号分析
项目描述：在信息碎片化的时代，人们更多的时间花在手机上来阅读学习或娱乐文章，以丰富自己的知
识，转发自己觉得好的文章，本项目爬取微信公众号的文章，并爬取文章的阅读数、点赞数、评论数和赞
赏数等数据，利用 Pandas 进行数据分析作者哪类文章更受读者欢迎，最后利用 Matplotlib 实现数据的可视化，
以条形图，饼状图的方式呈现。
开发环境： Windows + Pycharm + Python3.6 + fiddler
技术关键词： requests + MongoDB + cookies
项目职责：
1. 配置手机抓包环境，配置 fiddler 进行手机抓包；
2. 用手机登陆微信抓取所需要的微信公众号，用 fiddler 进行抓取网页数据进行分析；
3. 经分析抓取的数据，确定需要爬取的 url，分析请求查询参数以及 form 表单数据，爬取该公众号的
所有文章；
4. 由于微信的反爬虫机制，一个账号爬取数据有限制，需要准备多个账号进行爬取，准备多个账号获
取 cookies 进行爬取，当一个爬取被禁止，自动切换到另外一个账号爬取；
5. 将爬取的数据清洗，保存在 MongoDB 数据库中，为数据分析提供可用数据。

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

湖北

洪山区

昵称登录后显示

中华联合 爬虫

擅长技能

项目经验

0条评论 雇主评价

中华联合

爬虫

0条评论雇主评价