熟悉 Python 中的多线程、多进程以及协程;
熟悉使用 Xpath、正则、Pyquery 进行数据提取;
掌握常见的反爬虫知识及应对措施;
熟悉使用 Fiddler、Charles、Mitmproxy 抓包工具;
熟悉 Selenium、Appium、Pyppeteer 自动化工具;
熟悉使用 Scrapy 框架、Scrapy-redis 分布式框架
1、《网易云音乐》热评抓取。难点是解决参数加密问题。解决方案是通过浏览器自带的抓包工具分析网页源码,JS 逆向找到参数加密规则,并用 Python 实现参数加密。
2、《抖音 app》 用户数据抓取。难点是使用 Xposed 框架与 JustTrustme 组件绕过 SSL 证书验证, 使用 Appium 模拟滑动用户关注列表,并结合 Mitmdump 获取响应数据并解析数据。
3、《猫眼影视》票房数据抓取。难带是处理该网站的字体反爬。解决方案是使用 FontTools 模块将源码 Woff 格式字体文件转成 Xml 格式文件,找到字体映射关系,进而替换掉源码相关内容。
4、抓取国外的新闻类的 web 网站数据。主要难点是处理网站反爬。一般遇到的反爬措施是封 IP 以及 Cloudflare 反爬。解决方法是,构建 IP 代理池来处理封 IP 的问 题,处理 Cloudflare 反爬使用 Pyppeteer;另外,配置 Xpath 剔除正文中的杂质(如外部链接、推荐阅读等)。
可兼职时间
可兼职地点
0条评论 雇主评价