个人自学 Python。因考CCIE失败后久久不能预约位置,因而,为了抢个位置,入坑爬虫,在为写抢位的APP过程中,不断的摸索,可以熟悉的写一些爬虫程序。其CCIE的抢位程序一度成功抢了不少位置,也顺利写出安居客,足彩网数据爬取,火币数据,金融数据爬取,等等。对爬取中所涉及的滑块,极验等都有一定的经验。
经验说不上多少,只要不是瑞数,kmai,指纹等一些,还是能成功完成项目。能实现了两种抓取模式,一种是全网抓取,一种是整站抓取, 为了不 Python GIL 锁成为效率的羁绊,选择了效率恐怖的多进程加协程做为并发模型,并自学GO语言,能为不用的项目选择合适的解决方案。 为了不 IP 被 ban,实现了一个代理模块,每一个30分钟从代理网站上抓取新的代理 IP, 为了不爬虫奔溃致使状态丢失,实现了一个爬虫状态的备份机制,每10分钟备份一次, 为了不爬虫陷入某个网站没法自拔,遂实现了爬虫爬行深度的功能,可以自造造轮子实现一个了 URL 正规化的模块, 实现了一个 URL 类似性断定模块,减小对类似的 URL 进行抓取,提升效率。
可兼职时间
可兼职地点
0条评论 雇主评价