在读上海知名高校计算机硕士,在校期间专业成绩优秀,获得一等奖学金、国家励志奖学金等,学习成绩优异。
就职过三家互联网公司,分别任职c/c++单片机程序开发,javaweb全栈开发,python爬虫开发。精通c/c++,Java,python,爬虫,web开发,机器学习,自然语言处理等,在职期间绩效良好,可独立完成项目。
精通pyspider、scrapy等爬虫框架,改写过Pyspider框架,能爬取淘宝、京东、美团、大众点评等有反爬措施的网站,能爬取文本、图片、pdf、视频等数据,爬取B站、优酷、YouTube等网站的视频,熟练运用mongodb、redis、mysql等数据库,熟练使用python操作Excel,熟悉各种反爬策略。
对技术有源发的兴趣,持续学习python爬虫,机器学习,自然语言处理等技术。
1.爬取淘宝商品详情信息
爬取商品列表页所有商品,以及商品指定字段的详细信息,存储到数据库。
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击、输入、下拉等,这样只需要关心操作而不需要关心后台发生了怎样的请求。爬取淘宝搜索关键词下的宝贝内容,爬取到MONGODB,使用的解析库是pyquery。
负责爬虫代码设计与实施。
步骤:
搜索关键字:利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表。
分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。
分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。
存储到MongoDB:将商品列表信息存储到数据库MongoDB。
2.pyspider爬虫框架的修改与设计
修改pyspider框架源码,增加爬虫代理获取功能,维护代理池,多线程代理过滤与筛选。改写后的框架提供代理接口,代理定期针对不同网站进行可用性检测,保证每个需要代理的网站得到的代理都是可用的。将代理和网站进行MongoDB和mysql数据库存储。
根据代理功能进行需求分析,然后设计代理池实现方式,将任务细分,修改pyspider源码,编码分别实现每个子任务,最终实现代理池功能,设计接口,最后进行实际的使用与测试。
可兼职时间
可兼职地点
0条评论 雇主评价