实现网
Vizier

昵称登录后显示

300/8小时
5年工作经验

博彦科技股份有限公司
爬虫工程师

3

被预约次数

4

被收藏次数

0

被评价次数

擅长技能

在读上海知名高校计算机硕士,在校期间专业成绩优秀,获得一等奖学金、国家励志奖学金等,学习成绩优异。

就职过三家互联网公司,分别任职c/c++单片机程序开发,javaweb全栈开发,python爬虫开发。精通c/c++,Java,python,爬虫,web开发,机器学习,自然语言处理等,在职期间绩效良好,可独立完成项目。

精通pyspider、scrapy等爬虫框架,改写过Pyspider框架,能爬取淘宝、京东、美团、大众点评等有反爬措施的网站,能爬取文本、图片、pdf、视频等数据,爬取B站、优酷、YouTube等网站的视频,熟练运用mongodb、redis、mysql等数据库,熟练使用python操作Excel,熟悉各种反爬策略。

对技术有源发的兴趣,持续学习python爬虫,机器学习,自然语言处理等技术。

项目经验

1.爬取淘宝商品详情信息
爬取商品列表页所有商品,以及商品指定字段的详细信息,存储到数据库。
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击、输入、下拉等,这样只需要关心操作而不需要关心后台发生了怎样的请求。爬取淘宝搜索关键词下的宝贝内容,爬取到MONGODB,使用的解析库是pyquery。
负责爬虫代码设计与实施。
步骤:
搜索关键字:利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表。
分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。
分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。
存储到MongoDB:将商品列表信息存储到数据库MongoDB。
2.pyspider爬虫框架的修改与设计
修改pyspider框架源码,增加爬虫代理获取功能,维护代理池,多线程代理过滤与筛选。改写后的框架提供代理接口,代理定期针对不同网站进行可用性检测,保证每个需要代理的网站得到的代理都是可用的。将代理和网站进行MongoDB和mysql数据库存储。
根据代理功能进行需求分析,然后设计代理池实现方式,将任务细分,修改pyspider源码,编码分别实现每个子任务,最终实现代理池功能,设计接口,最后进行实际的使用与测试。

0条评论 雇主评价

暂无评论~

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

浦东
临港新城

被预约

3

被收藏

4

被评价

0

立即预约

可兼职时间

周六全天
周六半天
周日全天
周日半天
工作日下班后

可兼职地点

浦东
临港新城

已通过身份认证