昵称登录后显示

300/8小时

5年工作经验

博彦科技股份有限公司

爬虫工程师

被预约次数

被收藏次数

被评价次数

擅长技能

在读上海知名高校计算机硕士，在校期间专业成绩优秀，获得一等奖学金、国家励志奖学金等，学习成绩优异。

就职过三家互联网公司，分别任职c/c++单片机程序开发，javaweb全栈开发，python爬虫开发。精通c/c++，Java，python，爬虫，web开发，机器学习，自然语言处理等，在职期间绩效良好，可独立完成项目。

精通pyspider、scrapy等爬虫框架，改写过Pyspider框架，能爬取淘宝、京东、美团、大众点评等有反爬措施的网站，能爬取文本、图片、pdf、视频等数据，爬取B站、优酷、YouTube等网站的视频，熟练运用mongodb、redis、mysql等数据库，熟练使用python操作Excel，熟悉各种反爬策略。

对技术有源发的兴趣，持续学习python爬虫，机器学习，自然语言处理等技术。

项目经验

1.爬取淘宝商品详情信息
爬取商品列表页所有商品，以及商品指定字段的详细信息，存储到数据库。
淘宝由于含有很多请求参数和加密参数，如果直接分析ajax会非常繁琐，selenium自动化测试工具可以驱动浏览器自动完成一些操作，如模拟点击、输入、下拉等，这样只需要关心操作而不需要关心后台发生了怎样的请求。爬取淘宝搜索关键词下的宝贝内容，爬取到MONGODB，使用的解析库是pyquery。
负责爬虫代码设计与实施。
步骤：
搜索关键字：利用Selenium驱动浏览器搜索关键字，得到查询后的商品列表。
分析页码并翻页：得到商品页码数，模拟翻页，得到后续页面的商品列表。
分析提取商品内容：利用PyQuery分析源码，解析得到商品列表。
存储到MongoDB：将商品列表信息存储到数据库MongoDB。
2.pyspider爬虫框架的修改与设计
修改pyspider框架源码，增加爬虫代理获取功能，维护代理池，多线程代理过滤与筛选。改写后的框架提供代理接口，代理定期针对不同网站进行可用性检测，保证每个需要代理的网站得到的代理都是可用的。将代理和网站进行MongoDB和mysql数据库存储。
根据代理功能进行需求分析，然后设计代理池实现方式，将任务细分，修改pyspider源码，编码分别实现每个子任务，最终实现代理池功能，设计接口，最后进行实际的使用与测试。

0条评论雇主评价

暂无评论~

可兼职时间

周六全天

周六半天

周日全天

周日半天

工作日下班后

可兼职地点

浦东

临港新城

昵称登录后显示

博彦科技股份有限公司 爬虫工程师

擅长技能

项目经验

0条评论 雇主评价

博彦科技股份有限公司

爬虫工程师

0条评论雇主评价