1.熟练使用xpath、re、json模块进行数据抓取
2.熟练使用MySQL数据库,熟悉Navicat、MongoDB等数据库
3.有充足的编程能力,了解计算机网络、数据结构,Http/Https协议
4.掌握常见的爬虫、反爬虫知识及应对措施;了解Linux系统
5.熟练掌握request库,Scrapy框架,了解scrapy-redis分布式组件
熟悉HTML、CSS、JavaScript等web前端技术
项目:Spider Book
项目描述: 爬取各个大型图书网站,如新华书店图书网,在线网上图书一号店等。获取它们图书的名称,简介,购买量,评论量,评论数据,价格等,存入数据库。
项目技能: requests,Xpath,json,Redis,MongoDB,re
个人职责:1.使用requests模块,发送http请求,使用协程进行爬取网页,提高爬虫效率
2.分析需要爬取的数据,发现在ajax请求中,数据格式为json。使用re模块在返回的response.content中匹配需求数据,获取到数据
3.自定义get_ua函数,,调用get_ua随机获取user-agent,对request对象来进行包装,应对反爬
4.调用代理ip池,获取代理ip
5.使用MongoDB进行数据保存
可兼职时间
可兼职地点
0条评论 雇主评价