计算机科班出身,大二起在实验室做项目,主要方向数据大数据架构、网络爬虫。
毕业后选择创业,技术方向仍然是网络爬虫方向。采用大数据架构参与开发过几个大型系统,熟悉Hadoop、Storm、Zookeeper、Kafka、RabbitMQ、MongoDB、ES等主流开源软件。牵头开发过自由分布式爬虫系统,
另外在创业期间担任技术骨干,带领小团队,规模大时有十几人,小时也就两三人。
业余做过各类爬虫小工具,涉及到几十个站点的采集。涉及到反爬策略、验证码破解、JS解密破解等一系列反爬技术。
工作期间涉及到的项目:
1、参与过舆情监控系统开发,主要负责微博数据实时采集
2、银行风控系统,主要负责底层数据采集,涉及到几十类数据获取,主要为政府公开数据,如工商信息、裁判文书、行政处罚等
3、面向开发者的爬虫平台,因日常工作中有大量的垂直领域数据采集、涉及到几十类数据、上百个站点采集,故而自己在内部牵头研发了统一的分布式爬虫平台,便于开发规范、数据源等日常管理,统一运行、监控
4、基于hadoop的大规模爬虫,类似于搜索引擎的大型爬虫,数据量规模十分庞大。基于此总结了站点规律基于Hadoop开发了该大规模采集系统。
可兼职时间
可兼职地点
0条评论 雇主评价