实现网
米小狗

昵称登录后显示

1000/8小时
3年工作经验

百度
高级研发工程师(app web 爬虫)

分布式爬虫
C++
brpc
MySQL
Ceph

0

被预约次数

1

被收藏次数

0

被评价次数

擅长技能

C++是第一种开发语言,Java大约有10w行代码,Python是一年的工作经验, https://github.com/lihuibng
熟悉RocksDB、Ceph、Tera、Raft、Redis、ES、Canal 和 Spring Boot相关技术栈,了解大规模分布式系统的设计和实施

项目经验

1. App资源爬虫系统架构,主要技术栈分布式、tera(高性能存储)、brpc、C++、多线程,主要负责爬虫系统存储调度模块及数据分发模块开发与维护,维护和迭代开发App-Saver、App-Selector、App-DC、App-DM和App-Parser模块,协助同组同学解决外网通过App爬虫服务访问百度内部数据的安全隐患,并与brpc团队和存储Tera存储团队合作,保持我们的在线服务符合SLA要求
2. 相似网页分组架构,技术栈C++、tera、Redis,设计并实现了基于Tera存储系统的接口及模块内部存储流程和模块内部处理逻辑的数据流,同时借助Redis集群服务能力提供分布式锁服务能力,QPS 达10w+ pqs,建立并部署了整个系统,天级别流量10亿,该项目产出作为百度搜索rankin系统的一个排序因子,这样百度可以展示经授权的相似文章
3. Android 模拟器逆向数据解析,基于Xposed框架,hook App 内部数据接口,技术栈Android x86及arm平台编译,定制开发Android framework art及Android逆向技术规模化落地, 负责逆向工程提取安卓数据的技术方向,将Xposed框架集成到x86和arm平台的安卓运行库libart中,加入了一些增强功能,可以找出运行中的安卓应用所调用的函数,利用所找出的函数,我开发了一个可以执行用户定义代码来hook安卓应用,来抓取任何运行中的安卓应用的内部数据,大规模地部署了70台Intel x86物理服务器,并全链路上线,抓取微视小视频去重后1亿多多,百度搜索贡献点击天级几十万不等
4. Chromium 抓取渲染质量提升,主要技术站chromium, webkit, nginx, 分布式cache, 渲染重试机制建设及渲染效果提升,禁用chromium java scrip远程访问百度服务器上的文件,以防止百度服务器文件信息丢失,提升服务安全性,小程序资源占百度搜索分发比例由0提升至超过30%,将渲染质量从92%提高到96%(目标95%),渲染子系统天级流量30亿,小程序流量1.5亿天级

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀
中关村

被预约

0

被收藏

1

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀
中关村