三年数据开发经验,四年后端开发经验,熟悉大数据框架,作为主力工程师,参与过数个PB级别的大数据项目。精通Python、SQL,熟悉Java、Scala的用法,擅长SQL调优,了解MySQL 数据库与 Linux 系统的常见机制与原理。热心开源,有优秀的学习能力和解决问题能力,擅长归纳总结,博客至今已经有近十万字,多篇博客被开发者头条收录
优惠券促活大数据模型
原来优惠券是采用固定规则发送给用户,规则不灵活,促活转换率不高,故基于用户历史订单设计一个大数据模型提高转换率和减少成本
1. 与业务方协商模型产出结果与线上实时数据对接,确定对接方式和整体模型结构
2. 针对历史业务抽取上百维度数据,在历史数据上进行训练验证,优化模型准确率达到90%以上
3. 实时监控优惠券转换率,最终模型节约了90%成本,提高了10%的转换率
文书检索项目
文书数据存贮在MySQL数据库中、由于数量在两千万左右(每天都有更新)、普通的SQL检索性能太慢、所以使用Spark批量处理数据并导入的ElasticSearch中进行检索
1. 采集行政规划数据并改造Aho-Corasick算法、实现文书地理行政规划判断、解析速率单核最终为2ms每篇
2. 负责编写Scala程序实现对每天新产生的文书解析并导入ES中、优化速率最终速率单节点100篇每秒
3. 设计动态拼接DSL、优化查询客户数据匹配、准确度提升2倍左右<
处罚文书分类系统
需要搭建一套集采集以及分类的系统来自动获取并分类处罚文书的所属公司,并搭建一套审核系统来人工审核分类是否准确
1. 设计一套通用爬虫框架支持增量和全量更新政府公开信息
2. 基于贝叶斯模型设计一套简单高效的分类器,判断文书是否为处罚的准确率90%以上
3. 基于Flask和Vue搭建了一套响应式界面来提供后台审核人员确认文书是否分类准确
PB级日志转存项目
业务方后台需要搭建一套日志导入以及查询系统,总数据量在1PB左右,需要支持超过500G日志导出
1. 设计了一整套大数据处理程序,使用Spark,支持PB级数据导入HBase
2. 设计了一套基于Spring Boot的web界面,支持提交任务并导出用户详细日志
实时计算SQL管理系统
原始计算平台依赖SQL存储过程,吞吐量低、开发维护困难,进过调研各种实时计算平台,最终决定基于Flink搭建一套集开发以及监控的计算平台
1. 在迁移历史项目的时候发现,一个单一的Flink Job开发涉及到代码编写、编译、包上传、查看日志等多个步骤,开发周期以周为单位,针对这个问题,基于Flink SQL Client和terminado开发了一套SQL实时调试系统,支持在web直接编写SQL开发和调试,支持实时返回运行结果,将Flink Job开发调试周期压缩到日,减少了90%的调试时间
2. 随着平台跑的Flink Job越来越多,设计了一套web界面管理并监控Flink Job,支持邮件报警,以及自定义Hook
可兼职时间
可兼职地点
0条评论 雇主评价