1.熟悉大数据框架相关技术,如 hadoop ,hive ,spark ,sqoop ,hbase ,flume, flink
2.数学基础良好,熟悉常用的聚类,统计方法,学习过机器学习和深度学习相关课程,使用过 pytorch
3.对于 spark 性能调优、数据倾斜有一定的解决经验
4.对于维度建模,数仓分层有个人独特的理解
5.使用过 scrapy 爬虫框架
6.有做过完整的离线数仓架构设计,与实时数仓架构设计
7.对于数据治理,数据湖等较新大数据技术有过研究
某保险公司数据治理平台
该项目分为两期,一期是监管报送,将规范化的数据推送到银保监相关的部门。二期是 bi 报表迁移,其中迁移的报表数量高达500+。
在整个项目中我们使用到了离线数仓和实时数仓相关的技术。
1.在数据集成上使用 datax 进行离线数据的同步,将 mysql,oracle 等关系型数据同步到 hive 数仓中,并使用 snappy+org 格式进行存储。对于实时数据的同步,我们基于 ogg+kafka+flink+kudu 数据链路实现了秒级延时的数据同步,同时通过离线与实时同步的配合,确保了数据的准确性,与时效性。
2. 对于数据开发,我们有自己的开发平台,可以满足 sql(mysql,hive,spark,impala )任务、spark jar,java jar,python 的程序的开发与调试。离线任务主要基于 spark sql 进行开发,实时任务主要基于 impala 进行微批调度计算,也有少部分的数据通过 flink 实时计算。
3. 在数据调度上面基于 azkaban 开发了调度平台,可以满足各类任务的周期调度与数据重跑。
4. 数据质量方面,我们参考 grafina 实现了数据在完整性、一致性、唯一性、有效性、时效性与准确性的数据质量模板,可以满足大部分数据质量的检测。
5. 数据服务,可以基于数仓的表,使用表模式和 sql 模式快速的生成 api 服务,降低 api 开发的工作量。
6. 数据治理方面,我们实现了元数据管理,数据标准,数据生命周期相关的控制。此外也有专门的数据治理从组织架构到规章制度上的落地方案。
可兼职时间
可兼职地点
0条评论 雇主评价