1. 熟悉 Java,Scala,Python 等多种语言。
2. 熟悉大数据环境(Hbase,Hadoop,Hive,Impala,Kafka,Kudu,Spark)的搭建。
3. 熟悉 Mysql/Hive/SparkSql/Impala 等多种 SQL 语法。
4. 熟练使用 Spark,能阅读源码解决问题。
5. 能使用 SpringBoot 编写接口。
6. 有一定的学习研究能力,热爱技术探索。
7. 有良好的沟通能力以及团队协作能力。
项目背景:
1. 风控策略、模型组需要使用微博侧数据,风控端无法直接获取微博数据,仅能通过邮件提供名单获取数据,需要 4-5 天时间返回数据,并且需要 大量时间精力验证数据准确性,需要一个稳定获取数据以及保障数据质量的方案。 2. 中台侧每天提供 200W 记录流量且需要回溯的特征模型分必须一致。
工作内容:
1. 负责方案设计开发及优化,由 ETL 脚本调整为 Spark 脚本再到系统化。
2. 负责中台回溯后端/数据端设计,后端接口设计开发、数据端用户名单特征合并算法设计避免重复获取、返回数据解析落库。
3. 负责容错方案的调研设计开发,当任务发生异常时发出告警,并且较少人工干预保持任务正常执行。
项目成果:
1. 从 0 到 1 的开发中台数据回溯模块,由发送邮件方式迭代为平台任务配置,数据返回时间由 4-5 天稳定为 2 天内返回。
2. 用户名单维表设计,避免多方配置重复名单及特征模型分的重复过去,节省了 90%传输流量。
3. 断点方案设计,使任务在异常时仍按照设定的执行计划生产,减少 100%人工干预时间。
4. 数据质量监控设计,在上游数据异常时及时告警并通过重置方式重新获取数据,保障 95%数据可用。
可兼职时间
可兼职地点
0条评论 雇主评价