1、 熟悉 CDH 平台的搭建、运维、监控、管理以及开源 Hadoop 集群的搭建
2、 熟悉 HDFS 的读写流程、Yarn 的 Job 提交流程,掌握 HDFS 切片原理
3、 熟悉 Hive 的基本使用,Hive UDF 及 UDTF 函数的基本使用,HiveSQL 调优
4、 熟悉阿里云 MaxCompute(ODPS)的基本使用,熟练使用阿里云 Flink 实时计算平台
5、 熟练使用 Kafka,理解其 ACK 应答机制,ISR 副本同步队列,分区分配策略,Kafka 宕机,Kafka 消息数
据积压,以及参数优化
6、 熟悉 Hbase 架构的基本原理,RowKey 设计原则,理解其读写流程以及数据刷写过程
7、 熟悉 Flink 的时间语义,状态后端存储,序列化机制、内存管理,熟悉 Flink 双流 Join 源码、FlinkSQL Hbase
Connector 源码、熟悉 Flink 的 CheckPoint 机制、Watermark 机制,以及异步 IO 算子
8、 熟悉 Flink SQL 的基本使用,熟悉 Hbase Connector、JDBC Connector、Kafka Connector、以及自定义 UDF、
熟悉 TVF 窗口表值函数、以及其他基本语法的使用
9、 熟悉 Dolphinscheduler、Hera 等调度工具的使用及高可用机制
10、掌握 ClickHouse、StarRocks 、Doris、Impala的基本使用、熟悉常见的优化手段
第一份工作就职于某电商平台公司,期间完成了大数据平台CDH集群的搭建运维,以及一整套数仓架构的建设
第二份工作就职于某知名游戏公司,在这边完成了实时计算经验的积累。主要项目经验如下:
1、自助埋点数据分析平台
2、基于Flink+StarRocks+Hbase+Clickhouse的实时数仓
3、基于Flink Batch SQL + Paimon的离线数仓,数据同步采用Flink-Connector-JDBC
4、熟悉Ambari、CDH、Flink、Hive、Hbase、StarRocks、Clickhouse、Impala、Tidb、Datax、Dolphinscheduler等大数据热门技术栈。
可兼职时间
可兼职地点
0条评论 雇主评价