-
凯威科技网络
-
大数据工程师
-
3年
擅长技能
Mysql
Jdbc创建查询语句,预处理语句,定义存储过程,事务处理并发现象,隔离级别,连接查询处理,嵌套子查询,分组及二次分组
Linux
熟悉centos7基本命令,更改文件类型或权限,熟悉网络连接模式,虚拟网络编辑,光驱挂载,虚拟机增强工具的安装,符号连接(软连接,硬连接),进程查看,用户增删,主机名修改,解析路径名及文件名,nc命令,yum源修改,yum命令,iso文件制作,虚拟机增强工具安装
Hadoop
独立模式,伪分布模式,完全分布式搭建,熟悉主机操控各节点命令脚本和传输脚本,
Hdfs常用操作,hadoop最小块设置及指定副本数,节点的服役和退役,熟悉MR运行原理,部署及运行,自定义分区,处理数据倾斜,以及自定义combine,全排序,二次排序,采样器,组合key(排序对比器以及分组对比器)与mysql的交互(读写),机架感知实现,HA配置
Hive
建库,表,hiveserver2或beeline或jdbc访问Hive,分区表加载,删改查,动态分区,注册使用UDF函数
Zookeeper
观察者模式使用,API访问zk,自动容灾配置
Hbase
Shell基本操作,API插入查询,ha集成,区域切割移动,预切割,TTL,扫描器设置,过滤器API查询,计数器(点击统计),协处理器(存储),rowkey设计,phonix使用,将Hbase数据导入hive
Sqoop
导出mysql数据到hive,导出hive到mysql
Flume
各种Source: exec-spooldir-seq-netcat配置
各种Sink:hdfs-hbase配置
跃点配置
Kafka
与flume集成,使用kafka抽取数据记录到hbase表中
Spark
WordCount实现,job部署,标签生成实现,作业提交流程解析,数据倾斜,standAlone及yarn提交,shuffle过程,内存优化,广播变量传输过程,自定义累加器,将Spark部署成分布式查询引擎,使用thrfitserver,sparkSQL读取写hive,mysql,spark流计算