0
被预约次数
2
被收藏次数
0
被评价次数
1. 熟悉Hadoop文件系统并搭建Hadoop集群,能够根据业务需求,完成Map/Reduce编程;
2. 熟悉Linux操作命令,编写简单shell脚本、crontab定时任务脚本、集群群起脚本;
3. 熟悉Hive,会编写Hql语句进行业务指标的分析、Hive优化;
4. 熟悉Spark任务调度和资源调度过程,会使用Spark常用的算子;
5. 了解Scala进行Spark框架业务开发;
7. 了解并使用spark yarn模式搭建carbondata集群;
8. 会使用Sqoop工具,实现非关系型数据库与非关系型数据库表数据的交互;
9. 了解Flume框架,自定义拦截器,修改flume源码、实现flume负债均衡高可用搭建;
10.了解Elastic Search,会使用其实现全文检索;
11.理解Kafka工作机制,能搭建Kafka集群,利用Kafka + Spark进行数据的流式处理;
12.理解zookeeper的存储原理,会配置zookeeper集群;
13.掌握MySQL日常DML/DDL/DQL操作;
14.编译过hadoop源码;
15.搭建cloudare manager + CDH5 presto集群、carbondata数仓
16.基于clickhouse+ cboard做olap分析,搭建clickhose HA集群,优化任务资源
17.基于supervisor实现任务重启机制
18.熟练sparkStream + hbase 模式实时日志ETL
19.精通阿里云emr 全托管flink,
项目一:底层数仓建设,实时方案设计,演进,实施(mysql+flink+talos+hologres)
描述
基于ads及业务数据设计底层销售,库存表,易于扩展,业务迭代,维护,降低成本。提高时效性,兼顾离线。基于阿里云的hologres+flink sql 实现实时数仓,基于hologres cdc 实现流式数仓,流批一体。
解决痛点:
1.业务快速发展迭代对ads层的影响,采用1248码。设计实时架构,提高数据的时效性,推进一商一议数据业务需求。主动承担了部门最艰难的任务,在实时项目中兼顾了设计到研发,测试到和多部门协作。
2.在多人部门多人协作中,根据业务需求,制定了相应的规范(命名规范,上线规范),并推广实施,在一定程度了提高了部门的协作能力和规范能力,为公司在质量就是生产力的号召下,促进公司的发展。
3.在部门中产生矛盾后,主动承担部门人员之间的工作协调,在一定程度上促进了部门团队的团结合作,主动为领导分担。
项目二:微淼从0到1的大数据基础建设
描述:
基于阿里EMR建设数仓,并在hue中集成presto,doris,数仓搭建和异常数据监控报警
解决痛点:
hive底层引擎优化,保证数据正常产出,任务失败后的报警通知机制,数据olap的高效响应,临时任务快速查询,数仓规范的统一,文档开发的建设
项目三:VIPKID流媒体大数据ETL/数据挖掘
集群架构:filebate、logstash、Kafka、Spark、Hadoop、Hive、clickhouse、cboard、supervisor
项目描述:
使用sparkStream消费kafka数据ETL,进入ods层,在根据业务线进入dwd,按照课程维度进入到dws层作为宽表数据,在根据不同的业务提供不同的需求表在ads层,使用airflow将dws的数据导入到clickhouse中,使用cboard作为核心指标数据展示,定时邮件和钉钉群信息
责任及技术描述:
1.Server端日志使用sparkStream处理,同时解决因使用filebate导致的乱序问题,写入hbase,提供给SDK开发人员查询服务端上报日志
2.客户端日志处理,根据清洗日志,写入ods,在根据不同的业务线写入dwd层,按照课程维度把数据拆分到dws做成宽表,使用airflow导入clickhouse中进行OLAP,使用cboard展示核心业务指标、定时邮件、钉钉群发数据
3.根据清洗的日志挖掘日志标签,音视频卡顿标签,进教室异常标签,视频上下帧率等
4.推进SDK开发因为CPU负载过高和内存泄漏导致的音视频卡顿上报日志打点
5.统一规范了服务端打点日志,同时编写了宽表的使用规范和字段说明
6.通过ping日志计算max/min/avg和方差,用于挖掘客服端导致的音视频卡顿
7.通过traceroute日志挖掘A类,B类,C类地址跳数,内外网个数和timeout个数,用于分析服务的响应效率
8.使用flink通过http接口上报数据,基于flink的状态编程开发,完成实时大盘上课分钟数动态显示
9.使用supervisor 实现任务重启,编写yarn任务的失败重启sh脚本
项目四:中文万维新集群搭建/集成工具/实时计算
项目技术:cloudera manager + CDH5 + carbondata + presto
集群架构:Flume、Kafka、Spark、Hadoop、Hive、MySQL、carbondata、presto
项目描述:
搭建公司的新集群,解决旧集群的单点故障问题、数据实时效益问题、实现flume的断点续传、容错机制
责任及技术描述:
1.基于cloudare manager搭建一个可监控的CDH5的集群,同时用于离线和实时任务
2.搭建carbondata数仓,设计新集群的技术架构、数据流向架构、业务技术架构
3.搭建presto集群,用于业务层直连数据
4. 搭建cloudera manager、升级cm中的spark,在hue中集成db、hive、spark、carbondata
5. 基于flume搭建负载均衡的高可用采集日志系统
6. 移植flume1.7的断点续传功能到flume1.6,实现了flume1.6使用taildirsource实现断点续传
可兼职时间
可兼职地点
0条评论 雇主评价