昵称登录后显示

300/8小时

6年工作经验

微淼

大数据研发工程师

vipkid

大数据研发工程师，搭建大数据集群，CDH等

中文万维

大数据研发工程师

大数据集群搭建，运维，开发，离线数据

被预约次数

被收藏次数

被评价次数

擅长技能

1. 熟悉Hadoop文件系统并搭建Hadoop集群，能够根据业务需求，完成Map/Reduce编程；
2. 熟悉Linux操作命令，编写简单shell脚本、crontab定时任务脚本、集群群起脚本；
3. 熟悉Hive，会编写Hql语句进行业务指标的分析、Hive优化；
4. 熟悉Spark任务调度和资源调度过程，会使用Spark常用的算子；
5. 了解Scala进行Spark框架业务开发；
7. 了解并使用spark yarn模式搭建carbondata集群；
8. 会使用Sqoop工具，实现非关系型数据库与非关系型数据库表数据的交互；
9. 了解Flume框架，自定义拦截器，修改flume源码、实现flume负债均衡高可用搭建；
10.了解Elastic Search，会使用其实现全文检索；
11.理解Kafka工作机制，能搭建Kafka集群，利用Kafka + Spark进行数据的流式处理；
12.理解zookeeper的存储原理，会配置zookeeper集群；
13.掌握MySQL日常DML/DDL/DQL操作；
14.编译过hadoop源码；
15.搭建cloudare manager + CDH5 presto集群、carbondata数仓
16.基于clickhouse+ cboard做olap分析，搭建clickhose HA集群，优化任务资源
17.基于supervisor实现任务重启机制
18.熟练sparkStream + hbase 模式实时日志ETL
19.精通阿里云emr 全托管flink，

项目经验

项目一:底层数仓建设，实时方案设计，演进，实施（mysql+flink+talos+hologres）
描述
基于ads及业务数据设计底层销售，库存表，易于扩展，业务迭代，维护，降低成本。提高时效性，兼顾离线。基于阿里云的hologres+flink sql 实现实时数仓，基于hologres cdc 实现流式数仓，流批一体。
解决痛点:
1.业务快速发展迭代对ads层的影响，采用1248码。设计实时架构，提高数据的时效性，推进一商一议数据业务需求。主动承担了部门最艰难的任务，在实时项目中兼顾了设计到研发，测试到和多部门协作。
2.在多人部门多人协作中，根据业务需求，制定了相应的规范（命名规范，上线规范），并推广实施，在一定程度了提高了部门的协作能力和规范能力，为公司在质量就是生产力的号召下，促进公司的发展。
3.在部门中产生矛盾后，主动承担部门人员之间的工作协调，在一定程度上促进了部门团队的团结合作，主动为领导分担。

项目二：微淼从0到1的大数据基础建设
描述:
基于阿里EMR建设数仓，并在hue中集成presto,doris,数仓搭建和异常数据监控报警
解决痛点:
hive底层引擎优化，保证数据正常产出，任务失败后的报警通知机制，数据olap的高效响应，临时任务快速查询，数仓规范的统一，文档开发的建设

项目三：VIPKID流媒体大数据ETL/数据挖掘
集群架构：filebate、logstash、Kafka、Spark、Hadoop、Hive、clickhouse、cboard、supervisor
项目描述：
使用sparkStream消费kafka数据ETL,进入ods层,在根据业务线进入dwd,按照课程维度进入到dws层作为宽表数据,在根据不同的业务提供不同的需求表在ads层,使用airflow将dws的数据导入到clickhouse中,使用cboard作为核心指标数据展示,定时邮件和钉钉群信息
责任及技术描述：
1．Server端日志使用sparkStream处理,同时解决因使用filebate导致的乱序问题,写入hbase,提供给SDK开发人员查询服务端上报日志
2．客户端日志处理,根据清洗日志,写入ods,在根据不同的业务线写入dwd层,按照课程维度把数据拆分到dws做成宽表,使用airflow导入clickhouse中进行OLAP,使用cboard展示核心业务指标、定时邮件、钉钉群发数据
3.根据清洗的日志挖掘日志标签,音视频卡顿标签,进教室异常标签,视频上下帧率等
4.推进SDK开发因为CPU负载过高和内存泄漏导致的音视频卡顿上报日志打点
5.统一规范了服务端打点日志,同时编写了宽表的使用规范和字段说明
6.通过ping日志计算max/min/avg和方差,用于挖掘客服端导致的音视频卡顿
7.通过traceroute日志挖掘A类,B类,C类地址跳数,内外网个数和timeout个数,用于分析服务的响应效率
8.使用flink通过http接口上报数据,基于flink的状态编程开发,完成实时大盘上课分钟数动态显示
9.使用supervisor 实现任务重启,编写yarn任务的失败重启sh脚本

项目四：中文万维新集群搭建/集成工具/实时计算
项目技术：cloudera manager + CDH5 + carbondata + presto
集群架构：Flume、Kafka、Spark、Hadoop、Hive、MySQL、carbondata、presto
项目描述：
搭建公司的新集群,解决旧集群的单点故障问题、数据实时效益问题、实现flume的断点续传、容错机制
责任及技术描述：
1．基于cloudare manager搭建一个可监控的CDH5的集群,同时用于离线和实时任务
2．搭建carbondata数仓,设计新集群的技术架构、数据流向架构、业务技术架构
3．搭建presto集群,用于业务层直连数据
4. 搭建cloudera manager、升级cm中的spark,在hue中集成db、hive、spark、carbondata
5. 基于flume搭建负载均衡的高可用采集日志系统
6. 移植flume1.7的断点续传功能到flume1.6,实现了flume1.6使用taildirsource实现断点续传

0条评论雇主评价

暂无评论~

可兼职时间

自由职业者，时间充裕

可兼职地点

远程

昵称登录后显示

微淼 大数据研发工程师

vipkid 大数据研发工程师，搭建大数据集群，CDH等

中文万维 大数据研发工程师