● 掌握Hadoop、Zookeeper、Hive、Sqoop、Impala、Kafka、Spark等组件原理与使用
● 掌握HDFS读写流程,Yarn资源调度流程和MR执行流程
● 掌握MR和Hive进行离线分析,了解数仓理论、数仓建模
● 掌握SparkCore、SparkSQL,使用Spark完成数据开发
● 熟悉Python和Java
● 编写Shell自动化部署集群,并能部署CDH平台
● 熟悉Linux,掌握Linux常用命令
● 掌握MySQL和HBase,熟练对海量数据进行SQL查询优化
● 熟悉Oozie和海豚调度器
项目一:广汽丰田-新 DMS 数据基盘改善项目 (2022.03 -2023.02)
项目描述:
新 DMS 数据基盘改善项目是广汽丰田的一个重点项目,是基于 CDH6.3.3 搭建的大数据分析平台。该项目是基
于 Hadoop+Hive+Impala+Spark+Oozie 进行开发,共分为销售(线索、订单、供需),售后(服务、技术、零部件),
二手车,i-crop,电池溯源等几大模块。
项目架构:CDH+Hadoop+Hbase+Hive+Impala+Zookeeper+Kafka+Oozie+Spark
工作内容:
1. 负责销售线索和二手车 DL-ODS、ODS-旧 DL(旧系统 DL 层)、ODS/旧 DL-DWD 层的 HiveSQL 开发
2. 负责销售线索和二手车的数据点检-编写测试项 SQL。其中包括条数比对、枚举值转换、是否错列等共八九项
3. 维护 Python 代码自动化生成 HiveSQL、测试项 SQL 以及维护 Scala 代码自动化生成测试报告并撰写测试报告
4. 使用 Oozie 调度器,定时执行日常跑数任务
项目二:广汽丰田-汽车大数据(车联网)项目 (2022.10 - 2023.02)
项目描述:
该项目是为广汽丰田创建的用户数仓平台, 该平台基于用户在前一天产生的数据和结合历史数据完成业务需
求的统计,帮助运营决策分析。我们通过 SparkSQL 分析用户购车的占比,购车客户的职业,地区分布,了解途径, 售
后占比, 客户消费水平等指标。
项目架构:CDH+Hadoop+Hbase+Hive+Impala+Zookeeper+Kafka+Oozie+Spark
工作内容:
1. 经过 ETL 的处理,如时间的转换,类型的转换,空数据的定义等后落入 Hive 的 ODS 层
2. 构建 Hive 数据仓库分层:ODS,DW,ADS
3. 使用 SparkSQL 完成订单,用户模块的分析,业务包含从时间、地域、商品分类、用户、订单维度,如分析每个月
的订单数总数和订单总金额等
项目三:信必优-华润用户画像分析 (2020.02-2022.01)
项目描述:
该项目通过采集用户浏览、点击、关注等行为数据,结合用户信息、消费行为等信息抽象出的一个标签化的用户
模型。我们通过使用 SparkSQL 完成离线指标的分析,得到用户的标签结果,最后实现对用户的特征模型进行抽象,
定位用户特征属性,从而进行精准营销。
项目架构:Hadoop+Spark+Hbase+Hive+Sqoop+MySQL+Dophinschedule+Flume+Kafka
工作内容:
1. 使用 Sqoop 将 MySQL 的业务数据导入 HDFS
2. 构建 Hive 数据仓库分层:ODS,DW,ADS
3. 使用 SparkSQL 完成离线指标的分析。包括从时间、地域、商品分类、用户维度分析订单数据,如统计每个月订
单笔数和订单总金额;以及流量、受访、访客等角度分析用户行为日志,如 PV、热门页面等指标;
4. 使用 DolphinScheduler 调度器,定时执行调度任务
项目四:云智教大数据平台 (2019.07-2020.01)
项目描述:
该项目是基于公司的教育业务构建的数仓平台,通过离线的方式面向数据分析。该项目使用 HiveSQL 计算出相
关的指标,Oozie 进行调度,Sqoop 进行数据导入/导出,然后使用 MySql 对接 FineBi,制作可视化大屏展示。
项目架构:Hive+Hadoop+Sqoop+Oozie+Hue+FineBi
工作内容:
1. 完成五大主题看板(访问咨询、意向用户、有效线索、报名用户、学生出勤主题看板)的数据计算与分析工作
2. 通过 Sqoop 将数据导入/导出到 Hive 中,并使用 Oozie 执行定时调度任务
可兼职时间
可兼职地点
0条评论 雇主评价