1、本人是计算机专业毕业,至今有四年ETL开发经验,做过银行的数据迁移和监管报送项目。
2、数悉数据治理内容和标准,包括元数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理。
3、熟悉数据仓库的维度建模、数据仓库建模分层,数据仓库建模流程,熟悉数据分区策略,数据生命周期管理,
缓慢变化维处理策略。
4、熟练掌握ORACLE数据库,熟悉数字函数、日期函数、字符函数、条件函数的使用,熟悉(PL/SQL)存储过
程、函数的编写,开窗函数的使用及SQL调优。
5、熟练掌握sqoop/kettle等数据抽取工具的使用,熟悉ETL的导入导出,ETL中的表输入、转换操作、表
输出。
6、熟悉hadoop、hive、spark等数仓工具的使用 ,以及hadoop中hdfs、mapreduce、yarn等组件的使用。
7、熟悉Linux操作系统,如Ubuntu系统,熟悉文件目录类基本命令的使用、权限设置和进程管理命令使用,还有文件的解压缩命令等。
8、熟悉掌握azkaban、airflow等调度工具的使用,DAG有向无环图的使用,任务的创建,依赖的处理,设置定
时器执行。
9、熟悉prometheus时序数据库的使用,熟悉snmp简单网络管理协议的使用,熟悉grafana的看板创建使用及配置。
项目一 广州地铁集团有限公司穗腾大数据治理项目
技术栈:hive+hadoop+数据中台
项目背景:随着业务线上化、IoT设备普及、用户行为数字化,以及业务数据量的增长,需要对数据进行统一管理,降低数据冗余度,解决数据质量低下问题,将各部门或系统独立建设的数据进行统一和跨部门共享和整合,提高业务协同处理效率。通过数据治理实现数据标准化,为数据中台提供高质量数据底座。
职责:1、参与地铁线路指标的核对整理,根据HIVE SQL代码和数据中台的数据表之间的映射关系,梳理出来源系统以及指标的计算方式,确认指标的完成度,并整理成表格。
2、参与数据的核对,参与设备所属专工会议,确定数据涉及设备的位置、编号及归属系统,以及根据不同专业系统和物模型中数据对limis编码进行关联,完成数据标准化匹配。
3、通过数据中台根据数据资产分类标准进行数据资产的分类,根据数据资产安全分类分级标准进行数据资产安全的分类分级,并分别整理成数据资产分类以及数据资产安全分类分级表格。
4、整理公共线路站点的标准表,通过标准表跟不同业务系统的线路站点表进行关联,实现数据的标准化。
5、协助业务人员进行设备数据的人工校验和修正,以确保设备数据的完整性,确保数据不缺失,无空值。
6、通过数据中台配置数据质量探查任务,探查数据质量的空值率、重复值等,用以评估表级数据、字段级数据在准确性、完整性、一致性、可靠性等方面的评分。
7、配置数据汇聚作业,配置需要采集数据的表、字段,配置汇聚作业的生命周期和采集频率,完成数据从源系统采集到目标系统的操作,实现增量或全量更新,并将数据汇集作业做成表格。
8、通过hive sql配置ods层各数据库表的comment注释表名,便于数据中台元数据采集完成采集,实现对表中文名的获取和修改。
可兼职时间
可兼职地点
0条评论 雇主评价