1.熟悉Linux开发环境以及常用Shell命令,能够进行Shell编程;
2.熟悉基础Hadoop生态,近7年Hadoop使用经验,深入理解Hdfs、MapReduce原理,对各个生态成员组件的功能、应用场景、优缺点、典型bug有深入理解;
3.熟悉列族数据库HBase,对Hbase有近7年使用经验,深入理解Hbase读写数据原理、WAL设计原理、Rowkey设计原理,有读写性能优化的实战经验,熟练掌握Hbase在不同应用场景解决实际问题的能力;
4.熟悉消息中间件Kafka,对Kafka有近7年使用经验,深入理解Acks、页缓存、零拷贝、Rebalance等机制,对于消息幂等,分区分配有实际的解决方案,熟练掌握Kafka Streaming、Kafka Connector在不同应用场景解决实际问题的能力;
5.熟悉大数据计算引擎 Spark,对Spark设计原理,Spark Shuffle优化有深入理解,拥有3年以上Spark在各种应用场景下的开发,调优经验,熟练掌握Spark Core、Spark SQL、Spark Streaming等核心原理以及源码有较为深刻的思考和研究;
6.熟悉Flink流式程序开发,有2年以上流式项目开发经验,熟练掌握状态编程、窗口函数等操作;
7.熟悉数据仓库维度建模,有丰富的Lambda 架构 和 Kappa 架构数仓搭建实战经验,能够独立完成离线和实时数仓搭建、维度建模与维护;
8.熟悉Azkaban 等数据调度工具,对于Azkanban的 Job配置、Flow搭建、Schedule设置、Yaml语法有丰富使用经验;
9.熟悉Kettle数据采集,数据治理等 ETL 工具,熟悉个核心模块的功能,以及对接的其他生态组件的用法;
10.掌握Scala语言,有3年以上Scala开发经验,熟悉Scala容器、柯里化、单例模式、偏函数;
11.掌握Python语言,有2年以上Python开发经验, 擅长使用Python对数据进行清洗、加工、转换处理,熟练使用NumPy进行数值计算和多维数组处理,熟练使用Pandas进行数据分析;
12.熟悉 Java,有近7年Java开发经验,熟悉Java常用容器的用法和优缺点,如数组、链表、Hash表等原理和用法,深刻理解JVM内存模型、组成原理、多线程解决方案、GC原理、锁升级过程;
13.熟悉Apache旗下开源组件集群搭建,能够独立部署包括但不限于Hadoop、Hbase、Kafka、Spark、Docker、Jekins、Gitea、Nginx、K8s、Zabbix等大数据集群生态组件;
14.使用过FineBI、Kibana、Davinci等数据可视化分析工具,了解Spark MLlib库中基础的算法和用法,能够进行简单建模,没有调优经验。
项目名称:正泰集团人事标签管理系统
技术架构:Hive、ClickHouse、Impala、HBase、MySQL、Kettle、Azkaban、Spark
项目背景:在传统制造业数字化转型的大背景下。大型企业为了节省在人力资源管理方面的成本,同时也为了更好地筛选和培养优秀人才。亟需一套人事标签管理系统,能够满足对集团、子公司和供应商的各个部门不同层级的人员信息进行不同粒度的可视化分析、筛选。
职责描述:1. 对接业务部门对需求进行详细评估商讨,而后对系统构成组件进行调研选型;
2. 完成系统架构规划,以及各个模块详细设计开发规划;
3. 完成数据接入,数据仓库,规则组装,标签生成,运行日志等各个模块的独立开发;
4. 持续和业务人员以及数据分析进行沟通,完善新功能并解决系统中存在的各种bug。
5. 相关设计文档、使用手册编写。
突出贡献:1.使用Java编写了自动化生成Kettle流程化生产语句的程序,节省数仓开发重复、繁琐SQL语句编写时间,提高了项目整体开发效率;
2.定位并解决项目后期每晚数据同步数据丢失问题,阻止了系统数据丢失风险,保证了系统的稳定运行。
3.在全量数据同步模块,通过计算每页数据大小和数据量,设定了批次数据传输的最优化阈值,提升了传输效率和批量同步时的系统稳定性,防止OOM问题的发生。
项目名称:南京长途客运站信息采集及运维管理系统
技术架构:Kafka、HBase、Hadoop、MySQL、Oracle、Zookeeper、Zabbix
项目背景:中共中央办公厅、国务院办公厅、交通运输部和江苏省交通运输厅的相关文件精神(中办发〔2014〕69号、交通运输部〔2016〕82号,苏交运〔2018〕38号),为了进一步规范客运市场秩序,维护广大旅客权益及出行安全,加强重点区域的治安防控体系建设,需对汽车客运站乘客实名制售检票及危险品、违禁品全覆盖管理。为贯彻落实上述精神,我司随即为南京长途汽车客运站设计并搭建了一体化大数据客运安全平台。
职责描述:1. 参与前期项目分析,系统整体架构设计;
2. 负责厂商Saas平台人脸闸机数据接入工作;
3. 负责用Java实现 Kafka Producer对魔盒数据接入清洗开发;
4. 负责由Kafka Consumer 到HBase数据变换存储开发;
5. 对魔盒部分数据进行清洗统计将结果集存入MySQL, 以供大屏展示使用;
6. 负责后期HBase批次增量数据迁移工作,系统bug维护等。
突出贡献:1.排查并解决因图片占用空间过大,导致的系统查询速度下降,系统卡顿问题,杜绝系统因为查询OOM导致的系统瘫痪可能性,维护了系统正常稳定运行,提升了系统数据查询效率。
项目名称:南京公安智慧小区-数据预警项目
技术架构:Spark 2.4.0、MySQL 5.1.47、Scala2.13.3、Gradle4.10、Jdk1.8
项目背景:本项目是为社区安全搭建的智能识别平台,包括智慧安防,智慧停车,智慧健康,智慧门禁,智慧物业管理系统等。
职责描述:1. 负责智慧安防模块人员数据预警Scala算法部分开发;
2. 参与Java调用Spark入口运行人员告警Scala程序开发;
3. 参与算法在华为云Spark 上的运行部署工作;
4. 参与数据预警结果集由Spark到MySQL表写入工作。
突出贡献:1.开发并优化了包括久居未出、昼伏夜出、频繁进出等复杂算法的运算逻辑,节省了资源消耗,提升利用率,降低了整体开发成本。
项目名称:正泰能源物联网光伏电站运维BI系统
技术架构:MySQL、SQLServer、Canal、Kettle、Kafka、Flink、Hive、Impala、ClickHouse、FineBI、FineReport
项目背景:在总部、区域、运维中心三层运维管理模式下,各业务需求差异巨大且现有的运维可视化大屏无法针对各级业务部门进行个性化定,为提高电站运维业务人员的数据统计效率,需要进行该新能源光伏电站运维BI系统搭建。
职责描述:1.参与数据链路中Flink+Kafka的数据开发内容、实现状态编程;
2.数据链路中所有和Kettle关联的数据开发;
3.Hive数据仓库中各层级业务开发;
4.项目后期优化,改进,Flink-CDC在项目3.0升级中的可行性测试。
突出贡献:1.解决找Flink-CDC找不到MySQL日志文件问题;2.通过对Flink中task heap和managed memory参数进行重分配,节省内存资源近40%。
项目名称:正泰新能流程审批系统
技术架构:Hadoop、ZooKeeper、Hive、ClickHouse、Azkaban、Kettle、Impala
项目背景:该项目是为正泰旗下的新能源公司打造的流程审批效率分析工具,旨在推动新能公司内部审批流程实现降本增效。
职责描述:1. 前期项目分析,系统整体架构设计;
2. 数据源接入,数据ETL清洗;
3. Hive数据仓库分层搭建开发,ClickHouse映射流程创建;
4. Kettle数据工作流搭建,Azkaban定时更新任务配置;
5. 和前端数据查询的准确性校对,统一数据口径,以及各种查询问题维护,新需求开发等。
可兼职时间
可兼职地点
0条评论 雇主评价