2
被预约次数
1
被收藏次数
1
被评价次数
深刻理解Hdfs分布式文件系统存储结构和高可用原理
熟练掌握Hadoop MapReduce计算框架编程,对yarn的资源调度,作业监控有一定认识
掌握Storm编程,深刻了解Spark底层运行机制,
掌握使用Flume日志采集结合Kafka、Spark\Storm实现实时计算业务
熟练使用Hive对Hdfs数据离线分析、Impala查询,并结合Sqoop对数据进行导入导出
理解Hbase的存储原理,Hbase存储架构,实现数据的毫秒检索
掌握redis内存数据库的基本原理,实现数据的毫秒查询
熟悉Scala语言、python语言、shell编程,熟练使用linux常用命令
熟悉MapReduce、Spark、Storm等计算框架并了解运行机制
熟悉Solr、ElasticSearch给数据建立索引
熟悉Docker、Alluxio
熟练使用CDH对集群进行监控管理,熟悉Ganglia,可用于监控集群服务器的运行状况
熟悉Kettle工具、熟悉使用Ooize调度hadoop任务
了解Mahout协同过滤算法,了解Kylin相关数据建模知识
【项目经验一】
项目名称:神龙大数据平台二期(2018.12-2019.07)
开发环境:IDEA、JDK1.8
主要技术:SpringBoot、MyBatis、Redis、SpringMVC、MySQL、ImPala、Kettle、Jenkins、
项目介绍:
该项目是在神龙汽车公司已有大数据平台基础上进行的二期项目开发,项目使用Kettle加Sqoop对各个子系统的数据进行采集入库到Hadoop平台。使用SpringBoot加Jdbc的方式开发RESTFul接口供前端调用ImPala数据库中的数据。
报表模块分为车辆健康预警模块、定保客户招揽模块、网点评价模块、车辆全生命周期查询、备件经营模块、售后经营报表、回厂时间预测模型、保客流失预警模型、数字营销报表。
职责描述:
1、负责将业务系统数据采集到大数据平台,业务系统包括CWEB、BPVN、BVVN、NGIC、DMS。
2、负责Kettle作业的开发设计与监控,数据抽取过程中状态写入Mysql数据库表。
3、负责后端接口开发和前后端接口调试。
【项目经验二】
项目名称:智网大数据平台(2018.07-2018.12)
开发环境:SecurceCRT、Centos7.2
主要技术:Shell、Jenkins
项目介绍:
在大数据时代的环境下,公司需要有效利用多源、多结构数据,安全地进行数据加工和增值,建设公司自有数据能力并进行转化。因此公司对于大数据平台的数据生产(汇聚存储多源数据、自动化清洗与入库)、分析加工能力(公司经营分析报告、公司数据洞察报告)、数据安全(严格保证数据安全、多租户环境用户控制)和能力开放(多样化对外开放能力、平台能力模块化租赁)四个方面有极高的需求。
职责描述:
1、编写shell脚本每天定时采集接口机数据并入库到Impala数据库中。接口机数据包括JPO、AMSP、廊坊。
2、负责在线商店、TBOSS等结构化数据采集到Impala数据库中。
3、编写shell脚本对AMSP数据进行数据清洗操作。
4、编写shell脚本对接口机数据、入库后Impala表中的数据进行监控。
5、通过Jenkins对服务器之间的脚本进行作业调度与监控。
6、周期性检查每天的数据是否都入库,对于缺失的数据采取对应的措施。
【项目经验三】
项目名称:比价平台(2017.12-2018.06)
开发环境:Eclipse、Tomcat7、JDK1.7
主要技术:Httpclient、Htmlcleaner、Xpath、Hbase、Redis、Solr、SpringMvc、jquery、Echarts、Zookeeper、Ganglia
项目介绍:
该项目主要是抓取京东、易迅、国美、苏宁等电商网站的商品,获取商品的标题、价格、规格参数等信息,在前台界面为用户提供商品搜索查询,以及商品比价等功能。
项目主要分为6个模块:数据下载层、数据解析层、数据存储层、数据处理层、数据展现层、系统监控层。
项目问题:ip被封,网站页面结构变动。
职责描述:
1、负责商城的数据爬取收集,从电商页面,解析出商品的明细信息,商品的价格,商品的图片等信息
2、负责系统的监控,利用zookeeper对集群中的各个节点进行监控,当其中的有节点宕机了,会用邮件通知运维人员进行相应的处理
3、负责将获取来的数据信息存放到hbase数据库中,并且对数据建立索引等操作
【项目经验四】
项目名称:实时处理平台(2017.05-2017.11)
开发环境:Eclipse、JDK1.7
主要技术:Log4j、Flume、Kafka、Storm、Mysql、Hbase
项目介绍:
监控比价项目中爬虫的爬行能力、每天的抓取数量、抓取一个网站需要的时间、还
有抓取失败的商品数据等指标信息,项目中使用Flume、Kafka、Storm实现一个流式处理
平台。
项目主要分5个模块:日志数据收集层、数据缓存层、数据处理层、指标展现层、
数据备份层。
1、日志数据收集层:在每台爬虫机器上部署一个Flume Agent,负责采集爬虫日志
信息,并发送给Kafka集群。
2、数据缓存层:使用Kafka接收Flume的日志信息并缓存,等待Storm处理。
3、数据处理层:主要是Storm实现,对日志信息处理,统计关键性指标做汇总,定时的存入MySql中,供Web界面统计出图表。
4、指标展现层:主要使用Echarts出图表。
5、数据备份层:目的是对爬虫的原始数据进行备份。
项目问题:
Storm重复消费数据问题,Storm和Kafka整合log4j实现冲突问题,为了提高Storm Bolt并行度在最终汇总出现数据不一致问题,使用zookeeper分布式共享锁解决。
职责描述:负责平台环境搭建,编写Storm代码统计具体的指标存入Mysql。
【项目经验五】
项目名称:网站日志分析系统(2016.08-2017.04)
开发环境:Eclipse、Mysql、Maven、Jdk
主要技术:
实时:Storm、Kafka、Mysql
离线分析:Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql
项目介绍:
根据网站的Access、UGC日志,分App维度、总的,离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志,分App维度、总的,实时统计用户每分钟一次的充值和消费情况 。
离线分析:整个离线处理流程使用kettle监控任务并调度。
1、数据采集:将用户的Access、Ugc等日志通过Flume采集,按天和业务分目录存储到HDFS上。
2、数据清洗:每天定时通过MR清洗前一天的原始日志数据,Load到Hive表中。
3、数据分析:编写Hive语句和Shell脚本统计指标,并将统计之后的指标使用Sqoop导入到Mysql,使用Kettle将Mysql中与hive表对应的各个维度表整合到一张报表
实时统计:
Web服务器实时发送用户的消费、充值数据到Kafka集群,Storm使用KafkaSpout去Kafka中实时消费数据,然后每分钟计算统计结果并存入Mysql中。
职责描述:
参与前期项目分析,负责编写MR对原始数据清洗并加载到Hive表。负责编写hive
语句,shell脚本对离线数据处理。
【项目经验六】
项目名称:移动终端上网数据离线分析处理系统(电信项目)(2016.01-2016.07)
开发环境:Eclipse、Jdk1.7、Maven
主要技术:HDFS、Mapreduce、Hive、Spark、SparkStreaming、Sqoop、Impala、Oozie
项目介绍:
数据源端通过ftp服务将用户上网记录以文件的形式,上传到我们的采集机对应的目录下,通过脚本定时将数据Put到Hdfs上。
编写MapReduce对电信的离线话单数据进行分析,统计用户使用业务(流量套餐、话费套餐、铃声套餐等)情况,感知用户使用行为和使用习惯,确定移动业务推广走向的一套系统。使用Oozie调度。主要统计的指标有:
1、通话时长和流量统计,最长延迟1小时。
2、app下载Top N排名,每小时统计一次。
3、业务使用量实时统计,完成业务使用量实时排名和预警。
职责描述:
1、编写shell脚本,将用户上传到采集机上的原始数据上传到hdfs上。
2、编写MapReduce代码对hdfs话单流量数据进行统计。
3、编写Spark代码离线计算App下载排名。
可兼职时间
可兼职地点
无声的雨 2023-09-22 13:44
还行