2011年毕业于湖南师范大学统计学专业, 具有良好的数学和统计学基础, 14年自学编程, 从事编程行业4年。
C:
Unix C开发,熟悉内存管理,文件目录管理,IPC通信,Socket编程, 多线程编程。 熟悉Win32编程
C++:
基础扎实,熟悉STL, 具有良好数据结构和算法基础
JAVA:
javaSE, javaGUI, 多线程, java 设计模式
数据库:
postgreSQL, Oracle, MySql , redis, mongoDB, hbase
特殊技能:
全文检索(solr, elasticsearch, lucene)
机器学习相关算法:
朴素贝叶斯, 决策树, 随机森林, 支持向量机, DBscan, K-means等分类聚类算法 ,曾在公司通过
madlib+postgreSQL 方式实现各种算法的 SQL 形式(输入、输出都是数据表,通过sql函数调用方式来实
现算法应用)
1. 大数据空间图谱系统
项目描述: 海量数据存储、分析(异常聚集, 驻留,并轨,分组,实时监控)
工作内容:
a. 海量数据近实时入库(redis 做任务缓存队列(扫描目录获取任务文件),多线程读取任务的方式,将数
据近 实时的导入到 hbase),入库性能受网络 IO,磁盘 IO 影响,表现会有差异,一般的 3 机器集群、
千兆网络入库 速度可达 400M/s 左右
b. 全连通分组服务和自然分组服务。使用 C 语言版的 igraph 图分析库,并提供相应的 ICE 服务(ICE 是一
款面向对象的网络通信中间件平台,可实现不同语言、不 同操作系统间的网络通信)
c. 任意点集最小覆盖圆算法实现。
d. redis 集群环境搭建及维护
e. shell脚本开发(服务zhuang监测,自启动等)
2. 海量云盘系统
项目描述: 基于海量数据的、可基于各类文件内容进行检索的云盘系统
工作内容:
a. 全文框架设计(搜索引擎采用的 solr,文件存储采用的 FastDFS),字段及类型设计
b. solr集群环境搭建及维护
c. 全文开发, 支持高亮、分类统计、模糊检索、精确检索、迭代查询、拼音、简繁体、同义词、数字大小写
d. 文本内容提取(使用 tika), 支持 doc, excel, pdf, email 等
e. 自定义分词器
3. 杭州智慧档案项目
项目描述: 基于海量数据的档案关系构建
工作内容:
a. 阿里云大数据平台使用,基于 odps 做 MapReduce 分析, 使用 dataworks 部署周期性调度任务
b. CSB接口开发(调用其他公司接口,给其他公司开放服务接口等)
c. dbscan 聚类分析。 实现 kd-tree 优化的 dbscan 聚类算法。
4. 机器学习模块技术支撑
工作内容:
使用 madlib+gp 的方式实现各类机器学习算法 (纯 SQL 形式) 涉及算法主要有决策树、随机森林、
logistic 回归、条件随机场、多项回归、支持向量机、关联规则挖掘(Apriori 频繁项集算法)、k-means
聚类、LDA 主题模型等 编写使用手册和开发手册 支撑开发人员进行相关模块开发。
可兼职时间
可兼职地点
0条评论 雇主评价