1、广泛的技术覆盖面,扎实的后端基础,合理拆解任务场景进行技术选型
2、优秀的数据结构掌握能力,了解elaticsearch、mysql、neo4j等多种不同结构的数据库,具有多年的实践经验,了解不同技术场景下数据库的选择和数据的管理
3、可以带团队从零到一构建完整的企业内容爬虫采集板块、数据分析处理模块、基于elasticsearch分布式集群的内容管理和大数据检索中台、python后端服务、adb群控任务
part1 python后端工程师
1、负责GET 智能写作、GET 导师、 GET 智能引擎、今日Get等多个项目板块的 python 后端架构设计与开发,采用flask+gevent技术框架
2、集成elasticsearch,mysql,neo4j等多种数据库持久化连接板块、 实时爬虫板块、redis,oss等多个中间件部分
part2 python爬虫工程师
带领团队成员,熟练使用selenium、phantomjs、appium、安卓adb、mitmproxy、IP池等爬虫技术进行数据离线采集,为写作等多种场景提供数据内容支持。
1、300+内容站点的文章数据离线采集,10+重点内容平台的定时采集与监听,1年内达成文章8000W+,段落2亿+,百科500W+的数据采集成果,涵盖所有主流内容平台、长尾细分领域优质内容平台
2、200+热点榜单的实时监听任务,涵盖所有主流热点数据源,为官网提供稳定的热点查询和分析服务
3、集成多种爬虫技术手段,研发了通用型文章内容解析爬虫解析算法,适用98%以上网页正文内容的一键式解析,适用于windows、linux多平台
4、整合实时爬虫数据采集技术与多种NLP算法,为官网提供稳定的服务,主要应用场景为GET官网知识搜索模块、百度原创度检测模块、文章链接导入模块、头条等多平台验证码破解与一键发文模块
5、深度应用安卓adb技术,完成100台手机群控系统的部署,提供某短视频平台手机端数据采集服务
6、熟练使用正则和NLP技术完成数据清洗过滤
part3 ElasticSearch应用工程师
主动评估与提出采用elasticsearch作为底层非关系型数据库,用来解决mysql在全文检索场景以及倒排索引查询中的性能问题。基于阿里云ECS服务器搭建了ES分布式集群,最终应用到所有产品线,提供支持高并发、高召回率的大数据检索服务。
1、基于4台16核32G1.5TBESSD存储的阿里云ECS服务器搭建了ES分布式集群,以及kibana、cerebro监控服务,管理3.1TB的文档数据 (此处的分布式架构设计在ES分片管理上不是最合理的,受限于中间的迁移成本一直未改变)
2、在生产应用过程中,熟练掌握ES的分布式部署设置,多种性能调优方式,包含ES宕机、ESSD硬盘扩容、索引异常、reindex等多情境故障解决方案,搭建基于阿里OSS的数据容灾备份策略,解决ES索引权限管理问题,并整理相关文档至个人印象笔记,发布部分ES文档到CSDN等内容平台,一对一解决过上百人在ES部署和使用过程中遇到过的各种问题
3、熟练掌握ES数据结构以及不同数据结构的存储和对应数据类型的查询召回方式,了解聚合查询、自定义脚本查询等多种场景下的召回方案,结合GET实际生产检索场景,提供复杂数据检索服务,了解检索环节的性能瓶颈和影响数据召回的多种因素
part4 NLP应用工程师
1、采集和解析百度拼音词库,扩充jieba自定义词库
2、熟练掌握和应用jieba、hanlp等主流库,完成文章数据入库前的分析和清洗工作,包括分词、提取关键词、情感分析、提取领域标签、文本领域分类、提取摘要,了解不同平台、不同NLP库的性能瓶颈和效果差异
3、了解百度、阿里等多平台NLP技术现状,评估并采用优势技术整合到GET现有服务,如百度敏感词检测、纠错等
4、了解分词技术对elasticsearch底层存储、查询召回的重要性,优化分词和存储方式,提高查询精准率和召回率
part5 GET智媒机器人
结合机器群控技术与AI算法,制定平台精准用户画像,在多种短视频内容平台上进行智能营销。
1、深度应用adb技术,完成百台手机的群控部署,完成多种场景下批量营销任务的实现
2、使用pyqt5开发windows本地客户端,完成简单UI设计与开发,以及高并发群控功能的实现
可兼职时间
可兼职地点
0条评论 雇主评价