实现网
远帆

昵称登录后显示

2000/8小时
8年工作经验

奇虎360
搜索技术经理

innotree
大数据总监

当前评分 10.0
专业技能
工作效率
服务态度

3

被预约次数

12

被收藏次数

3

被评价次数

擅长技能

大数据算法专家,熟悉自然语言处理、数学挖掘机、机器学习、搜索引擎等算法,熟悉创业公司技术架构,有高并发处理经验,深悟周鸿祎的产品经理思维、大数据思维。
毕业于985高校,8年工作经验,5年搜索引擎研发经验,2年大数据管理经验。

有多年技术开发和管理经验,熟悉互联网技术人员管理,熟悉互联网产品开发流程,深谙互联网思维和大数据思维,认同小步迭代、快速试错的理念;
熟悉C/C++、java、php、python等开发语言,熟悉mysql、nginx、redis、ssdb等开发,有大数据量、高并发服务开发经验;
熟悉大数据、自然语言处理、搜素引擎、数据挖掘和机器学习等领域;
熟悉大数据平台搭建,熟悉Hadoop、hbase、flume、Kafka、Storm、Spark、Hive等技术;
熟悉自然语言处理,对自然语言处理中的分词、新词发现、同义词挖掘、HMM、语言模型、词性标注、人名和机构名等命名实体识别、关键词提取、知识图谱等有开发经验;
熟悉搜索引擎中相关性排序,熟悉搜索引擎开发的整体流程,从爬虫、存储、索引、相关性排序、query和网页分析等整体工作流程,熟悉机器学习和数据挖掘应用;
熟悉大数据应用,在搜索、文本处理、信息标签化、金融建模领域有一定经验;

项目经验

主要工作职责:
负责自然语言处理和query分析模块的相关研发工作,以及搜索中NLP相关的其他项目开发工作、NLP基础性算法开发和NLP资源建设等;
主要项目情况:
①.中文分词模块:
项目介绍:
分词模块主要包括:中文分词、词性标注、人名和机构名等命名实体识别、实体词识别、新词发现、关键词提取等。中文分词采用的是trie树结构和最大正向匹配的方法,词性标注采用的是隐马尔科夫(HMM)模型,人名识别和机构名识别主要是采用基于规则的方法,实体词识别主要涉及实体词挖掘、实体词去噪和实体词识别,新词发现主要是利用query日志,通过统计高频串和规则的方法进行识别新词。关键词提取主要是通过统计和规则的方法实现的。
项目中主要工作:
在分词项目中,我主要负责算法设计和代码开发工作,以及后续检索的case分析和效果优化等。

②. Query分析模块
项目介绍:
Query分析,主要是分析理解query,方便相关性打分。Query分析中主要包括:query纠错、query分类、query 核心词识别、同义词识别、query句式挖掘、query改写等。Query纠错主要是对用户输出的有误的query进行自动纠错,query纠错主要是通过拼音词典、编辑距离等方法。Query分类,主要是对query意图进行理解分类,方便最终检索结果的混排和整合等,query分类主要是通过规则和模型结合的方法进行的。Query核心词识别,主要是分析query中term的重要性,对term的重要性就行赋权,query核心词识别主要通过语义的理解,用规则的方法实现的。同义词识别,主要是挖掘上下文环境下的同义词,然后根据上下文环境进行同义词识别。Query句式挖掘,主要是挖掘query中的高频句式,以便对query就行分析。Query改写,主要是同义词改写和句式改写。
项目中主要工作:
在query分析项目中,我主要负责算法设计和代码开发工作,以及后续检索的case分析和效果优化等。

③.检索效果快速优化
项目介绍:
检索效果快速优化,主要是在新架构上线不久,基础检索效果不是很理想,需要快速提高效果;主要是由相关性、NLP和混排的人员组成的封闭开发小组,进行快速的检索case分析,模块算法优化,快速评测上线。
项目中主要工作:
在该项目中,我的主要工作首先是case分析和分解:对检索的case进行分析,将case的原因合理的分配到相关性、NLP或者混排等不同的模块中;其次是对分解到NLP模块的case进行分析,优化算法,快速上线解决case。

④.知识图谱项目
项目介绍:
知识图谱是一种语义网络,其结点代表实体或者概念,边代表实体/概念之间的各种语义关系。知识图谱搜索是现在搜索引擎都在积极推出的一个新项目,宜搜知识图谱主要目前支持人物、电视剧、电影、音乐、专辑、书籍等知识类别。
项目中主要工作:
知识图谱项目主要涉及知识的挖掘、解析和知识检索的过程,我主要负责知识检索这块。

⑤.新闻聚合项目
项目介绍:
新闻聚合项目主要是检索中对新闻相关query出新闻聚合框,提供用户的检索满意度,新闻聚合项目主要涉及实时新闻索引库的建立和更新、query热度计算、新闻聚合框中新闻数据的相关性排序等。
项目中主要工作:
在该项目中,我主要负责Query新闻热度计算,主要是对每条query计算一下是否是最热新闻的热度值,热度值最高说明是最热新闻,新闻聚合框应该放在首条,热度最低说明不是新闻,不应该出新闻聚合。
①.网页关键词、地址和电话号码、真实标题等抽取
负责网页中新闻关键词、新闻tag、地址信息和电话号码、真实标题等抽取工作,以提供后续使用
②.智能摘要
360搜索中智能摘要的信息抽取,智能摘要主要是将摘要信息结构化,优化摘要展示,以满足缩短用户使用路径的目的。
③.网页转码
负责网页转码中预转码流程、离线捞取流程等流程调度,满足网页实时转码需求。

3条评论 雇主评价

可兼职时间

周六全天
周六半天
周日全天
周日半天

可兼职地点

海淀

被预约

3

被收藏

12

被评价

3

立即预约

可兼职时间

周六全天
周六半天
周日全天
周日半天

可兼职地点

海淀

已通过身份认证