本人从事大数据处理和分析,用户行为分析,自然语言处理,机器学习和数据挖掘,浏览器上面的用户新闻推荐等相关。对大数据,算法,自然语言处理有浓厚兴趣,业余时间开发一些简单的自动新闻抽取模块,网页dom自动抽取模块。
2009.1-2010.9 renren.com 人人广告平台(用户行为分析)
2010.10-2013.12 sogou.com 桌面事业部(浏览器研究)
2014.5-2015.10 niuche.com 技术部(后台算法)
http://niuche.com:
1. 二手车搜索服务和suggest 算法开发。Python 实现二手车的搜索检索和搜索提示服务,再利用自然语言处理
流程优化搜索结果。后期将搜索提示重构为纯js 模块,用于web 端的搜索。
2. 政治敏感,色情,广告内容的过滤服务(文本类型,图片类型)。基于一元模型和自动学习规则,用于文本中
的敏感内容识别。利用图像识别技术对图片进行训练而后生成二分类模型识别出广告图片(主要是评论中的
横幅文字图片,二维码,名片图等)
3. 微信公共号资讯抓取和抽取流程。利用在搜狗和上述的技术成果,实现一套资讯抓取流程获取新闻内容供用
户阅读(这部分主要优化了去广告分析)。后期实现了简单的微信公共号发掘工具,用于发掘汽车领域较好的
微信帐号,为内容扩充服务。
4. 二手车竞争网站分析以及价格预估系统。通过网页抓取和抽取整理出其他网站二手车销售数据(价格,销售
周期等),而后结合搜索工具实现一个辅助查询系统供线下人员使用,用以了解和对比各家网站的销售数据。
后期实现了价格预估工具,利用直方图预处理后再归并相邻区间,形成置信度较高的大区间作为预估判定区
域(此算法在正常数据下可以覆盖60%的数据点且密度较大)
http://sogou.com:
1. sogou 浏览器更新提醒服务端开发和研究。基于用户点击行为计算网页(hub 页)的热点区域,再利用集体
信息(规则+统计)筛选出适合于产品的提醒区域。
2. 浏览器预取项目后端统计和预测。 利用用户的闲暇时间预测用户可能要点取的页面,通过预先加载降低网
页延迟。Hadoop 计算网页的各种属性,籍此预测页面的缓存时间,利用热点分析,bigram 统计模型加个
性化信息预测用户的可能点击。分析Url 的相似性,合并url 正则,并且开发了正则的ranking 算法。
3. 新闻推荐引擎,根据用户喜好推荐个性化的新闻资讯。主要的工作方向是正文抽取部分和杂质信息过滤,利
用dom 结构分析网页结构中的关键节点,然后生成xpath,再利用群体信息过滤,抽取标准新闻页的正文
元素,论坛帖子页面的第一层,论坛列表页面的列表部分。第二部是利用统计信息加半自动的辅助工具
过滤正文中的杂质,如广告,推荐,js 等。
可兼职时间
可兼职地点
65-懒羊羊-3a963ce9 2016-07-08 15:07
很不错,合作很愉快