毕业于华中农业大学信息管理与信息系统专业,在校获得国家数学建模竞赛二等奖。毕业后曾就职于支付宝风险管理部门,负责数据建模&数据分析(sql+sas+spss+python),目前在一家公司负责python后台+nlp算法部分。
良好编程&问题解决能力:近2年python爬取数据&后台算法开发经验,熟悉elasticsearch、tornado、request、redis、lxml、supervisor等工具
对于用机器学习算法来解决实际问题抱有很强的热情
1、 EAY(年龄段预测)
完成支付宝站内业务、收藏、浏览、旺旺、交易、购物车、品牌属性等数据准备
利用决策树进行建模
2、 EAY(夫妻账号对预测)
完成支付宝账号对之间发生的行为(代收货、代充值手机、代购买母婴类商品等等)数据准备
用sas建立logistic回归模型(ks为40%左右)
3、 提供奇点资讯新闻的相关观点
用到的软件及主要包:scala、python、mongo、tornado、urllib2、requests、textRank、pyltp、akka、spray、jsoup
1、提供文章的标签
1.1、文章正文的关键词 (在Python中通过textRank 中 get_keyphrases算法)
1.2、标题的关键词 (在Python中使用反向匹配变形算法对标题进行分词 )
2、提供文章的摘要(在python中使用textRank算法的get_key_sentences方法)
3、提供文章的相关观点(使用scala语言构建融合搜索项目)
3.1、各大搜索引擎搜索(包含sm、bing、baidu、qihoo、sougou、google和qidian),搜索结果字段包含标题、url、搜索来源、搜索排名、新闻源网站、更新时间、新闻图片url、新闻摘要
3.2、对搜索结果排重
3.3、对综合搜索结果进行排序
3.4、对搜索关键词进行优化(剔除日期格式)
2、 机器人问答系统
1、知乎爬取
项目目标:爬取知乎的所有问题及答案
用到的软件及主要python包:python2.7、mysql、redis、beautifulsoup、requests、lxml、rq
功能模块:
1.1、知乎模拟登陆
1.2、构建mysql数据库及表格
1.3、通过话题id爬取知乎所有的问题(问题id、问题标题、该问题关注人数,该问题回答数量、更新问题时间、爬取问题时间、是否爬完该问题下的所有答案)
1.4、通过rq分布式爬取知乎所有的答案(问题url、问题的标题、问题的描述、问题所属的话题、答案url、回答用户id,回答内容、赞的数量、用户主页url、爬取时间、更新时间)
可兼职时间
可兼职地点
Mandy-Choi 2016-05-15 16:18
非常好的合作 感谢