实现网
Joulin

昵称登录后显示

2000/8小时
1年工作经验

微软
算法工程师

0

被预约次数

1

被收藏次数

0

被评价次数

擅长技能

熟悉 C++、Python、平时使用 Pytorch 作为深度学习框架 擅长算法类程序设计,熟悉多种算法和数据结构 对机器学习和深度学习有所了解,参与过自然语言处理中机器翻译、文本分类、序列标注等任务
参与法条预测、案由分类、罪名分类等 (文本多标签分类问题)、自动量刑 (回归问题)、处理数据和演示
Demo 等任务
􏰂 其中主要采用模型包括 CNN、ResNet, 利用 word2vec 和 glove 预训练大规模词向量
􏰂 主要工作包括文本预处理、领域分词、数据增强、清洗数据,利用 Keras 框架搭建模型等
􏰂 主要负责的法条预测任务 F 值达到 83%, 该功能上线讯飞的“法小飞: 智能法律助手”

项目经验

Kaggle: Quora Insincere Questions Top 5%.
􏰂 该任务是要识别出 Quora 中的垃圾提问,将其抽象为在英文文本的二分类问题
􏰂 采用网络为 RNN+Attention+Capsule Net,为加快网络的训练,使用了三角学习率
􏰂 为提高性能,利用 gensim 计算 TF-IDF,将 embedding 和 TF-IDF 结合共同表示成新的词向量,比原预训 练的词向量效果提升 1 个点,采用 NLTK 中 Stemmers,提取单词的词干,对结果也有提高
用户细粒度情感分析 AI Challenger2018 rank 11/468.
􏰂 任务为解决在中文上的 20 个细粒度情感分类,将其抽象为在中文文本上的四分类问题
􏰂 由于训练较慢,在 attention 提取特征前采取共享层,之后采取独占层
􏰂 在数据处理上利用工具处理将繁体字转为简体字
􏰂 由于分类数目较多,结合 label embedding,最终效果提升 0.5 个点,最终集成模型平均 F 值达到 0.715
利用汉字结构提升词向量的效果.
􏰂 主要研究汉字结构对词向量的影响
􏰂 为解决歧义问题,将字 or 部首附近文本利用 Kmeans 聚类后,每个字有多个字向量,计算时选取最相似的 􏰂 部首的提升,利用汉字编码表和百度百科爬虫选取汉字的偏旁部首,计算部首 embedding
􏰂 最终结合,词、字和部首的 embedding,评价指标为 wordsim 和 NER 任务,均有提升

0条评论 雇主评价

暂无评论~

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀

被预约

0

被收藏

1

被评价

0

立即预约

可兼职时间

自由职业者,时间充裕

可兼职地点

海淀

已通过身份认证