熟悉 C++、Python、平时使用 Pytorch 作为深度学习框架 擅长算法类程序设计,熟悉多种算法和数据结构 对机器学习和深度学习有所了解,参与过自然语言处理中机器翻译、文本分类、序列标注等任务
参与法条预测、案由分类、罪名分类等 (文本多标签分类问题)、自动量刑 (回归问题)、处理数据和演示
Demo 等任务
其中主要采用模型包括 CNN、ResNet, 利用 word2vec 和 glove 预训练大规模词向量
主要工作包括文本预处理、领域分词、数据增强、清洗数据,利用 Keras 框架搭建模型等
主要负责的法条预测任务 F 值达到 83%, 该功能上线讯飞的“法小飞: 智能法律助手”
Kaggle: Quora Insincere Questions Top 5%.
该任务是要识别出 Quora 中的垃圾提问,将其抽象为在英文文本的二分类问题
采用网络为 RNN+Attention+Capsule Net,为加快网络的训练,使用了三角学习率
为提高性能,利用 gensim 计算 TF-IDF,将 embedding 和 TF-IDF 结合共同表示成新的词向量,比原预训 练的词向量效果提升 1 个点,采用 NLTK 中 Stemmers,提取单词的词干,对结果也有提高
用户细粒度情感分析 AI Challenger2018 rank 11/468.
任务为解决在中文上的 20 个细粒度情感分类,将其抽象为在中文文本上的四分类问题
由于训练较慢,在 attention 提取特征前采取共享层,之后采取独占层
在数据处理上利用工具处理将繁体字转为简体字
由于分类数目较多,结合 label embedding,最终效果提升 0.5 个点,最终集成模型平均 F 值达到 0.715
利用汉字结构提升词向量的效果.
主要研究汉字结构对词向量的影响
为解决歧义问题,将字 or 部首附近文本利用 Kmeans 聚类后,每个字有多个字向量,计算时选取最相似的 部首的提升,利用汉字编码表和百度百科爬虫选取汉字的偏旁部首,计算部首 embedding
最终结合,词、字和部首的 embedding,评价指标为 wordsim 和 NER 任务,均有提升
可兼职时间
可兼职地点
0条评论 雇主评价