实现网

软件开发工程师(兼职) 远程兼职

一般月薪40000元
项目类型:其他
每月工作: 30天
工作方式:
python
PHP
JAVA

职位详情

核心需求
对指定的新闻文章的内容进行智能判断,提取出文章描述关键字和态度。新闻文章来源爬虫爬取的各新闻网站、微信公众号的。关键字是某单位主体的名称、简称,高校居多。如北京大学、北大,清华大学、清华。
文章的态度即是文本的情感态度,分为以下三种情况:
正面:文章对单位主体的认可赞美的。
中立:文章对单位主体进行客观真实的介绍,不包含个人立场。
负面:文章对单位主体不认可,进行批评指责甚至是恶意抹黑。
判断标准要能接近人工识别的标准,至少是让人看上去是相关的。
主要问题
在关键字提取时,像这些都是正文含有北京大学,情绪偏负面的。但是主体内容和北京大学无关的内容,是不需要的。要想办法过滤掉。这样用户一眼看过去相关度就高了。也就容易接受使用了。解决舆情系统误报问题,最终让舆情系统的检测更准确。

举例来说:
正文里面含有北京大学,但是整体文章和“北京大学”无关。造成误报。根本需求就是提高相关性,降低误报。

示例样本
根据识别是否正确,分为正样本(可以正确判断的样本)和负样本(会识别错误的样本)。
正样本
以下样本能够正确识别含有北京大学、或者北大的匹配的样本。
https://dy.163.com/article/HP3596OB0553THOL.html
https://3g.163.com/dy/article/HH4N4H660536LOE0.html
https://dy.163.com/article/HNE5U0TC0552UVEN.html
https://www.cn-healthcare.com/article/20200619/content-538308.html
负样本
负样本主要有三类
第一类的可能是分词造成的。比如下面的含有“北大”,但是不是我们需要的北京大学的“北大”。
https://news.sina.com.cn/s/2022-12-19/doc-imxxeieh3862464.shtml
http://www.zhuzhouwang.com/2020/1229/394854.shtml
https://www.sznews.com/news/content/2022-12/19/content_25525650.htm

第二类,含有“北京大学”,但是这个新闻和北京大学没关系。
https://news.hangzhou.com.cn/shxw/content/2022-12/19/content_8429260.htm
http://www.jiaodong.net/news/system/2022/12/17/014530967.shtml
https://www.ztnews.net/article/show-393527.html
http://news.66wz.com/system/2022/12/17/105529619.shtml
https://hb.ifeng.com/c/8LlaffrCHQj

第三类,含有“北京大学”,内容也匹配。但是情感分析不准确。
对于已标记的数据,我们目前的训练结果准确度能达到90%多,但是对于未标记的数据,还是会有误判的情况。希望合作方能给出更好的解决方案。

最终输出:
合作者最好有过舆情开发经验,能提供以前的项目进行对比查看。如果是全新开发需能提供初步测试的demo进行在线测试。确定可行,提供整体的解决方案,架构设计,程序源码。

已有13人投递
Small fcc7e4fc406e1644bd0afd8545d56e5a
Small 61e5d9b9ab16773f131e1a893e0c0262
Small 342c6f7737f762f510f576dc7d1becef
Small 63831fd312b8778e3c38291a623fb075
Small d6fb20febf469826fb079f8efebbf2e4
Small 46e5d443b7ae9ba777945a095115926d
Small 4cd1f7e4125fc558e20b4404c6208fbb
Small 6270ca08730ffc973a2bd3e4ca6b3001
Small d289810f3d0df8bf21a035a72ab33c84
Small a8af94fdf731c68875a6bc3d779789a1
Small be7003c261f7886f80b81f643ef17354
Small a2945311e4b67d82c0937008071b397d
Small 5e58d2b80b838ccfcdd1a316b000664d
Cba1699d3a0e0e1fb46e7e468cb9d793
昵称登录后显示 10 个月前
公司地址 北京 海淀
团队人数未填写
融资情况未透露
产品介绍

暂无介绍

团队介绍

暂无介绍