- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
新闻类型自动分类
业务背景与项目目标分析方法与过程
业务背景随着互联网技术的快速发展,网络信息呈爆炸式增长,使人们足不出户便可获取大量资讯。以人民网为例,仅国际栏目每天就产生上百条新闻,整个网站每天可产生成千上万条新闻数据。面对如此海量且形式多样的新闻信息,人工处理和分类变得极具挑战性。文本自动分类技术能够快速高效地处理这些数据,不仅可降低人工参与程度,为新闻工作者节省劳动时间,还能对新闻编辑与收录提供参考,同时有助于政府机构合理规范并引导舆论发展,防止社会矛盾激化。通过互联网新闻分类,人们能更便捷地了解实时动态,享受信息科技时代带来的智能与便利。
数据说明该案例选取的是人民网教育类别的7个栏目(滚动、原创、留学、婴幼儿、中小学、大学、职业教育)下的部分新闻数据,数据遍布的时间为2019年7月8日至2021年2月25日共1284条发布的新闻数据。人民网教育新闻信息数据(保存在教育新闻数据.xlsx文件中)字段说明如下表所示。字段名称含义栏目名称新闻所归属的栏目新闻标题发布的新闻的标题发布时间新闻发布的时间链接详情对应的新闻内容链接新闻内容新闻的内容
分析目标如何将新闻内容所表达的主体方向高效而快速的进行分类,从而给用户带来阅读新闻的效率感与体验感层面的提升,相信是众多广大新闻发布平台及用户所共同期待的。本章根据新闻文本分类项目的业务需求,即需要实现的目标如下。对滚动与原创栏目下的每一条新闻内容进行快速且详细的分类。评估该分类情况的优劣,并提出更好的分类改进建议。
分析目标新闻文本分类的主要步骤如下。使用Python爬虫获取新闻数据信息。对数据进行清洗,并分析各栏目下新闻发布量,对数据进行探索。对文本进行基础处理、向量化等预处理操作。构建SVM分类模型,对滚动与原创栏目进行分类。根据构建后的模型结果进行模型评价。根据分类模型得到的滚动与原创下的新闻分类结果提出更好的改进建议。
分析目标新闻文本分类的总体流程如图所示
业务背景与项目目标分析方法与过程
数据采集使用Python爬虫中的requests、BeautifulSoup等常用库对人民网教育类别页面进行请求与解析。对页面中的7个栏目(滚动、原创、留学、婴幼儿、中小学、大学、职业教育)下的新闻数据中的5个内容(栏目名称、新闻标题、发布时间、链接详情、新闻内容)进行信息爬取。并将爬取到的数据保存至本地文件夹。
数据采集爬取到的人民网教育新闻部分数据如表所示。栏目名称新闻标题发布时间链接详情新闻内容滚动北京:临近开学眼科就诊患儿增多2021-02-25http://****.html“假期,孩子们刷手机、打游戏…原创冯小明院士:探索欲是鼓励科研者…2021-01-29http://****.html每周课题组召开组会时,冯小明…留学在英中国留学生:离开校园的第四个月…2021-01-29http://****.html“花着昂贵的房租和学费却只能上网课…婴幼儿上海市民政局:沪儿童福利机构…2021-01-22http://****.html21日下午举行的上海市疫情防控工作…中小学我的麻辣老师:给期末评语…2021-02-01http://****.html薛磊的评语1月14日…
数据探索1.数据清洗对数据进行清洗,包括对数据中的重复值、缺失值和干扰内容(转义符)等进行去除,减弱不必要的信息干扰,同时也便于后续对数据进行更为深入的探索。
2.可视化展示数据探索将经清洗过后的数据进行可视化展示,包括查看各栏目新闻总发布量、查看各栏目的月份新闻发布量趋势。通过可视化的展现,从而更直观的挖掘出数据的额外信息,便于开展更为准确、合理的分析。由图可知,留学栏目的新闻发布数量最多,为208个,其次是婴幼儿、滚动、原创等栏目,而大学栏目的新闻发布数量最少,为131个。
数据探索2.可视化展示由图可知,原创栏目的发布数量较为平均,都在50个上下波动,时长为4个月;而滚动栏目的发布数量为197,且时长仅一个月。而导致出现这种现象的原因主要是因为爬取的数量范围有限,在这个范围内只有这个时间段的数据,同时这也与新闻的时效性有很大的关联,尤其是滚动栏目,为顺应实际生活的发展情况,新闻的更替会十分的快速。
数据探索2.可视化展示由图可知,婴幼儿、留学、职业教育、中小学和大学栏目的新闻发布数量波动较大的时间点分别位于2019年8月、2020年9月、2020年1月、2021年1月和2021年1月,且在所列举出的时间点中即为各栏目的峰值点。而出现峰值的原因主要是因为在这几个月份,学生刚好是处于放假或收假的阶段,因此很多相关新闻会在这些时间节点发布较多,而其他的时间段是处于学生在校期间段,因此各栏目的新闻发布数量则相对平稳,波动无过明显的差异。
文本预处理1.文本基础处理对文本进行基础处理。包括了对数据进
您可能关注的文档
最近下载
- 新解读《GB_T 6618-2009硅片厚度和总厚度变化测试方法》最新解读.docx VIP
- 英语专业四级(TEM4)词汇辨析.ppt VIP
- 2016款昂科威使用说明书.pdf VIP
- 三年级上册《体育与健康》全册教案.docx VIP
- YD∕T 2165-2017 通信用模块化交流不间断电源(可复制版).pdf
- 昂科威使用说明!昂科威问题汇总!从小白到高手的一瞬间!.doc VIP
- 2022蓝天消防JB-QB-5SI型火火报警控制器用户手册.docx VIP
- XXX加气站Z职业卫生预评价报告.pdf VIP
- Brunnstrom技术Brunnstrom技术Brunnstrom技术.ppt VIP
- “三全育人”工作实施意见.docx VIP
原创力文档


文档评论(0)