自然语言及语音处理项目式教程 实训指导 实训14 基于SVM实现新闻文本分类.docx

自然语言及语音处理项目式教程 实训指导 实训14 基于SVM实现新闻文本分类.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《自然语言处理技术》

PAGE2

《自然语言处理技术》

目录

TOC\o1-4\h\z\u项目4 基于SVM实现新闻文本分类 1

1 实训目标 1

2 实训环境 1

3 实训说明 1

4 实训步骤 2

4.1 爬取并分析新闻文本数据 2

1. 数据爬取 3

2. 数据清洗 11

3. 可视化展示 12

4.2 预处理新闻文本数据 16

1. 文本基础处理 17

2. 文本向量化 19

4.3 构建SVM模型 21

1. 数据划分 21

2. 构建模型与模型优化 22

4.4 模型评价 24

4.5 模型预测 26

5 实训小结 27

基于SVM实现新闻文本分类

实训目标

掌握BeautifulSoup4库解析HTML和XML文件,获取有用的新闻文本信息。

掌握pandas和NumPy库进行数据分析和处理,完成新闻文本数据的预处理。

掌握jieba库实现中文分词,Gensim库进行文本向量化和主题建模。

掌握imageio库进行图像读写和处理,以及Matplotlib库进行数据可视化。

掌握scikit-learn库构建支持向量机(SVM)模型,进行模型训练、评价和预测。

掌握WordCloud库生成词云图,直观展示新闻文本数据中的高频词汇。

实训环境

环境

版本

说明

Windows10

64

电脑操作系统

Python

3.8.5

Python语言版本

pandas

1.3.0

主要用于数据读取、清洗等操作

NumPy

1.21.6

主要用于Python中的数值计算

jieba

0.42.1

主要用于文本分词

Gensim

4.2.0

主要用于检索文本、计算文本相似度、训练词向量、建模主题等

Matplotlib

3.3.0

主要用于数据可视化

PaddlePaddle

2.4.2

是一个深度学习框架,提供了高效的计算框架和优化算法

PaddleSpeech

1.2.0

主要用于语音和音频中的各种关键任务的开发

scikit-learn

1.0.2

广泛地用于统计分析和机器学习建模等数据科学领域

Librosa

0.8.1

主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库

NLTK

3.5

是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等

SciPy

1.7.3

是一个科学计算工具包,可用于数学、科学、工程学等领域

pyttsx3

2.9.0

主要用于将文本转换成语音

实训说明

新闻作为社会中获取信息的重要方式,仅一个新闻网站中的一个栏目,如人民网下的国际栏目,每天即可产生上百条新闻,而整个人民网网站每天可以产生成千上万条的新闻数据。庞大的数据量,加上形式的多样性,对于从事相关新闻归类处理的工作者来说,无疑是一个巨大的挑战,尤其处于当下快节奏的生活状态中。新闻文本分类技术可以帮助用户快速找到自身所感兴趣的新闻,提高信息获取的效率。通过对新闻文本进行分类,可以根据用户的阅读习惯为其提供个性化推荐,提高用户粘性。

通常情况下,新闻文本分类主要分为以下3个阶段。

(1)新闻文本数据准备阶段:通过Python爬虫的相关知识爬取原始数据。

(2)数据清洗和可视化处理阶段:对新闻文本数据进行文本基础处理、文本向量化等预处理,为后续建模打下基础。

(3)构建与训练模型阶段:基于SVM等算法,构建对应的模型,并进行模型优化、模型预测、结果评价等操作,最终实现新闻文本分类。

本项目将介绍基于SVM实现新闻文本分类的相关流程,该流程与通用流程存在一定差异。本项目的基本流程如REF_Ref130758967\h图41所示。

图STYLEREF1\s4SEQ图\*ARABIC\s11本项目的基本流程

实训步骤

爬取并分析新闻文本数据

本项目选取的是人民网教育类别的9个栏目(滚动、原创、留学、婴幼儿、中小学、大学、职业教育)下的部分新闻数据,数据遍布的时间为2019年7月8日-2021年2月25日共1284条发布的新闻数据。对新闻数据进行爬取的流程如REF_Ref130758980\h图42所示。

图STYLEREF1\s4SEQ图\*ARABIC\s12新闻数据的爬取流程

数据爬取

使用Python爬虫中的Requests、BeautifulSoup等常用库对人民网教育类别页面进行请求与解析,从而对页面中9个栏目(滚动、原创、思政、高考、留学、婴幼儿、中小学、大学、职业教育)下的新闻网页中的5个内容(栏目名称、新闻标题、发布时间、链接详情、新闻内容)进行信息爬取,并将爬取到的数据保存至本地

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档