- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
《自然语言处理技术》
目录
TOC\o1-4\h\z\u项目4 基于SVM实现新闻文本分类 1
1 实训目标 1
2 实训环境 1
3 实训说明 1
4 实训步骤 2
4.1 爬取并分析新闻文本数据 2
1. 数据爬取 3
2. 数据清洗 11
3. 可视化展示 12
4.2 预处理新闻文本数据 16
1. 文本基础处理 17
2. 文本向量化 19
4.3 构建SVM模型 21
1. 数据划分 21
2. 构建模型与模型优化 22
4.4 模型评价 24
4.5 模型预测 26
5 实训小结 27
基于SVM实现新闻文本分类
实训目标
掌握BeautifulSoup4库解析HTML和XML文件,获取有用的新闻文本信息。
掌握pandas和NumPy库进行数据分析和处理,完成新闻文本数据的预处理。
掌握jieba库实现中文分词,Gensim库进行文本向量化和主题建模。
掌握imageio库进行图像读写和处理,以及Matplotlib库进行数据可视化。
掌握scikit-learn库构建支持向量机(SVM)模型,进行模型训练、评价和预测。
掌握WordCloud库生成词云图,直观展示新闻文本数据中的高频词汇。
实训环境
环境
版本
说明
Windows10
64
电脑操作系统
Python
3.8.5
Python语言版本
pandas
1.3.0
主要用于数据读取、清洗等操作
NumPy
1.21.6
主要用于Python中的数值计算
jieba
0.42.1
主要用于文本分词
Gensim
4.2.0
主要用于检索文本、计算文本相似度、训练词向量、建模主题等
Matplotlib
3.3.0
主要用于数据可视化
PaddlePaddle
2.4.2
是一个深度学习框架,提供了高效的计算框架和优化算法
PaddleSpeech
1.2.0
主要用于语音和音频中的各种关键任务的开发
scikit-learn
1.0.2
广泛地用于统计分析和机器学习建模等数据科学领域
Librosa
0.8.1
主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库
NLTK
3.5
是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等
SciPy
1.7.3
是一个科学计算工具包,可用于数学、科学、工程学等领域
pyttsx3
2.9.0
主要用于将文本转换成语音
实训说明
新闻作为社会中获取信息的重要方式,仅一个新闻网站中的一个栏目,如人民网下的国际栏目,每天即可产生上百条新闻,而整个人民网网站每天可以产生成千上万条的新闻数据。庞大的数据量,加上形式的多样性,对于从事相关新闻归类处理的工作者来说,无疑是一个巨大的挑战,尤其处于当下快节奏的生活状态中。新闻文本分类技术可以帮助用户快速找到自身所感兴趣的新闻,提高信息获取的效率。通过对新闻文本进行分类,可以根据用户的阅读习惯为其提供个性化推荐,提高用户粘性。
通常情况下,新闻文本分类主要分为以下3个阶段。
(1)新闻文本数据准备阶段:通过Python爬虫的相关知识爬取原始数据。
(2)数据清洗和可视化处理阶段:对新闻文本数据进行文本基础处理、文本向量化等预处理,为后续建模打下基础。
(3)构建与训练模型阶段:基于SVM等算法,构建对应的模型,并进行模型优化、模型预测、结果评价等操作,最终实现新闻文本分类。
本项目将介绍基于SVM实现新闻文本分类的相关流程,该流程与通用流程存在一定差异。本项目的基本流程如REF_Ref130758967\h图41所示。
图STYLEREF1\s4SEQ图\*ARABIC\s11本项目的基本流程
实训步骤
爬取并分析新闻文本数据
本项目选取的是人民网教育类别的9个栏目(滚动、原创、留学、婴幼儿、中小学、大学、职业教育)下的部分新闻数据,数据遍布的时间为2019年7月8日-2021年2月25日共1284条发布的新闻数据。对新闻数据进行爬取的流程如REF_Ref130758980\h图42所示。
图STYLEREF1\s4SEQ图\*ARABIC\s12新闻数据的爬取流程
数据爬取
使用Python爬虫中的Requests、BeautifulSoup等常用库对人民网教育类别页面进行请求与解析,从而对页面中9个栏目(滚动、原创、思政、高考、留学、婴幼儿、中小学、大学、职业教育)下的新闻网页中的5个内容(栏目名称、新闻标题、发布时间、链接详情、新闻内容)进行信息爬取,并将爬取到的数据保存至本地
您可能关注的文档
- 自然语言及语音处理项目式教程 课件1.3.1-1部署Python开发环境.pptx
- 自然语言及语音处理项目式教程 课件1.3.1-2安装NLP常用的库.pptx
- 自然语言及语音处理项目式教程 课件2.2.2 中文分词.pptx
- 自然语言及语音处理项目式教程 课件2.2.2-3中文文本分词实例.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注和命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件2.2.4-1初识关键词提取.pptx
- 自然语言及语音处理项目式教程 课件2.2.5-1命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-2文本向量化之Word2Vec.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-4文本相似度计算.pptx
- 2025至2030全球及中国订单管理软件行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030国内液晶显示屏行业市场发展分析及竞争策略与投资发展报告.docx
- 2025至2030港口设备市场前景分析及细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030量子加密通信行业发展现状及投资前景战略报告.docx
- 2025至2030中国音乐合成器行业运营态势与投资前景调查研究报告.docx
- 2025至2030中国液压行业市场发展现状及竞争格局与投资机会报告.docx
- 2025至2030中国异戊橡胶行业运营态势与投资前景调查研究报告.docx
- 2025至2030帕西肽行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030全球及中国超收敛集成系统行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030尖齿铣刀行业市场占有率及有效策略与实施路径评估报告.docx
最近下载
- 全维状态观测器(线性系统).ppt VIP
- 5MeV电子辐照加速器剂量分布与辐射屏蔽研究.pdf VIP
- 2024年C题优秀论文亚太杯数学建模竞赛一等奖.pdf VIP
- 核电厂乏燃料贮存格架水下吊装工具研制.docx VIP
- 机器学习课后习题答案(周志华).pdf VIP
- 七年级语文上册期末考试卷(附答案).pdf VIP
- 新型工艺路线下联产哌嗪和N - 乙基哌嗪的深度探究与优化策略.docx
- 2023年西南交通大学公共课《思想道德基础与法律修养》科目期末试卷A(有答案).docx VIP
- 吉林省吉林市2024-2025学年高一上学期期末调研生物试题.docx VIP
- 武汉生物工程学院《大学英语》2021-2022学年第一学期期末试卷.doc VIP
原创力文档


文档评论(0)