- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
能源经济与管理大数据处理与分析案例09
能源政策文本分析EnergyPolicyTextAnalysis
9.1.1案例描述能源政策对于政府、企业等均具有重要影响,对于政策的把握有助于进行科学决策,文本大数据处理与分析技术为能源政策的研究提供了一种新的工具。本案例通过爬虫程序爬取能源网站能源要闻页面的文本,绘制词云图,根据词云图中关键词的出现频率分析能源政策的关注重点。本案例主要介绍能源政策文本数据采集和分析技术的实现方法,包括新闻文本的爬取、文本处理和存储、词云图生成与结果分析等。
9.1.2能源政策文本数据采集案例文本数据可从国家能源局网站的能源要闻页面采集,该页面包含大量关于能源政策和发展动态的信息,能够反映我国能源政策的导向与实践效果。本节仅采集2023年的文本数据进行案例展示,其他时间的数据可采用相同方法获取并分析。在编写Python爬虫前,需明确目标页面的URL,然后利用urllib+正则表达式爬取能源要闻的内容,并解析网页获取标题和正文。最终,将爬取的文本数据保存至TXT文件,以便后续分析和处理。
9.1.2能源政策文本数据采集Python爬虫程序包含三个部分的内容。发送请求能源政策文本数据采集使用urllib库,主要使用的是urllib.request,使用前需要提前导入这个库。使用response对象接收打开的页面,之后用定义过的空字符串读取response中的HTML页面代码,注意使用“UTF-8”形式。为了避免异常情况发生,在访问页面时,可以增加try、except方法进行异常处理。发送请求的代码如下。
9.1.2能源政策文本数据采集爬取能源要闻标题和正文爬取能源要闻标题和正文需要调用Python中的re库,可以使用import提前导入这个库。使用pile()结合findall()函数解析response,爬取能源要闻标题和正文并输出,其中正文爬取了两次,分别用于缩小范围和爬取正文内容。编写代码之前需要提前找好网址中标题和正文内容所在的位置。首先在能源要闻页面使用F12键,打开页面调试窗口。在页面调试窗口上的导航栏中找到元素,单击框选的位置,然后分别单击标题和正文,可以发现标题在“divclass=”titles“/div”元素之间,正文在“p/p”元素之间,如下图所示。
9.1.2能源政策文本数据采集爬取能源要闻标题和正文的代码如下。
9.1.2能源政策文本数据采集主函数主函数部分需要调用Python的BeautifulSoup库,可以使用import提前导入这个库。程序中通过指定能源要闻页面的URL地址,进行遍历爬取。此处仅爬取2023年的能源要闻,共需要爬取6个页面,因此需要将所有页面网址存入urls_news列表。利用同样的方法可以获取标题链接(在特征为“class=box01”的div标签中的li标签中),其中urls即链接所在列表。最后使用for循环遍历列表中的所有链接,调用上文中的get_page()和get_parser()两个函数爬取标题和正文。
9.1.3能源政策词云图将上文爬取的能源要闻标题和正文的文本内容进行分词,并绘制词云图。Python程序代码编写共分为以下三个阶段。准备阶段需要提前安装matplotlib库、jieba库和WordCloud库。因为WordCloud库默认不支持中文,所以这里需要下载好中文字库,本文使用的是“思源屏显臻宋.ttf”。同时,由于语气词、虚词、标点符号等在文本中出现频率较高,但并没有实际意义,而且影响词频分析结果,因此需要添加停用词,以排除掉这些词语,可以使用停用词词库文件或手动添加停用词(本书使用的是“cn_stopwords.txt”词库文件,文件中可以继续添加停用词)的方法。最后需要准备词云图呈现形状的图片,一般为白底黑色填充的图片样式。读取文本并分词将上文中爬取的能源要闻标题和正文文本保存进“word_cloud_text.txt”文件中,通过read()函数读取文件内容。利用jieba库进行分词形成列表(使用导入的jieba库),将列表里面的词用空格分开,并拼接成长字符串,最后导入停用词。读取文本并分分词的代码如下。
9.1.3能源政策词云图
9.1.3能源政策词云图生成词云图并保存先导入下载好的中文字库和形状图片,再使用np.array()函数处理图片(此处需要导入numpy库),使用WordCloud()函数设定好词云图的字体、背景色、背景宽和高、最大最小字号等(需要提前导入WordCloud库),生成词云图并保存,最终以图片形式显示。生成词云图并保存的代码如下。
9.1.3能源政策词云图词云图如下图所示。由上面的词云图能够看出,“项目”“发展”“企业”“技术”“创新”“新能源”“绿色”“低碳”“电力”“储
您可能关注的文档
- 能源项目风险管理 课件 1-绪论;2-能源项目风险规划管理.pptx
- 能源项目风险管理 课件 3-能源项目风险识别管理;4-能源项目风险估计管理.ppt
- 能源项目风险管理 课件 5-能源项目风险评价管理;6-能源项目风险应对管理.ppt
- 能源项目风险管理 课件 7-能源项目风险监控管理;8-能源项目技术风险管理;9-能源项目群风险管理.pptx
- 能源大数据分析理论与实践 课件 11.油气大数据分析案例;12.电力大数据分析.pptx
- 能源大数据分析理论与实践 课件 1.大数据概述;2.数据获取与预处理.pptx
- 能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析.pptx
- 能源大数据分析理论与实践 课件 4.分类分析;5.聚类分析.pptx
- 能源大数据分析理论与实践 课件 5.聚类分析;6.深度学习.pptx
- 能源大数据分析理论与实践 课件 7.能源系统;8.能源大数据应用.pptx
文档评论(0)