基于数加分析政府工作报告.docxVIP

  • 3
  • 0
  • 约 12页
  • 2017-07-01 发布于重庆
  • 举报
基于数加分析政府工作报告

基于数加分析政府工作报告 本文章来自于阿里云云栖社区 摘要:?摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。 摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。笔者从新浪、搜狐、网易等各大门户网站上爬取部长答记者问的相关新闻数据导入到阿里数加平台,基于阿里数加算法平台与Maxcomputer,采用分词、TFIDF、LDA、聚类等文本分析算法,分析两会部长通道都回答了哪些热点问题,都有哪些主题。另外分析了40年《政府工作报告》中关注焦点的变化,以及在2017年的《政府工作报告》又出现了哪些新词汇与热词。 一、文本分析架构 文本分析架构图 1.数据源:主要为互联网各大网站上的文本数据; 2.数据采集:采用爬虫技术,获取网站的文本数据; 3.数据同步至阿里云:使用DataX工具将文本数据导入到在ODPS建立的表中; 4.流程计算:阿里云建立算法分析流程; 5.分析结果:对计算出的词频以及主题存储于表; 6.数据可视化展示:从数据库中读取结果数据进行可视化展示。 二、

文档评论(0)

1亿VIP精品文档

相关文档