信息采集技术在互联网舆情分析中应用.docVIP

下载本文档

7
0
约2.78千字
约 7页
2018-08-18 发布于福建
举报
版权申诉

信息采集技术在互联网舆情分析中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息采集技术在互联网舆情分析中应用

信息采集技术在互联网舆情分析中的应用　　摘要　　随着现代化信息技术的飞速发展，当前的网络环境也逐渐变得复杂，网络舆情对网民、社会的发展有重要的影响。网络舆情发生的范围广、传播快，因此，对网络舆情信息的采集与分析至关重要，信息采集技术在网络舆情分析中有着重要的作用，笔者根据自身多年的工作经验，谈谈信息采集技术在互联网舆情分析中的应用。　　【关键词】信息采集技术互联网舆情分析应用　　1 互联网舆情系统信息采集模块总体设计　　1.1 URL网站　　首先，要确保能获取站点内所有的URL地址，并将这个URL地址集合，之后逐个访问，访问完所有的URL网址。　　1.2 采集Ajax代码　　页面DOM结构树加载完成后，寻找并保存嵌在Ajax页面中的JavaScript代码和Ajax事件方法。　　1.3 触发Ajax事件　　该信息采集模块必须能模仿客户与Ajax动态页面进行交互，模拟触发事件，并记录和保存页面触发后生成的不同页面DOM结构树。　　1.4 合并DOM结构树　　合并处理形态各异的DOM结构树，找出结构中的干扰因素并剔除，获取用户需要的主题度偏高的页面内容。　　2 信息采集方案策略的设计　　笔者认为，必须做好信息采集方案策略的整体设计，同时确保后续信息提取分析工作的高效开展。　　2.1 动态页面DOM爬取阶段研究　　2.1.1 动态页面加载机制　　一般静态页面只包含HTML，并且页面利用客户端的网页浏览器直接解释、渲染、展示，不需要利用任何应用服务器来编译。我们在抓取页面时，如果服务前返回的网页内没有能利用客户端浏览器执行的脚本，那么此页面就属于静态页面。　　通常，静态页面中的超链接、文本结构内容是以URL地址和文本信息嵌入到页面源代码文档的HTML标签内。所以，在爬取静态页面的信息内容时，多利用HTML页面解析成文档DOM树，利用树节点中的元素节点、文本节点来提取信息，持续递归爬取过程，进而高效采集静态页面信息。　　动态页面虽然能给用户带来好的体验，但是，它的结构和工作原理比页面页面复杂很多。在开发互联网程序时，动态页面指将服务器端高级程序设计语言添加到网页开发代码文件中，如PHP、Java等等。服务器端后台程序要进行编译并且执行，从而连接后台服务器的数据库，并且将数据输入或导出，实现前台数据的交互、查询，执行结果也能在前端页面中得到展示。此类动态页面就是一般意义上的动态页面。　　另一方面，由于动态页面中存在很多浏览器端执行的Javascript脚本和Ajax异步调用的脚本，多以，动态页面的爬取和静态页面存在很多的不同。动态页面上一些关键的内容信息是在脚本程序完成解释后加载到页面结构中去，比较常见的有微博、社交页面等。这类页面中的新鲜事、好友圈、评论等信息是需要利用脚本来加载的，一般来说，只有用户主动出发，脚本才会加载。所以，如果采用传统的爬虫程序进行爬取的话，一些重要信息可能会被遗漏。　　页面加载需要利用浏览器中的页面加载渲染引擎来完成，它也是浏览器中的关键部分，主要工作就是整理页面内容、获取页面信息、明确页面显示方式，通过浏览器、打印设备展示。全部的应用程序客户端、浏览器引擎是离不开渲染引擎机制的。现阶段，虽然很多国家的浏览器在渲染细节与效果上都有所不同，但是在页面的渲染、嵌入文件的下载等方面是一样的。　　2.1.2 动态页面DOM爬取步骤　　我国传统的网络爬虫是根据相关策略，逐个爬取静态页面的URL地址，但是Ajax页面与静态页面不同，很多关键信息都是用户自己主动触发事件之后才显示的，所以，需要立足于传统的爬虫程序，进行扩展，等到它能模拟真实用户的行为完成事件的触发、记录和保存事件触发后的状态，才能进行下一步的爬取工作。　　一般来说，一个Ajax页面内有很多信息与用户之间是需要交互的，这个交互行为要利用页面事件来完成，对于真实用户来说，用户的交互行为包括点击鼠标、移入移出鼠标、拖动和滚动鼠标等等，相应页面中的Javascript代码、Ajax方法会及时对用户的各种行为事件作出处理。　　Ajax页面信息爬取的基本流程为：获取Ajax页面的URL地址，这个URL地址是加载过的并且没有用户交互行为的DOM结构树，其次，查询该DOM结构树中的所有事件，将这些事件排成一个队列，然后逐个触发事件、记录与保存触发后的DOM结构树，最终检查事件中是否存在未触发过的事件，若有，继续爬取；若没有，就输出整个过程中生成的DOM结构树。　　2.2 动态页面DOM优化阶段研究　　2.2.1 动态页面DOM干扰实验　　网络爬虫完成一个URL的爬取时，该URL解析加载后会呈现我们需要的信息，同时，也会呈现一些与我们无关的信息，从DOM结