- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Windows Azure云计算舆情监控系统服务器模块设计与实现
基于Windows Azure云计算舆情监控系统服务器模块设计与实现
摘要:在网络爬虫和关键字搜索的基础上,利用C#开发数据管理和收集服务,结合云服务思想,将服务器部署于Windows Azure,利用云计算方式,提高服务器运行效率和数据采集与筛选效率。
关键词:舆情监控;云服务;网络爬虫
中图分类号:TP319文献标识码:A文章编号:1672??7800(2014)007??0069??03
0引言
当前我国网民数量迅猛增长,互联网规模跃居世界第一。网络信息传播呈爆炸式发展,传播速度快,传播范围广。舆情监控不仅仅是为了剔除其中恶意散布的信息,也是掌握民意的一种重要渠道。换句话说,采用技术手段在大范围内进行民意调查,了解民众关注的焦点,深入探索民众对焦点问题的看法。
目前,对舆情进行研究的机构主要集中在社科院、中科院以及高等院校,如天津市社科院舆情研究所、北京交通大学网络舆情安全研究中心、新传媒网络舆情技术实验室、北京理工大学网络与分布式计算实验室、华中科技大学舆情信息研究中心、中国传媒大学网络舆情研究所、中科院软件中心等。此外,还有北京拓尔思(TRS)信息技术股份有限公司、北大方正智思软件公司等。这些机构基于电子信息技术理论支持,开发出了舆情监控系统。目前,我国舆情监控才刚刚起步,它是伴随着国内互联网的快速发展而产生的。最早提出舆情监控系统理论模型的是北大李晓明教授,他提出的模型包括样本空间选取、主题特征提取、目标参量设置、网页收集、数据处理等模块。此后,舆情监控系统逐渐成熟和完善。
1系统功能需求
本系统主要有3个方面的需求,如图1所示。
1.1数据采集
数据?集是对网络监控内容的搜集整理,一般通过网络爬虫?集指定网址上的内容,并按照某种格式(如html、xml)进行保存。同时,根据一定的规则将文章、版块、栏目等保存到不同的文件夹中,方便查找和使用。
图1系统需求
1.2数据整理
数据整理主要是对数据进行索引,索引后的数据按照某种方式存放,为快速查找打下基础。
1.3数据使用
数据使用包括舆情热点、舆情预警、热点追踪、全文追踪和模糊查找等5个方面,是本系统要解决的关键问题,具体如下:
(1)舆情热点。从所采集的数据中提取最热门的话题,并将排名最靠前的话题一一列举出来。通过此功能,能够快速掌握当前的舆论热点。
(2)舆情预警。对敏感词汇进行重点关注、审查。自动在相关资料中进行排查,一旦发现敏感词汇,马上进行提示,提醒使用者立即关注。
(3)热点追踪。使用者对某一热点话题进行追踪,如某一时期“钓鱼岛”是一个热点话题,那么通过热点追踪功能,可将有关“钓鱼岛”的全部信息检索出来,对这些信息进行浏览,掌握民众对当前热点问题的看法。
(4)全文追踪。热点追踪功能仅就某一个话题进行追踪,追踪结果围绕话题展开,包含消极和积极的信息,正面和负面的观点。如果就某个话题的某种具体观点进行追踪,就需要使用全文追踪功能。指定一篇具体文章,系统可自动分析文章的主要内容,然后在全部资料中进行查找,搜索出与此文章类似的信息,如果指定文章的态度是负面的,那么查找出的信息中绝大多数都是负面信息;如果指定文章的态度是正面的,那么查找出的信息中绝大多数都是正面信息。无疑可进一步节省信息审查工作量。
(5)模糊查找。模糊查找是一种智能查找方式,可以检索包含敏感词的词条,自动按照所输入敏感词的同义词进行检索。
2系统架构设计
2.1系统总体架构
本系统主要由数据采集模块、数据索引模块和数据分析模块3个模块组成。数据采集模块主要分析URL下载资源数据;数据索引模块主要将数据采集模块?集到的数据进行索引;数据分析模块利用索引数据库,对数据进行分析并将结果返回给用户应用接口。用户应用接口提供用户输入指令,并将结果在用户界面显示。系统所使用的数据库为采集资料数据库和索引数据库,这两个数据库中的数据,都按照指定的格式进行存放,以方便管理。同时,能够快速检索数据。
2.2数据转换过程
系统数据转换过程如图2所示。
首先,对网络中的有关信息资源通过采集模块进行采集并保存成html或xml文件,通过索引模块将采集的数据进行索引,保存为分词数据的格式文件;其次,检索模块对索引数据进行检索,生成检索结果中间文件,对其进行解析后,保存为xml文件或特定的内存格式数据;最后,将检索结果显示在用户界面上。
图2数据架构
2.3系统部署结构
系统部署结构如图3所示。索引服务器和检索服务器是系统核心,与其紧密相连的是数据索引程序和数据检索程序,是系统的核心层。核心层外围为数据采集程序和客户端。
2.4系统功能
您可能关注的文档
- 基于Web教学设计方法与技术.doc
- 基于WEB教学质量评价系统探索研究.doc
- 基于Web教师工作平台设计与实现.doc
- 基于Web教师研修平台设计与应用.doc
- 基于Web数据备份与恢复.doc
- 基于Web数字校园单点登录系统研究.doc
- 基于WEB数字电路交互式学习平台设计.doc
- 基于Web数据库技术.doc
- 基于Web数据库技术探究.doc
- 基于Web数据库技术浅析.doc
- 基于Windows CE图像传输研究.doc
- 基于Windows CE平台电源管理研究.doc
- 基于Windows CE网络化人体生理参数监护系统研究.doc
- 基于Windows DNA架构ERP系统应用研究.doc
- 基于Windows Mobile平台移动售后维修服务系统设计.doc
- 基于Windows Mobile手机联系人备份系统设计.doc
- 基于Windows Mobile校园移动向导系统设计.doc
- 基于Windows Phone 8.1平台定位技术.doc
- 基于Windows Phone 8.1平台蓝牙通信技术.doc
- 基于Windows Server 2003Web服务器安全技术探讨.doc
最近下载
- 2025-2026学年高中政治必修1课后习题第三课第一框伟大的改革开放.pdf VIP
- 中建项目经济资料管理指引.pdf
- 2024年消毒供应技能大赛试题及题库.docx VIP
- 中医基础理论教材重点笔记详解.doc VIP
- 2024年内蒙古北方职业技术学院单招英语考试试题及答案解析.docx VIP
- 学习解读《干部教育培训工作条例》2023年全文PPT.ppt VIP
- 《长沙过贾谊宅》中考阅读经典赏析试题(共11题).docx VIP
- 2024年内蒙古交通职业技术学院单招英语考试试题及答案解析.docx VIP
- 破坏性MSA分析方法.ppt VIP
- 2024年内蒙古交通职业技术学院单招英语考试模拟试题及答案解析.docx VIP
文档评论(0)