海量web舆情挖掘算法研究-软件工程专业论文.docxVIP

海量web舆情挖掘算法研究-软件工程专业论文.docx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得电子科技大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示谢意。 签名: 日期: 年 月 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: 年 月 日 万方数据 万方数据 摘要 摘 要 web 舆情是互联网上围绕中介性社会事件的发生、发展和变化,民众对社会 管理者产生和持有的社会政治态度,它主要以论坛、博客、新闻跟帖为载体。由 于网络舆论的自由性和随意性,越来越多的网民乐意借助论坛、博客、新闻跟帖 等方式发表观点、相互交流。网民凭借互联网高度开放自由的优势,对社会发展 中的种种问题畅所欲言,能在极短时间内凝聚共识,诱发行动,影响社会。然而 由于网民阅历和思想认识水平的局限性,很难在短时间内理清事情背后复杂的社 会和心理动因,非理性和过于主观的声音经常容易占据上风,从一系列突发事件 来看,网民通过网络爆发出的舆论能量不容忽视。在互联网影响力日益增大的今 天,互联网已成为思想文化的集散地和社会舆论的放大器,web 舆情变得越来越重 要。各级党政机关、企事业单位和学术机构都越来越重视互联网舆情的监测、研 究和引导。我们要充分认识以互联网为代表的新兴媒体的社会影响力。因此,快 速、准确的发现 web 舆情并对 web 舆情进行有效监控势在必行。 目前最大的信息系统 web,其数据具有海量、多样、异构、动态变化等特性。 这样使得依靠人工的方法难以应对海量 web 信息的收集和 web 舆情的发现。本文 为了解决上述问题,对 web 信息的采集和 web 舆情的发现进行了学习和研究。研 究的主要内容包括:网络爬虫技术,并行计算技术,数据划分技术,web 舆情发现 技术。首先,在研究现有爬虫技术的基础上,设计了一种可更改策略的网络爬虫 系统,该爬虫以通用爬虫为主体进行爬行,并能更改爬行时间和爬行方式,从而 使爬虫更加友好并能有效利用网络资源。接着,对 web 舆情发现进行了研究,提 出了一种基于两层结构的分类方法,试验证明,本文提出的分类算法具有较好的 准确性和实用性。同时,利用基于最大频繁词集的数据划分方法对传统的凝聚式 层次聚类算法进行了并行化实现。然后,将基于最大频繁词集的数据划分方法在 HADOOP 平台上进行了实现,测试结果说明 HADOOP 在处理大规模数据时具有明显的 优势。最后,根据上述研究工作,设计并实现了一个 web 舆情发现系统,该系统 集可更改策略的爬虫与 web 舆情发现于一体,具有友好的界面,可以对 web 信息 进行有效的采集,并能较准确地发现 web 舆情。 关键词 :网络爬虫,web 舆情发现,分类,聚类 I ABSTRACT ABSTRACT web public opinion is defined as peoples attitude to some social events and it spreads by forum, blog. The open and free nature of Internet makes itself convenient to everybody and a growing number of Internet users willing to express their views by forum and blog.In the web forum, people can speak freely for any social problems and their views can be easily forged to consensus in a very short time, which will affect society. However, as the limitations of expericence, the views expressed by internet users are extreme and one-side. The popularity of the network makes the web publ

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档