互联网舆情信息获取与分析研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网舆情信息获取与分析研究 互联网舆情信息获取与分析研究 摘 要 本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino 脚本解析引擎,有效地解决了互联网中JavaScript 动态网页的获取问题。 同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法, 对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。 本文首先讨论了JavaScript 动态网页的获取,回顾了网页获取领域的 已有成果,列举了网页获取领域的基本知识,包括HTML 语言、HTTP 协议以及URL 统一资源定位符等基本概念,以及动态网页方面的相关知 识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应 的改进。 在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取 机制做了详细的说明。尽管传统的网页获取技术可以利用HTML 语言的 一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展, 越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真 分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试 验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。 接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类 领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分 词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文 本倾向性分析将是文本分类的一个重要发展方向。 III 互联网舆情信息获取与分析研究 在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法 做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、 政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分 类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适 当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证, 本文提出的综合的方法,可以有效地对文本进行倾向性分类。 关键字:网页采集,文本倾向性分析,动态网页 IV 知识水坝@pologoogle为您整理 互联网舆情信息获取与分析研究 REASERSH ON INTERNET PUBLIC OPINION INFORMATION EXTRACTION AND CLASSIFICATION ABSTRACT This paper makes relatively deep discussion in the field of Internet public opinion information extraction and classification. By using the Rhino script engine, it can be solved effectively that extracting the Internet JavaScript dynamic web page. And, by combining the text classification based on VSM (vector space model) and which based on semantics, making modification to traditional text orientation, the accurate and universality of the text orientation classification has been improved. At the first part, the extraction of JavaScript dynamic web page is discussed. It turns back to the achie

文档评论(0)

seunk + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档