网络舆情采集系统的设计(国外英语资料).docVIP

网络舆情采集系统的设计(国外英语资料).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情采集系统的设计(国外英语资料)

网络舆情采集系统的设计(国外英语资料) 如果你是我的朋友,你可以在这里输入你的信息,你可以在这里输入你的信息吗? 你有n g,也有n个g 一个e,一个,一个,一个,一个,一个,一个,一个,一个,一个 b箍c t:Ae e o rd的g lo w e fi e即n e y n d lo w结构e涂r e d e o n te n t o f罗n e ra l n e tw r o k p乌兰巴托谎言信息rm tio n e o米歇尔e tio sys - te m p叩e r p u ts fo rw ard n e tw o rk p u b躺在fo rm tio n e q u isitio n se他m e b se d o n d愤怒e tio n rc h o f al s e m己ti - 我是。 Im p ro v e b s D O M一se D w e b信息rm tio土石方u n e x tr e tio gh e O M b e D D OM一b和e D wi th R e邵守护神e x公关e s sio n s b,a,e,d,d ……这是一种系统,它是一种 菲 e riv e x tr,在输入输出的信息中 。 Th e 15μlti一Pro e e党卫军 我说的是 。 K eyw o r d s:Ne tw o r K p乌兰巴托躺在fo rm tio n;在fo rm io n前rrac tio n;Par le le r l e ra w:T e T e x交易e tio n:d o M tr e e 网络舆情采集系统的设计 梁勇,张文 装备指挥技术学院,北京10 1 4 1 6 【摘要】针对通用网络典情采集系统的效率低,内容结构化程度不够等不足,设计了基于定向搜索的多 进程网络典情采集系统,采用构建D OM树与正则表达式结合的方式,改善了基于D OM的网页内容提取。 通过测试,系统可以有效的提取结构化网络信息,多进程并发采集的效率有较大提高。 【关键词】网络典情;信息采集;并行爬虫;正文抽取;D OM树 的关键。 1引言 随着信息技术的迅速发展,网络成为人们获取信 息的重要途径和当今社会重要的舆情载体 ,网络资 源的迅速膨胀对社会的影响巨大,不论是国内外重大 事件还是社会生活中的敏感话题,都能迅速的形成网 络舆论,在社会中产生强大的影响力。因此,网络舆 情越来越受到政府,军队和企事业单位等机构的密切 关注。由于网络开放性和虚拟性,网络舆情具有自由 性,突发性等特点〔‘l,对网络舆情的监控显得十分 重要。 网络舆情采集主要基于网络爬虫实现,如全文 的网络爬虫[〕,主题网络爬虫等。文章“4〕提出 网络信息采集系统,文章L 一 J提出了对网页正文信 息的提取方法。然而,在海量的网络信息中,存在 着大量用户不关心的信息,用户关注的舆情信息只 占整个互联网中很小的一部分。如何高效、准确的 采集用户关心的信息成为网络舆情采集系统设计 通用的网络信息采集存在一定的局限性,如采集 的信息非结构化,采集目标局限性强,采集效率不高 等。针对以上问题,本文研究r定向的网络舆情采集 系统,采用多进程并发采集的方式对目标网站进行信 息采集,较大的提高了采集效率 。在内容抽取上改进 了基于D OM的网页信息抽取,提高了网络信息抽取 的结构化程度。 2系统概述 2。 The selection of content The vast, diverse network resources are not all Information is collected in the town. There are two main options for collecting content One aspect: one is choice range, two is the collection frequency. Online public opinion gathering The identification of the scope mainly includes the comprehensive collection, selection and mixing Three L lv). The overall collection of patterns is a big drain on system resources, So the Internets collection of online public opinion is usually taken by selecting the model Type. Selecting a collection requires the user to first

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档