浅谈基于DOM 树的信息推广平台设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈基于DOM 树的信息推广平台设计   1引言   随着“互联网+”时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web 网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web 页面挖掘技术的产生。实现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特定群体的文字、图片、语音的全方位沟通、互动。   2Web 页面挖掘   如今Internet 上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成Deep Web 页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web 数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提取则可以分为以下几个步骤:   (1)输入一些具有相同或相似结构的Web 页面。   (2)对这些Web 页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML 页面转换成结构严谨、易于处理的HTML 页面。   (3)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。   (4)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。   3DOM 标签树   HTML 通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML 的标签分为三类:   (1)规划网页布局的标签。在视觉上,我们都知道网页是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划出来的。常用的标签有:lt;divgt; lt;pgt; lt;tdgt; lt;trgt; lt;tablegt; lt;/tablegt; lt;/trgt; lt;/tdgt; lt;/pgt; lt;/divgt; 等。   (2)描述显示特点的标签。在网页中常看到为了引起我们注意的不同格式文字,它们都是由一些标签规定的,这类标签称为信息标签。常用的有:lt;bgt; lt;igt; lt;stronggt; lt;h1gt; lt;h2gt; lt;/h2gt; lt;/h1gt; lt;/stronggt; lt;/igt; lt;/bgt; 等。   (3)超链接相关的标签:超链接是网页区别于普通文本最明显的特征之一。它表示着网页间的关系,整理出超链接标签可以挖掘出网页间的相关内容。   4部分功能与实现的步骤   4.1HTML 的预处理   现在大多数的网站都是以HTML 文档形式向客户展开,每一个页面中的数据和格式都是以一组成对的“始标记”与“结束标记”组成。例如:lt;brgt; 和lt;/brgt;,lt;bodygt;,lt;/bodygt; 等。在页面中的标签可以相互嵌套使 用。为了避免网页不兼容、代码错误的现象可能导致的页面解析失败,我们可以先除去一些无用的标签,如:lt;fromgt;,lt;selectgt;,页面中的style 和注释等。   可以把预处理流程归纳为:   (1)获取THML 页面。   (2)将HTML 转换成XHTML。   (3)去除标签和无关脚本。   (4)去除导航栏,广告等无关数据。   去除style 和注释可以分别用正则表达式lt;style (? s) .* ? lt;/stylegt;gt;(\ r \ n)? 和lt;! - -(? s) . * ? - -gt;(\ r \ n)? 。去除广告,导航栏等信息的方法是主要将HTML 页面解析成标签树,在根据标签树中具有相同名称和属性的节点进行分析,判断该父节点及其以下的子节点是否相同,如果相同就从其父节点处删除。   4.2HTML 页面的解析   经过HTML 处理以后生成XHTML,使得Web 结构更加规整化。这样就更方便的判断其节点的类型,如果该节点是开始标签,那么就判断它的属性是否为空,如果不为空,则为开始标签删除其属性,直到仅剩下普通文本。再根据正则表达式提取我们所需要的信息。如果遇到该节点的结束标签,则进行下一个开始标签的分析,直至循环到该页面提取结束。   5Dom 树与信息推送的联系 yj  Web 页面信息提

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档