浅谈基于DOM 树的信息推广平台设计.docVIP

下载本文档

11
0
约2.39千字
约 8页
2017-02-20 发布于河北
举报
版权申诉

浅谈基于DOM 树的信息推广平台设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈基于DOM 树的信息推广平台设计　　1引言　　随着“互联网+”时代的到来，信息的来源，可信度，及时度越来越受到人们的关注，但现在大多数的信息都是来自Web 网页，这样的信息多而杂，具网络资料显示，文本信息正以指数型式不断增长。为了节约时间，就有了基于Web 页面挖掘技术的产生。实现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式，它是腾迅公司在微信的基础上新增的功能模块，通过这一平台，个人和企业都可以打造一个微信的公众号，并实现和特定群体的文字、图片、语音的全方位沟通、互动。　　2Web 页面挖掘　　如今Internet 上很多网页都是动态生成的，通过用户填写表单提交信息，动态的生成Deep Web 页面，与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性，因此Web 数据记录所对应的标签树之间自然也具有很高的相识性，所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提取则可以分为以下几个步骤：　　(1)输入一些具有相同或相似结构的Web 页面。　　(2)对这些Web 页面进行预处理，就是将一些与网页无关的内容进行删除，将代码结构不严谨的HTML 页面转换成结构严谨、易于处理的HTML 页面。　　(3)将处理好的页面解析成以标签为队列的线性数据结构，接着利用标签队列的匹配去除页面中的广告，导航栏等。　　(4)按照一些页面性质将网页中的标签归类成为一些小集合，然后对这些小集合的有效数据进行自动抽取，并自动生成该类的模版页。　　3DOM 标签树　　HTML 通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML 的标签分为三类：　　(1)规划网页布局的标签。在视觉上，我们都知道网页是由无数的方块嵌套在一起组成，而里面的内容则是由标签规划出来的。常用的标签有：lt;divgt; lt;pgt; lt;tdgt; lt;trgt; lt;tablegt; lt;/tablegt; lt;/trgt; lt;/tdgt; lt;/pgt; lt;/divgt; 等。　　(2)描述显示特点的标签。在网页中常看到为了引起我们注意的不同格式文字，它们都是由一些标签规定的，这类标签称为信息标签。常用的有：lt;bgt; lt;igt; lt;stronggt; lt;h1gt; lt;h2gt; lt;/h2gt; lt;/h1gt; lt;/stronggt; lt;/igt; lt;/bgt; 等。　　(3)超链接相关的标签：超链接是网页区别于普通文本最明显的特征之一。它表示着网页间的关系，整理出超链接标签可以挖掘出网页间的相关内容。　　4部分功能与实现的步骤　　4.1HTML 的预处理　　现在大多数的网站都是以HTML 文档形式向客户展开，每一个页面中的数据和格式都是以一组成对的“始标记”与“结束标记”组成。例如：lt;brgt; 和lt;/brgt;，lt;bodygt;,lt;/bodygt; 等。在页面中的标签可以相互嵌套使用。为了避免网页不兼容、代码错误的现象可能导致的页面解析失败，我们可以先除去一些无用的标签，如：lt;fromgt;，lt;selectgt;，页面中的style 和注释等。　　可以把预处理流程归纳为：　　（1）获取THML 页面。　　（2）将HTML 转换成XHTML。　　（3）去除标签和无关脚本。　　（4）去除导航栏，广告等无关数据。　　去除style 和注释可以分别用正则表达式lt;style (? s) .* ? lt;/stylegt;gt;(\ r \ n)? 和lt;! - -(? s) . * ? - -gt;(\ r \ n)? 。去除广告，导航栏等信息的方法是主要将HTML 页面解析成标签树，在根据标签树中具有相同名称和属性的节点进行分析，判断该父节点及其以下的子节点是否相同，如果相同就从其父节点处删除。　　4.2HTML 页面的解析　　经过HTML 处理以后生成XHTML，使得Web 结构更加规整化。这样就更方便的判断其节点的类型，如果该节点是开始标签，那么就判断它的属性是否为空，如果不为空，则为开始标签删除其属性，直到仅剩下普通文本。再根据正则表达式提取我们所需要的信息。如果遇到该节点的结束标签，则进行下一个开始标签的分析，直至循环到该页面提取结束。　　5Dom 树与信息推送的联系 yj　　Web 页面信息提