孟石-正文--改重3.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
孟石-正文--改重3

孟石-正文--改重3 1、相关定义 1.1、DOM的定义及特点 DOM是Doeument Objeet Model文档对象模型的缩写。根据W3C DOM规 范[2],DoM是一种与浏览器,平台,语言无关的接口,使得你可以访问页面其 它的标准组件。 DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许 开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和 构造层次结构,然后才能开始做任何工作。由于它是基于信息层次的,因 而DOM被认为是基于树或基于对象的。 DOM的文档节点有Doeumeni、Element、Conunent、Type等等节点类型, 其中每一个DOM文档必须有一个Doculnent节点。DOM可以将整个HTML文 档展现为内存中的一棵树状结构(浏览器内存中仅仅只有一棵这样的HT入n二 DOM树,其根节点为Documellt对象),每个元素、属性都是树上的一个节点。 可以通过DOM API来访问这棵DOM树,遍历树上的节点、动态添加、删除树 上的节点、设置或修改某个节点的样式、设置或修改某个节点中保存的数值等 空名至 、犷。 总结以上DOM特点如下: (1) DOM就是一个对象化的数据接口; (2)一个与语言无关、与平台无关的标准接口规范; (3)它定义了HTML文档和XML文档的逻辑结构; (4)给出了一种访问和处理HTML文档和xML文档的方法(动态地创建文 档,遍历文档结构,添加、修改、删除文档内容,改变文档的显示方式等)。 图2.1可以表示为一棵DOM树,见图2.2。 第2章相关知识 “My first ParagraPh,, 图2.2图2.1中HTML代码对应的DOM树 从图中可以看出,整个文档就是一个文档节点,而每一个HTML标签都是 一个元素节点,包含在HTML元素中的文本则是文本节点。另外,每一个HTML 属性是一个属性节点,注释属于注释节点。总之,在DOM树里,一切都是节点。 通过研究发现,绝大部分的正文内容均出现在DOM树中底层的布局标签所在的 子树中。 1.2、网页正文的定义 本文的主要工作是对中文类型网页的正文抽取进行研究,如何定义网页正文 对实验结果的分析影响很大。一般情况下含有文字比较多的部分是网页正文,在 删除除链接块之后,正文字数占整个 web 网页文字数的绝大部分。web 网页正文 抽取的主要工作就是从网页中抽取这样的正文信息,并把抽取结果存储下来。本 文中对网页正文做出如下定义:网页正文是存在于网页中的文本,它和网页主题 相呼应、结构相对完整。 我们从 web 网页的结构分析,可以把常见的网页分为两种: (1) 主题类型网页 主题类型网页一般有至少一个主题,并且用成段的文字来描述。当然,这种 web 网页中也可能会有图片或超链接的出现,但是网页的主体部分不是这些图片 或超链接。新闻和博客网页是这类网页中最具有代表性的,如图 4-1 所示。 主题类型网页的特征有: (1)文字比较多主题类型网页一般都有比较明显的文本段落,相对应的标点符号 出现次数也比较多。 (2)url 比较长,在一般的 web 网站的导航网页上,主题类型网页主要分布在底层, 多数为叶子节点,对于同一个网站而言,主题类型网页的 url 比较长,url 体现了网站内 容的管理层次。 (3)主题类型网页的主体在于文字,相对于导航类型网页,其链接数量比较少。 主题类型的网页中,除了网页正文内容之外的信息称为噪音,下面的每一条 件都是噪音的充分条件: 和网页主题不相关的信息 多以链接的形式出现 在视觉上,经常出现在网页的边缘 网站的模板信息 有很多超级链接,但是标点符号较少 26 图 4-1 主题类型网页 (2) 导航类型网页 图 4-2 导航类型网页 27 有一类网页中含有大量的链接,这些链接有的是指向相同站点的网页,有的 是指向不同站点的网页,这一类型的网页称为导航类型网页,最具有代表性的是 网站的首页,如图 4-1 所示。 导航类型网页的特征有: (1)文字较少,导航类型网页的主体是链接,图像等内容,文字内容出现 的比较少。 (2)链接比较多,链接是导航类型网页的主要内容。 (3)url 比较短,导航类型网页的 url 层数比较少,并且大多是目录类型 url。 在导航类型网页中,超链接的分布是非常密集的。对这一类型网页进行信息 抽取时,需要过滤掉网页中的超链接、图片、声音等,网页正文的判断误差也比 较大。在本文中,对这类网页正文内容的定义是:不含有噪音信息的网页文本内 容。侧重于信息抽取系统对噪音信息的过滤删除能力。 1.3、重复网页定义 通过对搜索引擎中重复网页分析,可以发现有两种类型的重复网页。分别是: 完全重复网页和部分重复网页。前者学术上称其镜像网页,后者称为近似镜像网 页。

文档评论(0)

zqianqxf02 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档