主题型网页发现以及网页内信息块发现.ppt

主题型网页发现以及网页内信息块发现.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题型网页发现以及网页内信息块发现 华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢 主题型网页发现 目录 特征分析 算法设计 结果分析 不足与改进 特征分析 主题型网页特征: 文字较多(非锚文本) 主题型网页一般都有明显的文本段落,文字较多,相应的标点符号也较多。 URL较长 在一般的Web网站链接导航树上,主题型网页主要分布于底层,多为叶节点。对于同一网站而言,主题型网页的URL相对较长。URL体现了网站内容管理的层次,对于大型网站而言,URL往往非常有规律。 链接较少 主题型网页的主体在于“文字”,相对于导航型网页,其链接数较少。 特征分析 非主题型网页特征 文字较少 非主题型网页的主体是链接,图像,或者其它形式的内容,文字较少 链接较多 对于导航型网页而言,链接是其主要内容 URL较短 导航型网页的URL层数较少,且多为目录型URL 特征分析 网页噪音特征 多以链接的形式出现 有很多锚文本,但标点符号较少 有许多常见的噪音文本,如版权声明等 在视觉上,多出现于网页的边缘 算法设计 主题型网页发现:对网页进行二元分类 分类过程分为三个阶段: 阶段1: 根据主题型网页的重要特征进行分类,这些重要特征主要包括:标点符号数目,文字数目。无需复杂算法,只需设置特征阈值。 阶段2: 对在阶段1中无法确定分类的网页,提取更多的特征,利用分类器(如支持向量机)进行进一步的分类。这一阶段的特征有:URL层数、URL中数字的个数、文字数目、标点符号数目等。 阶段3: 经过上面两个阶段的分类之后,对主题型网页进行信息块抽取,根据抽取结果的反馈,进一步筛选网页,去掉非主题型网页。 算法设计 关键1:网页去噪 利用HTML分析工具(HtmlParser)去除所有脚本代码 去除网页中的所有锚文本 网页噪音多为广告,以链接的形式出现 过滤常见的噪音文本 去掉以非锚文本形式出现的网页噪音 算法设计 关键2:特征阈值设定 重要特征: 网页正文内容中的中文句号和逗号的数目 URL层数 URL是否为目录型,是否包含某些特殊关键字 …… 阈值设置:抽样测试表明,当网页的句号和逗号数目超过20个时,绝大部分的网页为主题型网页;当句号和逗号数目少于5时,绝大部分的网页为非主题型网页; 当URL层数为1时,绝大部分的网页为非主题型网页; 当URL为目录型URL时,绝大部分的网页为非主题型网页; 算法设计 关键3:分类器 分类器的选择 有监督分类器:支持向量机 无监督分类器:KNN聚类 分类器的特征选择 网页正文文字数目 网页正文标点符号数目 URL层数 URL中数字的个数 …… 结果分析 测试集:cwt_quark_70thousand 71502个web 阶段1: (输入71502个web ) 主题型网页:33161个 非主题型网页:19623个 无法判断的网页:18718个(26.18%) 阶段2: (输入18718个web ,利用SVM分类) 主题型网页:15139个 非主题型网页:3579个 阶段3: 根据主题型网页信息块抽取结果,去掉只能抽取到极少内容的主题型网页3206个 最终: 主题型网页:45094个(63.07%) 非主题型网页:26408个(36.93%) 结果分析 从阶段1的分类结果看出:大部分的网页(73.82%)可以根据网页的重要特征的阈值进行分类,方法简单高效。 虽然只有26.18%的网页需要利用分类器进行进一步的分类,但这26.18%的网页可能恰恰决定了本算法的分类效果。因为这26.18%的网页都是模棱两可的,对它们进行准确的分类至关重要! 由于阶段1和阶段2都可能存在一定的误差,因此经过信息块抽取之后的反馈是很重要的。 不足与改进 对网页的特征选择与抽取还有待完善,期望以后能挖掘出更能描述网页性质的特征。 在网页去噪方面略显粗糙,需做进一步改善 阶段1的特征阈值设定过于简单。 阶段3的反馈机制过于简单。 网页内信息块发现 一、术语定义 主题型网页:主题型网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。 PlainText:最终在浏览器中显示的文本,而且这些文本不是锚文本。 AnchorText:锚文本,这些文本也会在浏览器中显示,但是这些文本也是跳往其他网页的链接。 二、主题型网页特点 主题型网页通常包含利用大量的文本来介绍,而且这部分文本中绝大部分都是PlainText。 将网页以树(Tree)的形式表现, HTML标签以及标签内的文本都作为树的(Tree)节点存在于该树中。 HTML(HTML)成为这棵树的根节点 大部分的叶子节点都是文本节点 主题型网页的

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档